最大似然估计（Maximum Likelihood，ML）

先不要想其他的，首先要在大脑里形成概念！

最大似然估计是什么意思？呵呵，完全不懂字面意思，似然是个啥啊？其实似然是likelihood的文言翻译，就是可能性的意思，所以Maximum Likelihood可以直接叫做最大可能性估计，这就好理解了，就是要求出最大的可能性（下的那个参数）。

一些最基本的概念：总体X，样本x，分布P(x；θ)，随机变量（连续、离散），模型参数，联合分布，条件分布

而似然函数在形式上,其实就是样本的联合密度：L（θ）= L（x1,x2,…,xn；θ）= ΠP（xi；θ）称为似然函数。

再读一篇文章，明确最基本的概念：概率与似然（解释的非常通俗易懂）

条件概率：P(A|B)表示在B事件发生的情况下，A事件发生的概率。

先验概率：根据以往经验和分析得到的概率,如全概率公式,它往往作为"由因求果"问题中的"因"出现.

后验概率：依据得到"结果"信息所计算出的最有可能是那种事件发生,如贝叶斯公式中的,是"执果寻因"问题中的"因".

后验概率在实际中一般是很难直接计算出来的，相反先验概率就容易多了。因此一般会利用先验概率来计算后验概率。

可以再看一篇：先验概率、似然函数与后验概率

最近用到的GATK call variation 生成的 gvcf文件里有一行PL，使用的就是 likelihood，所以必须要搞清拟然值到底是什么。

当初研究生时，觉得统计知识无聊，没有好好学，现在要用了，才知道那些都是基础中的基础，基础都不好，后面项目怎么做？

还要捡起大学《概率论》的基础知识

参考资料：

最大似然估计总结笔记博客园

两篇关于最大似然估计和贝叶斯估计的入门文章 - 博客园讲得非常好

最大似然估计法 - 文库大学级别的基础知识，有大学基本例题

基本思想：当从模型总体随机抽取n组样本观测值后，最合理的参数估计量应该使得从模型中抽取该n组样本观测值的概率最大，而不是像最小二乘估计法旨在得到使得模型能最好地拟合样本数据的参数估计量。

作用：用来求一个样本集的相关概率密度函数的参数。

它是总体类型已知条件下，使用的一种参数估计方法。

选择一组参数，使得样品实验结果具有最大的概率。

必须知道总体的分布，离散型还是连续型，分布律，联合分布律，似然函数，极大似然估计值。

求参数最大似然估计步骤：

写出样本对应的似然函数；
取对数；
对各个参数求偏导数，置零；
解除每一个参数。

之前学过贝叶斯推断，感觉和最大似然估计很像，两者之间有何区别呢？

极大似然估计和贝叶斯估计科学网

最大似然估计和贝叶斯参数估计 - 百度文库

----------------------------------------------------------------------------------------

2016年11月17日补充

搞了这么久，对这些概念还是一脸懵逼。

别人讨论随口就来一个likelihood，随口一个先验、后验，对于我这种没有吃透统计的渣渣来说，真是只能眼睁睁的看着别人装逼了。

所以我一定要搞清楚常见的统计概念。

----------------------------------------------------------------------------------------

先读一篇likelihood的文章：最大似然估计（maximum likelihood estimation）

最大似然估计提供了一种给定观察数据来评估模型参数的方法，即：“模型已定，参数未知”。

用人话来说，就是计算一个模型的参数，使得在该参数、该模型下，样本数据出现的概率最大。（这不就是我纠错的算法吗，那贝叶斯又是什么呢？）

在最简单的情况下，最大似然估计给人类的直觉找到了一个貌似合理的解释。

最大似然估计是建立在这样的思想上：已知某个参数能使这个样本出现的概率最大，而其它参数使这个样本出现的概率减小，所以干脆就把这个参数作为估计的真实值。

知乎上的一个问题：最大似然估计和最小二乘法怎么理解？

最大似然估计：现在已经拿到了很多个样本（你的数据集中所有因变量），这些样本值已经实现，最大似然估计就是去找到那个（组）参数估计值，使得前面已经实现的样本值发生概率最大。因为你手头上的样本已经实现了，其发生概率最大才符合逻辑。这时是求样本所有观测的联合概率最大化，是个连乘积，只要取对数，就变成了线性加总。此时通过对参数求导数，并令一阶导数为零，就可以通过解方程（组），得到最大似然估计值。

最小二乘：找到一个（组）估计值，使得实际值与估计值的距离最小。本来用两者差的绝对值汇总并使之最小是最理想的，但绝对值在数学上求最小值比较麻烦，因而替代做法是，找一个（组）估计值，使得实际值与估计值之差的平方加总之后的值最小，称为最小二乘。“二乘”的英文为least square，其实英文的字面意思是“平方最小”。这时，将这个差的平方的和式对参数求导数，并取一阶导数为零，就是OLSE。

隐马尔可夫模型求解三大问题实例剖析（博客有很多相关文章）