统计学、统计学习和统计推断之间的关系-白红宇

统计学、统计学习和统计推断之间的关系

阅读量：4039 次

发布时间：2019-05-24

本文共 2129 字，大约阅读时间需要 7 分钟。

统计学、统计学习和统计推断之间的关系

什么是统计学？

百度百科的定义：

统计学是应用数学的一个分支，主要通过利用概率论建立数学模型，收集所观察系统的数据，进行量化的分析、总结，并进而进行推断和预测，为相关决策提供依据和参考。它被广泛的应用在各门学科之上，从物理和社会科学到人文科学，甚至被用来工商业及政府的情报决策之上。

统计学主要又分为描述统计学和推断统计学。给定一组数据，统计学可以摘要并且描述这份数据，这个用法称作为描述统计学。另外，观察者以数据的形态建立出一个用以解释其随机性和不确定性的数学模型，以之来推论研究中的步骤及母体，这种用法被称做推论统计学。这两种用法都可以被称作为应用统计学。另外也有一个叫做数理统计学的学科专门用来讨论这门科目背后的理论基础。

统计学习

统计学习和统计学，仅仅相差一个字，但是确实完全不同的两个研究方向。

统计学习是由万普尼克（Vapnik）建立的一套机器学习理论，使用统计的方法，因此有别于归纳学习等其它机器学习方法。

由这套理论所引出的支持向量机对机器学习的理论界以及各个应用领域都有极大的贡献。

统计学习（statistical learning）是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科，也称为统计机器学习（statistical machine learning）。统计学习是概率论，统计学，信息论，计算理论，最优化理论及计算机科学等多个领域的交叉学科。

《统计学习方法》是2012年清华大学出版的图书，作者是李航。本书全面系统地介绍了统计学习的主要方法，适用于高等院校文本数据挖掘、信息检索及自然语言处理等专业的大学生、研究生，也可供从事计算机应用相关专业的研发人员参考。

该书中全面系统地介绍了统计学习的主要方法，特别是监督学习方法，包括感知机、k近邻法、朴素贝叶斯法、决策树、逻辑斯谛回归与最大熵模型、支持向量机、提升方法、em算法、隐马尔可夫模型和条件随机场等。除第1章概论和最后一章总结外，每章介绍一种方法。叙述从具体问题或实例入手，由浅入深，阐明思路，给出必要的数学推导，便于读者掌握统计学习方法的实质，学会运用。

统计推断

统计推断，或者叫做推断统计学（statistical inference）

统计推断是通过样本推断总体的统计方法。总体是通过总体分布的数量特征即参数 (如期望和方差) 来反映的。因此，统计推断包括：对总体的未知参数进行估计;对关于参数的假设进行检查; 对总体进行预测预报等。科学的统计推断所使用的样本，通常通过随机抽样方法得到。统计推断的理论和方法论基础，是概率论和数理统计学。

统计推断是指统计学中研究如何根据样本数据去推断总体数量特征的方法。统计推断主要可以分为两大类：一类是参数估计问题；另一类是假设检验问题。

三者之间的关系

如果想说明统计学、统计学习和统计推断之间的关系，还涉及另外两个领域，即概率论和数理统计。

概率论是数理统计的基础；而统计学包含：概率论和数理统计。

学习数理统计，就涉及到统计推断；所以统计学和统计推断之间存在关系；从上面各个学科的描述又可以看到统计学实际上是包含统计推断，即推断统计学的。

统计学习是机器学习的一个领域。统计学习是概率论，统计学，信息论，计算理论，最优化理论及计算机科学等多个领域的交叉学科。显然涉及的面和领域更广泛。

Lary Wasserman 在 All of Statistics 的序言里有说过概率论和统计推断的区别：

The basic problem that we study in probability is:

Given a data generating process, what are the properities of the outcomes?

...

The basic problem of statistical inference is the inverse of probability:

Given the outcomes, what can we say about the process that generated the data?

概率论是统计推断的基础，在给定数据生成过程下观测、研究数据的性质；而统计推断则根据观测的数据，反向思考其数据生成过程。预测、分类、聚类、估计等，都是统计推断的特殊形式，强调对于数据生成过程的研究。

参考：

统计和概率是方法论上的区别：一个是推理，一个是归纳。

打个比方，概率论研究的是一个白箱子，你知道这个箱子的构造（里面有几个红球、几个白球，也就是所谓的分布函数），然后计算下一个摸出来的球是红球的概率。而统计学面对的是一个黑箱子，你只看得到每次摸出来的是红球还是白球，然后需要猜测这个黑箱子的内部结构，例如红球和白球的比例是多少？（参数估计）能不能认为红球40%，白球60%？（假设检验）

而概率论中的许多定理与结论，如大数定理、中心极限定理等保证了统计推断的合理性。做统计推断一般都需要对那个黑箱子做各种各样的假设，这些假设都是概率模型，统计推断实际上就是在估计这些模型的参数。

转载地址：http://lvvdi.baihongyu.com/

你可能感兴趣的文章