统计学常见概念及解析

相关推荐

统计学常见概念及解析

　　统计学是通过搜索、整理、分析、描述数据等手段，以达到推断所测对象的本质，甚至预测对象未来的一门综合性科学。统计学常见概念有哪些你知道吗?下面是小编为大家带来的统计学常见概念及解析。欢迎阅读。

　　统计学常见概念及解析1

　　(1)自由度 d.f.

　　统计学上的自由度是指当以样本的统计量来估计总体的参数时，样本中独立或能自由变化的自变量的个数，称为该统计量的自由度。统计学上的自由度包括两方面的内容：

　　首先，在估计总体的平均数时，由于样本中的 n 个数都是相互独立的，从其中抽出任何一个数都不影响其他数据，所以其自由度为n。

　　在估计总体的方差时，使用的是离差平方和。只要n-1个数的离差平方和确定了，方差也就确定了;因为在均值确定后，如果知道了其中n-1个数的值，第n个数的值也就确定了。这里，均值就相当于一个限制条件，由于加了这个限制条件，估计总体方差的自由度为n-1。

　　例如，有一个有4个数据(n=4)的样本，其平均值m等于5，即受到m=5的条件限制，在自由确定4、2、5三个数据后，第四个数据只能是9，否则m≠5。因而这里的自由度υ=n-1=4-1=3。推而广之，任何统计量的自由度υ=n-k(k为限制条件的个数)。

　　其次，统计模型的自由度等于可自由取值的自变量的个数。如在回归方程中，如果共有p个参数需要估计，则其中包括了p-1个自变量(与截距对应的自变量是常量1)。因此该回归方程的自由度为p-1。

　　(2)偏相关

　　Partial correlation coefficient

　　在多元回归分析中，在消除其他变量影响的条件下，所计算的某两变量之间的相关系数。

　　在多元相关分析中，简单相关系数可能不能够真实的反映出变量X和Y之间的相关性，因为变量之间的关系很复杂，它们可能受到不止一个变量的影响。这个时候偏相关系数是一个更好的选择。

　　假设我们需要计算X和Y之间的相关性，Z代表其他所有的变量，X和Y的偏相关系数可以认为是X和Z线性回归得到的残差Rx与Y和Z线性回归得到的残差Ry之间的简单相关系数，即pearson相关系数。

　　(3)标准回归系数

　　标准回归系数，是指消除了因变量y和自变量x1，x2，…xn所取单位的影响之后的回归系数，其绝对值的大小直接反映了xi对y的影响程度。

　　(4)Wald 检验

　　Wald 统计量我们先对无约束模型得到参数的估计值，再代入约束条件检查约束条件是否成立;

　　wald 检验一般适用于检验非线性的约束条件(当然也可以检验线性的约束条件)，通过对原方程(无约束模型)进行估计，构造出检验统计量，该统计量在大样本下服从卡方分布，自由度为约束条件。

　　wald检验的思想是：如果约束是有效的，那么在没有约束情况下估计出来的估计量应该渐进地满足约束条件，因为MLE(极大似然估计)是一致的。

　　(5)显著水平

　　显著性水平是估计总体参数落在某一区间内，可能犯错误的概率为显著性水平，用α表示。显著性是对差异的程度而言的，程度不同说明引起变动的原因也有不同：一类是条件差异，一类是随机差异。它是在进行假设检验时事先确定一个可允许的作为判断界限的小概率标准。

　　拓展资料

　　1.主要术语

　　统计学（statistics）：收集、处理、分析、解释数据并从数据中得出结论的科学。

　　描述统计（descriptive statistics）：研究数据收集、处理和描述的统计学方法。

　　推断统计（inferential statistics）：研究如何利用样本数据来推断总体特征的统计学方法。

　　变量（variable）：每次观察会得到不同结果的某种特征。

　　分类变量（categorical variable）：观测结果表现为某种类别的变量。

　　顺序变量（rank variable）：又称有序分类变量，观测结果表现为某种有序类别的变量。

　　数值型变量（metric variable）：又称定量变量，观测结果表现为数字的变量。

　　均值（mean）：均值也就是平均数，有时特指算术平均数，这是相对其他方式计算的均值，求法是先将所有数字加起来，然后除以数字的个数，这是测量集中趋势，或者说平均数的一种方法。

　　中位数（median）：也就是选取中间的数，要找中位数，首先需要从小到大排序，排序后，再看中间的数字是什么。

　　众数（mode）：众数也就是数据集中出现频率最多的数字。

　　2.相关观念

　　为了将统计学应用到科学，工业以及社会问题上，我们由研究母体开始。这可能是一个国家的人民，石头中的水晶，或者是某家特定工厂所生产的商品。一个母体甚至可能由许多次同样的观察程序所组成；由这种资料收集所组成的母体我们称它叫时间序列。

　　为了实际的理由，我们选择研究母体的子集代替研究母体的每一笔资料，这个子集称做样本。以某种经验设计实验所搜集的样本叫做资料。资料是统计分析的对象，并且被用做两种相关的用途：描述和推论。描述统计学处理有关叙述的问题：资料是否可以被有效的摘要，不论是以数学或是图片表现，以用来代表母体的性质？基础的数学描述包括了平均数和标准差。图像的摘要则包含了许多种的表和图。

　　推论统计学被用来将资料中的数据模型化，计算它的机率并且做出对于母体的推论。这个推论可能以对/错问题的答案所呈现（假设检定），对于数字特征量的估计（估计），对于未来观察的预测，关联性的预测（相关性），或是将关系模型化（回归）。其他的模型化技术包括变异数分析（ANOVA），时间序列，以及数据挖掘。

　　相关的观念特别值得被拿出来讨论。对于资料集合的统计分析可能显示两个变量（母体中的两种性质）倾向于一起变动，好像它们是相连的.一样。举例来说，对于人收入和死亡年龄的研究期刊可能会发现穷人比起富人平均来说倾向拥有较短的生命。这两个变量被称做相关的。但是实际上，我们不能直接推论这两个变量中有因果关系；参见相关性推论因果关系（逻辑谬误）。

　　如果样本足以代表母体的，那么由样本所做的推论和结论可以被引申到整个母体之上。最大的问题在于决定样本是否足以代表整个母体。统计学提供了许多方法来估计和修正样本和收集资料过程中的随机性（误差），如同上面所提到的透过经验所设计的实验。参见实验设计。

　　要了解随机性或是机率必须具备基本的数学观念。数理统计（通常又叫做统计理论）是应用数学的分支，它使用机率论来分析并且验证统计的理论基础。

　　任何统计方法是有效的只有当这个系统或是所讨论的母体满足方法论的基本假设。误用统计学可能会导致描述面或是推论面严重的错误，这个错误可能会影响社会政策，医疗实践以及桥梁或是核能发电计划结构的可靠性。

　　即使统计学被正确的应用，结果对于不是专家的人来说可能会难以陈述。举例来说，统计资料中显著的改变可能是由样本的随机变量所导致，但是这个显著性可能与大众的直觉相悖。人们需要一些统计的技巧（或怀疑）以面对每天日常生活中透过引用统计数据所获得的资讯。

　　3.统计方法

　　测量的尺度

　　统计学一共有四种测量的尺度或是四种测量的方式。这四种测量（名目、顺序、等距、等比）在统计过程中具有不等的实用性。

　　等比尺度（Ratio measurements）拥有零值及资料间的距离是相等被定义的；

　　等距尺度（Interval measurements）资料间的距离是相等被定义的但是它的零值并非绝对的无而是自行定义的（如智力或温度的测量）；

　　顺序尺度（ Ordinal measurements）的意义并非表现在其值而是在其顺序之上；

　　名目尺度（Nominal measurements）的测量值则不具量的意义。

　　统计技术