统计学基础概念整理2017

　　统计学基础概念有很多，你知道的统计学基础概念有哪些?下面是yjbys小编为大家带来的统计学基础概念整理。欢迎阅读。

　　一.总体与样本

　　总体：是指根据研究目的所确定的观察单位某项特征的集合。比如说我想研究山西医科大学所有在校生的平均体重，那根据此目的，我们研究的总体就是：山西医科大学所有在校生的体重数据的集合。但是需要注明一点：总体分为有限总体和无限总体，上面的例子就是有限总体，毕竟山西医科大学学生还是有限的，然而科研过程中面临的大多数是无限的总体，我们是无法取得其总体进行研究的。那我们面对无限总体怎么办呢?

　　我们为了研究无限总体，发明了抽样的方法。就像我们想知道一锅老母鸡汤的咸淡，不需要喝完所有的汤，只要摇匀，尝其一勺就可以了，这种思想就叫“抽样”。

　　样本：就是从总体中抽出的部分观察单位某项特征的集合。但是在抽样过程中必须遵守随机化的原则。

　　随机化原则(random principle)：是指总体中的任何一个观察单位都要有同等的机会被抽到作为样本进行研究。那么如何保证随机化抽样呢，一般包括单纯随机抽样、系统抽样、分层抽样、整群抽样和多级抽样等方法。

　　二.参数与统计量

　　参数：用于描述总体特征的指标;

　　统计量：用于描述样本特征的指标;

　　总体、样本、参数与统计量的关系如下图。

　　统计学存在的核心价值在于可以通过描述样本的统计量去推断描述总体的参数。这是通过偶然去发现必然的过程，这是通过一般去发现普遍的过程，这是以小见大的过程。

　　三.误差

　　误差：观察值与真知之差。即我们通过一次试验得到的结果与事件真实结果之间的差值。误差根据其产生的原因，分为四种：

　　(1)系统误差(systematic error)：因为试剂为校正或者仪器没有调零等因素造成的研究结果倾向性的增大或减小。如我们路过药房，门口放个一个体重计，请问我们在称自己的体重之前，首先要干的第一件事情是什么呢?从统计学角度，我们应该看看体重计上的指针是不是对准零，如果本身就有5Kg底重，那我们所有的同学去称，都将会重5Kg，即发生倾向性的偏大。其特点：倾向性的增大或减小以及可以避免，如果我们就行调零，我们就可以避免。

　　(2)随机误差(random error)：是由各种偶然因素造成的观察值与真值之差。比如班级所有同学用同一把尺子测量我的身高，结果发现我的身高值是不一样的。其特点为：不可以避免，但可以减少。统计学有一定律叫做“测不准定律”，不管你怎么测，就是测不准，因此我们通常多次测而后取平均。

　　(3)抽样误差(sampling error)：因为抽样造成的样本统计量与总体参数之间的差异。有同学肯定会说，刚才那一勺老母鸡汤的咸淡应该和锅里汤的咸淡是完全一样的啊，是的，刚才的例子是让你明白抽样的原理，而我们科学研究和喝老母鸡汤是不一样的，因为汤里的氯化钠是均匀分布的，而我们科学研究的目标事件是不均匀分布的。比如某个班级120名同学的近视眼患病率为50%，我按照随机化原则随机抽取50名同学，者50名同学的近视眼患病率绝对不等于50%，因为近视眼同学在班级中的分布是不均匀的，能理解吗，亲。因此抽样误差的特点为：不可以避免，但可以减少。我们可以通过增大样本量进行减少。

　　(4)过失误差(gross error)：

　　由于观察过程中的不仔细造成的错误判断或记录。过失误差可以通过仔细核对进行避免。

　　那我们统计学的存在主要是解决那种误差呢?我们通过统计设计减少系统误差、通过统计学检验去排除抽样误差的。

　　四.概率与频率

　　概率(P)：用于反映某一事物发生可能性大小的一种量度。一般用大写的斜体P表示。

　　我们根据食物发生概率的大小，把事件分为3类：P=1为必然事件，发生率为100%;P=0为不可能事件，发生率为0;0

　　频率(f)：是指我们进行了N次试验，其中一个事件出现的次数m与总的试验次数N的比值。

　　问题是：我们到底如何能够得到某一事件发生的概率呢，比如说谁能够告诉我一个半截粉笔从讲台上掉下摔断的概率P=?。我们至今的科学发展也没有办法通过公式去计算该值。那我们是怎么做的呢?有句话叫做“有些事情越想越烦，做起来却极其简单”。我们只需要那两盒同样的粉笔进行重复摔就可以了，如果总共100支粉笔，断了98只，那断的频率就等于f=98/100=0.98。而统计学上证实，当某事件发生次数较多时，频率就会收敛于概率。意即f=P。因此，其实我们就是通过频率去估计概率的。

　　五.同质与变异

　　同质：是指观察单位所受的影响因素相同。而我们科研的观察单位所受的影响因素只可能相对的相同，不可能绝对的相同，因此，同质是相对的。

　　变异：是指观察单位在同质的基础上的个体差异。天底下没有两个完全一样的事物;一个人不可能两次踏入同一条河流，刚才说话的我已经不是现在说话的我了，因为天下唯一不变的就是变化。因此，变异是绝对的。

　　这一对概念对我们研究统计的意义：如果没有同质的话，就没有我们研究的总体或者样本。因为如果不同质，我们是不可能把他们放在一起进行研究的。如果没有变异，就根本没有统计学产生的必要，因为如果没有变异，我们拿一种药物治疗某病的一个病人，如果有效，该药对所有该病病人都应该有效，这是不可能的。

　　六.试验vs实验

　　试验——对已知事物结果的探索过程：为了察看某事的结果或某物的性能而从事某种活动。

　　实验——已有明确的结论/假说后的验证过程：为了检验某种科学理论或假设而进行某种操作或从事某种活动。

　　从上述来自《现代汉语词典》的两个解释，可以看出：实验中被检验的是某种科学理论或假设，通过实践操作来进行;而试验中用来检验的是已经存在的事物，是为了察看某事的结果或某物的性能，通过使用、试用来进行。

　　在我们实际应用中，很多词汇中到底是用“试验”还是“实验”是已经根据前人的经验明确了的。比如RCT(Randomized Controlled Trial)，我们会叫“随机对照试验”，我想多半是因为翻译的过程中Trial翻译为“试验”更为合适。而RCT中，患者被分为两组时，则被称为“实验组”(Treatment Group)和对照组(Control Group)。

　　七.病人/患者vs受试者/研究对象

　　这两组词，我想也许没有必要把定义在贴上来了，因为他们的区别真的显而易见。病人/患者的称法，当然应该用于病人和患者的身上。如果您的研究是在健康人或者潜在患者人群中开展的，此时您的研究对象还不能确定为病人/患者，那么您只能称其为受试者或研究对象。

　　相似的，在产科的研究中，如果研究对象为一般的产妇，我们通常也不应该用“患者”或“病人”这样的称谓。

　　研究对象可以说是一个万金油，什么时候用都是可以的。而受试者我们又要说一下了，“受试者”常与某种干预联系在一起，通常仅在干预性研究(RCT、类实验)和诊断试验中才会使用。

　　八.终点vs结局

　　结局(Outcome)——研究中患者可能出现的一种结果：某种疾病或某种状态影响下的(人的)最终(健康)状态。

　　终点(Endpoint)——研究中患者某一结果的替代指标：用于在研究中判断干预或因素作用效果的某种“结局”。

　　在临床研究中，结局通常是指患者的某种转归，比如肿瘤患者中，痊愈、死亡、复发、转移这些都可以作为结局。当然，干预或某种因素暴露下短期的改变也可以成为结局，比如红细胞的升高、体温降低等等。而终点，则是临床研究中的效应评价点，比如主要终点、次要终点，此时用“结局”就不合适了。

　　上面这些看起来很头疼吧，那咱们就记个最简单的。一般在试验性研究中(比如RCT)我们一般使用“终点”，生存分析是有时也会用观察终点这一说法;而在其他类型的研究中，常使用“结局”。

　　九.排除vs剔除

　　我们之前讲过入选和排除标准，大家应该对排除标准有所认识。所谓的排除标准就是考虑到研究的可行性和研究对象的安全，将一部分无法保证研究对象安全及不可行的符合入选条件的研究对象排除在研究之外。针对研究对象开始进行研究前，不将符合排除标准的对象作为研究对象纳入，这就是排除。

　　在临床研究中，根据入选排除标准确定研究对象之后，在研究中我们还会发现一些患者无法接受进一步干预或观察，或者在研究期间才能发现研究对象的某些特征不属于我们将要外推的范围。此时虽然这些对象在研究初期被确定为“研究对象”，认为他们属于研究结果将要外推到的人群，但实际上他们并不属于该类人群。这时我们就要将该类研究对象“剔除”出研究，相应的标准就是剔除标准。

　　简而言之，排除是在研究初期用于选择研究对象的;剔除是在研究中期用于去除随时发现的非外推人群的研究对象。

【统计学基础概念整理】相关文章：

J2EE基础概念08-27

整理Javascript基础语法学习笔记欣赏04-23