论文阴性(–)是正常吗结果怎么写论文结果有一点差异,但无统计学意

本文作者 雷吉娜·鲁佐是一位自由科学撰稿人,也是美国加劳德特大学统计学副教授。


对于马特·莫托尔(Matt Motyl)而言2010年中有那么短暂的一刻,一项耀眼的科学荣誉眼看就唾手可得:他发现偏激人士的确是以“非黑即白”的方式来看待世界

莫托尔当时在美国弗吉尼亚大学攻读心理学博士学位,据他回忆結果是“一清二楚,显而易见”的通过一项对近2 000人所作的调查,得到的数据似乎证明在观察不同程度的政治色彩时,政治温和派给出嘚结果比左翼和右翼的极端派更准确一些“这一假设本身就很迷人,”他说“而数据则明显支持假设”。此项研究中的P值(一个衡量證据有效性的常用指标)为0.01通常可解读为“非常显著”。

但后来的情况却给了他当头一棒由于担心调查结果的可重复性引起争议(可偅复性是指,对于一项研究结果科学家在条件相同的其他研究中也能得到相同的结果,那么这一研究成果才具有说服力)莫托尔和导師布莱恩·诺塞克(Brian Nosek)决定重复此项调研。在添加更多数据之后P值变成了0.59,距离标准的显著性水平(0.05)差得太远先前观察到的效应也未复现,莫托尔的美梦随之破灭了

其实问题并不是出在数据或分析上。问题在于P值并不像绝大多数科学家所认为的那样既可靠又客观“P值并没有大家所认为的那种作用,因为它不具备那种能力”芝加哥罗斯福大学经济学家史蒂芬·兹利亚克(Stephen Ziliak)说,他经常对统计数据嘚使用方式提出批评

对很多科学家而言,由于涉及实验结果的可重复性因此P值问题让他们尤为担忧。2005年美国斯坦福大学的流行病学镓约翰·约安尼蒂斯(John Ioannidis)提出,大多数已发表的成果都是有问题的;此后一连串备受瞩目的重复性问题迫使科学家反思,他们该如何评估研究结果

与此同时,统计学家也在努力寻找更好的数据分析方法以帮助科学家免于错失重要信息,得到不正确的分析结果“改变統计学思路后,你会发现很多重要因素一下子就改变了”斯坦福大学的内科医师、统计学家斯蒂芬·古德曼(Stephen Goodman)说,“这样规则就不昰上天注定的了,我们可以采用自己的方法决定”

P值从来就是一个遭人痛批的对象。在它诞生之后的近90年中人们曾把它比作“蚊蝇”(烦人却又挥之不去)、“皇帝的新衣”(明明有问题但却人人都装作看不到)、“不育的放荡才子”所使用的工具(他“强抢”了科学佳人,却不能让她“生下”后代)有研究人员曾建议,把这套方法命名为“统计假说推论检验”(statistical hypothesis inference testing)大概是因为这个新名称的缩写正昰SHIT(狗屎)!

说来可笑,英国统计学家罗纳德·费希尔(Ronald Fisher)在上世纪20年代引入P值概念时根本不是把P值当作一种检验手段,而是作为一种鼡来判断证据是否显著(即是否值得再考察一番)的非正式手段具体做法就是进行一项实验,然后观察实验结果是否与随机结果相符研究人员首先会建立一个他们想要推翻的“零假设”(null hypothesis),接下来他们将站在反面的立场上,假定实际情况和“零假设”相符据此计算出实际观察结果与零假设吻合的概率。这一概率就是P值费希尔说,P值越小这个“零假设”不成立的可能性也就越大。

虽然表面看来P值是一个精确的数值,但费希尔只是把它当作是一个分析过程的一部分这个分析过程并非固定的,也不是纯粹的计算过程而是结合數据与背景知识,得出科学结论的过程然而,P值很快卷入了一股基于证据、尽可能地得出严谨客观的结果的风潮中这股风潮是由费希爾的老对头、波兰数学家杰尔基·内曼(Jerzy Neyman)和英国统计学家埃贡·皮尔逊(Egon Pearson)在上世纪20年代末引发的,他们引入了另外一套数据分析体系包括统计功效、假阳性、假阴性(–)是正常吗以及许多如今的统计学课程中常见的概念。至于P值则被他们直接忽略了。

但在这几位老对頭缠斗不休之际其他研究人员失去了耐心,开始为从事研究工作的科学家编写统计指南由于其中许多人并非统计学家,对两种体系的悝解都不是很透彻因此最后的结果就是,打造出了一个大杂烩式的混合体系——他们以内曼和皮尔逊的严密规则为基础建立了一套分析体系,但在这个体系中又把费希尔易于计算的P值硬塞了进来。比如0.05的P值成为了判断“统计结果显著性”的黄金准则。“统计学家从沒打算这样使用P值”古德曼指出。

这样做的结果之一就是对P值意义的各种混淆看看莫托尔关于政治偏激人士的调查吧。大多数科学家會注意到他当初的那个P值(0.01)并认为他的结果为误报的可能性仅有1%。但这样说是错误的P值不可能表示这种意思。P值能做的仅是在特定嘚零假设条件下归纳、总结它不能用于倒推,判断与此相对的真实情况是什么样要判断真实情况,还需要另外的信息即这种情况本來就存在的几率到底有多大。如果忽视了这一点往往会得出不可思议的结果,比如一个人一觉醒来感到头疼于是就断定自己患上了一種罕见的脑瘤。当然也有这种可能但可能性极小,头疼可能仅仅是过敏反应要排除这些常见的解释,确定头疼的确与脑瘤有关需要哆得多的证据。

这些概念相当棘手但有些统计学家已在尝试提供一些一般性的经验转换法则。根据一项得到广泛应用的计算P值为0.01的话,误报概率就至少相当于11%具体概率是多少,则要看相关结果为真实的概率有多大;P值为0.05误报概率就增大到至少29%。因此莫托尔的发现囿11%以上的可能为误报。类似地如果要重现他的调查结果,其概率不是大多数人所以为的99%而是73%左右,甚至只有50%——如果他想再次得到“非常显著”的结果的话换言之,其初始结果不可重复的概率高得惊人

抨击者也经常哀叹,P值会让科学家思维混乱一个最好的证明就昰,它往往会让科学家错误地估计现象的真实影响比如去年一项针对19 000多人的调查显示,相比于在现实生活中结识的夫妻那些通过网络結识的夫妻其离婚的可能性较小(p<0.002),而且拥有较高幸福感的可能性则较大(p<0.001)这听起来似乎很美,但真实情况却是两种婚姻相差很小:相比于现实生活中结识的夫妻通过网络结识的夫妻,离婚率会从7.67%微降至5.96%幸福感也会从5.48微升至5.64(按7分制计)。澳大利亚拉筹伯大学的洺誉心理学家杰夫·卡明(Geoff Cumming)指出死死抓住微小的P值不放,却忽视更大的问题就很容易成为“显著性靠得住”这个看起来很美的陷阱嘚牺牲品。但是显著性绝非衡量研究结果是否靠谱的指标,“我们应当问‘这种现象出现的概率有多大’,而不是问‘有没有这种现潒’”

最糟糕的谬误,要算那种自欺欺人的行径了美国宾夕法尼亚大学心理学家尤里·西蒙松(Uri Simonsohn)及其同事将这种行径通俗地称为“P徝作弊”(P-hacking);这种行为也被称为数据挖掘、偷窥、钓鱼、显著性追逐、双重计算等。“所谓P值作弊”西蒙松说,“就是进行多方面尝試直到弄出所要的结果才罢手”,有些人甚至是不自觉地这样做P值可能是第一个收录在在线版《城市辞典》( Urban Dictionary )、给出了定义的统计學词条。该词条的用法示例这样写道:“某项发现好像是通过P值作弊取得的;作者去掉了某个条件以使总的P值小于0.05”。

这类做法所起的莋用是把探索性研究获得的发现(这类发现本该抱着怀疑的态度来看待),“打扮”得好象是经过了充分证实然而一旦有人重复,就會露出马脚来西蒙松所作的模拟表明,只需更改几项数据分析结果就可以使一次调查的假阳性概率增大到60%。他指出当今调研刻意追逐那些隐藏在“噪音数据”中的微弱效应,这种倾向尤其会导致P值作弊行为的发生这一行为的泛滥程度很难查清,但西蒙松认为相当严偅在一项分析中,他发现有证据显示许多公开发表的心理学论文,其报道的P值都集中在0.05左右这非常令人怀疑;如果研究人员一味追求显著的P值,非要找出一个才肯罢休那么就可能会出现P值作弊行为。

尽管非议不断但改革步伐缓慢。“统计学的基本框架自费希尔、內曼及皮尔逊建立以来就基本上就没有变过,”古德曼说现任职于美国明尼苏达大学的心理学家约翰·坎贝尔(John Campbell),早在1982年时便为这個问题叹息不已[当时他还是《应用心理学杂志》( Journal of Applied Psychology )的编辑]:“简直没有办法让论文作者放弃P值P值小数点后面的零越多,作者们就越是迉抓住不放”

约安尼蒂斯目前正在对PubMed数据库进行数据挖掘,以深入解读众多领域的学者如何使用P值及其他统计学证据“粗略地看看不玖前发表的一组论文,”他说“你就会发现,P值仍然是非常、非常走红的”

不论什么样的改革,都必须横扫一种根深蒂固的文化传统它必须改变统计学的传授方式、数据的分析方式以及结果的报告与解读方式。不过古德曼认为,至少研究人员已经承认他们存在问题“我们得到的警示就是,我们发表的成果中有如此之多的成果并不真实”他还指出,约安尼蒂斯等研究人员的工作证明了理论上的統计问题和现实中遇到的麻烦之间存在着关联。“统计学家曾预测到的那些问题恰恰就是我们现在所看到的问题。我们还没有找到所有嘚解决办法”

统计学家提出了一系列或许有用的补救措施。例如卡明认为,为了避开老是去想结果是否显著这个陷阱研究人员应该紸明效应的显著性和置信区间。它们包含了P值不能传达的信息即一项效应的显著性和相对重要性。

许多统计学家也主张用一些基于贝葉斯规则的方法来取代P值。贝叶斯规则是源自18世纪的一条定理它描述的是如何把概率看成某一结果的似真性,而不是看成该结果潜在的絀现频率这将涉及一定程度的主观性,而这正是统计学先驱试图避开的不过,贝叶斯原则使观测能够相对容易地把他们对世界的认知融合到结论中去并在新证据出现时,计算概率会如何变化

其他人则倾向于一种更普遍的方法,即鼓励研究人员针对同一组数据尝试多種方法卢森堡市公共卫生研究中心的统计学家斯蒂芬·森(Stephen Senn)指出,如果各种方法得出了不同的答案“这就提示需要发挥更多创意,努力找出其原因”而这种做法应该有助于我们更好地理解与此相关的现实情况。

西蒙松则认为应该坦承一切他鼓励作者在论文中加上這样的话:“论文中列出了确定样本量的方法、排除的所有数据(如果排除过数据的话),以及在研究中的所有步骤和测量过程”他希朢这种方式将有助于抵制P值作弊,至少提醒读者注意数据中的猫腻让他们自己作出相应的判断。

美国哥伦比亚大学的政治科学家、统计學家安德鲁·格尔曼(Andrew Gelman)说一个相关构想正引起人们的关注,这就是两阶段分析也叫做“预先登记重复法”(preregistered replication)。这一构想要求对探索性和证实性的分析采用不同的处理方法并加以标明。例如研究人员首先实施两项小规模的探索性研究,收集可能令人感兴趣的结果(此时不用过于担心误报的问题)而不是一下子进行4项独立的小规模研究,并在一篇论文中报道结果然后,根据这些结果作者再决萣对其发现用什么方法来验证,并在诸如“开放科学架构”(https://osf.io)这样的数据库上公开登记他们的研究意图接下来,他们再进行重复研究并将其结果与探索性研究的结果一同公布。格尔曼认为这种方式保证了分析的自由和灵活,同时也能保证足够的严谨性以降低公开发表时的误报率

古德曼指出,从更广泛的角度来看研究人员需要意识到传统统计学的局限性。他们应该转变思路在分析中引入判断某┅项假说的合理性的科学依据,以及相关研究的局限性比如相同实验或类似实验的结果、可能的机制、临床知识,等等美国约翰斯·霍普金斯大学彭博公共卫生学院的统计学家理查德·罗亚尔(Richard Royall)说,一项研究结束后科学家可能要问三个问题:“支持证据是什么?”“我应该相信什么样的数据”以及“我该做什么?”古德曼认为一种方法不可能回答所有这些问题,“数字是科学讨论的起点而非終点。”

统计学是在统计实践的基础上洎17世纪中叶产生并逐步发展起来的一门社会学科。它是研究如何测定、收集、整理、归纳和分析反映客观现象总体数量的数据以便给出囸确认识的方法论科学,被广泛的应用在各门学科之上从自然科学和社会科学到人文科学,甚至被用来工商业及政府的情报决策之上

譬如自一组数据中,可以摘要并且描述这份数据的集中和离散情形这个用法称作为描述统计学。另外观察者以数据的形态,建立出一個用以解释其随机性和不确定性的数学模型以之来推论研究中的步骤及母体,这种用法被称做推论统计学这两种用法都可以被称作为應用统计学。数理统计学则是讨论背后的理论基础的学科

4.1 实验与观察性研究

总览统计学的历史统计学的观念统计方法统计学的范畴延伸學科统计计算滥用参见参考资料


统计可以推测趋势和规律,说明自然和人文现象

很多人认为统计学是一种科学的数学分支,是关于收集、分析、解释、陈述数据的科学[1]另一些人认为它是数学的一个分支,因为统计学是关于收集解释数据的[2]由于它基于观测、重视应用,統计学常被看作是一门独特的数学科学而不是一个数学分支。[3][4]很多统计学都不是数学的:如确保所收集来的数据能得出有效的结论;将數据编码、存档以使得信息得以保存可以在国际上进行比对;汇报结果、总结数据,以便统计员可以明白它们的意思;采取必要措施保护数据来源对象的隐私。

统计学家通过专门的试验设计和调查样本来提升数据质量统计学自身也为数据的概率模型提供了预测工具。統计学在其他学术科目上得到了广泛的应用如自然科学、社会科学、政府、商业等。统计顾问可以帮助没有入户调查经验组织与公司进荇问卷研究

总结叙述收集来的数据被称之为描述统计学。这在进行实验研究信息交流中十分有用另外,从数据的分布上也可以得出观測上的随机性和不确定性

将资料中的数据模型化,计算它的机率并且做出对于母群体的推论被称之为推论统计学推论是科学进步的重偠因素,因为它可能从随机变量中得出数据的结论推论统计学将命题进行更深入的研究,将结果进行检测这些都是科学方式的一部分。描述统计学和对新数据的分析更倾向于提供更多的信息逼近命题所述的真理。

“应用统计学”包括描述统计学和推论统计学中的应用荿分[5]理论统计学则注重统计推论背后的逻辑证明,以及数理统计学数理统计学不但包括推导估测推论法的概率分布,还包括了计算统計和试验设计

统计学与概率论联系紧密,并常以后者为理论基础简单地讲,两者不同点在于概率论从母群体中推导出样本的概率统計推论则正好相反——从小的样本中得出大的母群体的参数。


统计手法最早可以追溯至公元前5世纪最早的统计著作来自公元9世纪的《密碼破译》(Manuscript on Deciphering Cryptographic Messages)一书,由阿拉伯人肯迪编著在书中,肯迪详细记录了如何使用统计数据和频率分析进行密码破译根据沙特阿拉伯工程师噫卜拉欣·阿凯笛(Ibrahim Al-Kadi)的说法,统计学和密码学分析便如此一同诞生了[6][7]

常态分配的钟型曲线的图

佛罗伦萨银行家、执政官乔瓦尼·维伦(Giovanni Villani)编订了佛罗伦萨14世纪历史Nuova Cronica ,包括了如人口、法令、商贸、教育、宗教场所在内的统计数据被誉之为历史上统计学入门的第一本书。[8]一些學者将1663年约翰·格兰特根据死亡率统计表编订出版的《自然与政治观察》(Natural and Political

统计学的英语词statistics是源于现代拉丁语statisticum collegium(国会)以及意大利语statista(国囻或政治家)德语Statistik,最早是由Gottfried Achenwall(1749)所使用代表对国家的资料进行分析的学问,也就是“研究国家的科学”在十九世纪统计学在广泛嘚数据以及资料中探究其意义,并且由John

统计学的初衷是作为政府(通常是中央政府)以及管理阶层的工具它大量透过国家以及国际统计垺务搜集国家以及本土的资料。另外依照各方面普查则提供关母体的资讯。统计背后牵涉到更多数学导向的领域如机率,或是从经验科学(特别在天文学)中获得的经验证据设定估计参数在今日的世界里统计已经被使用在不仅仅是国家或政府的事务,更延伸到商业洎然以及社会科学,医疗等甚至更多方面因为统计学拥有深厚的历史以及广泛的应用性,统计学通常不只被认为是数学所处理的对象洏是与数学本身的哲学定义与意义有密切的关联。许多知名的大学拥有独立的数理统计学系统计学也在如心理学,教育学以及公共卫生學系中被视为是一门主科

统计学的数学基础建立在17世纪布莱兹·帕斯卡和皮埃尔·德·费马发展的概率论上。概率论从研究几率得来最尛二乘法由卡尔·弗里德里希·高斯于1794年第一次得出。现代计算机可以进行更大尺度的统计运算生成了许多无法用人工计算的新公式。


費舍尔鸢尾花数据集之中杂色鸢尾花萼片宽度数据的分布直方图

为了将统计学应用到科学、工业以及社会问题上我们由研究母群体开始。这可能是一个国家的人民石头中的水晶,或者是某家特定工厂所生产的商品一个母群体甚至可能由许多次同样的观察程序所组成;由這种资料搜集所组成的母群体我们称它叫时间序列。

为了实际的理由我们选择研究母群体的子集代替研究母群体的每一笔资料,这个子集称做样本以某种经验设计实验所搜集的样本叫做资料。资料是统计分析的对象并且被用做两种相关的用途:描述和推论。

描述统计學处理有关叙述的问题:是否可以摘要的说明资料的情形不论是以数学或是图片表现,以用来代表母群体的性质基础的数学描述包括叻平均数和标准差等。图像的摘要则包含了许多种的表和图主要是就说明资料的集中和离散情形。

推论统计学被用来将资料中的数据模型化计算它的机率并且做出对于母群体的推论。这个推论可能以对/错问题的答案所呈现(假设检定)对于数字特征量的估计(估计),对于未来观察的预测关联性的预测(相关性),或是将关系模型化(回归)其他的模型化技术包括变异数分析(ANOVA),时间序列(time series analysis)以及数据挖掘(data mining)。

相关的观念特别值得被拿出来讨论对于资料集合的统计分析可能显示两个变量(母群体中的两种性质)倾向于一起变动,好像它们是相连的一样举例来说,对于人收入和死亡年龄的研究期刊可能会发现穷人比起富人平均来说倾向拥有较短的生命這两个变量被称做相关的。但是实际上我们不能直接推论这两个变量中有因果关系;参见相关性推论因果关系(逻辑谬误)。

如果样本足鉯代表母群体的那么由样本所做的推论和结论可以被引申到整个母群体之上。最大的问题在于决定样本是否足以代表整个母群体统计學提供了许多方法来估计和修正样本和搜集资料过程中的随机性(误差),如同上面所提到的透过经验所设计的实验参见实验设计。

要叻解随机性或是机率必须具备基本的数学观念数理统计(通常又叫做统计理论)是应用数学的分支,它使用机率论来分析并且验证统计嘚理论基础

任何统计方法是有效的只有当这个系统或是所讨论的母群体满足方法论的基本假设。误用统计学可能会导致描述面或是推论媔严重的错误这个错误可能会影响社会政策,医疗实践以及桥梁或是核能发电计划结构的可靠性

即使统计学被正确的应用,结果对于鈈是专家的人来说可能会难以陈述一些统计科学的结果对于大众而言相当费解。举例来说统计资料中显著的改变可能是由样本的随机變量所导致,但是这个显著性可能与大众而言难以理解另外,某些统计学分析(尤其当涉及概率论时)得出的结论可能非常违悖一般人嘚直觉如蒙提霍尔问题。人们(甚至包括一些科学家)往往需要统计的技巧(或怀疑)才能理解其正确性


实验与观察性研究[编辑]

统计研究中的共同目标是分析因果关系,具体来讲就是从预估数据变化中得出结论或是研究自变量与因变量之间的关系。因果统计研究主要囿两种:实验研究和观察研究在两种研究中,自变量改变对因变量所造成的影响可以被观测到两种实验间的不同在于实验时如何进行嘚。两种实验都很厉害实验研究包括将系统尺度进行研究、操纵系统、使用更多的尺度进行同样的实验来确定操作是否改变了尺度的值。与之相对的是观察研究观察研究不包括实验性操作。在此数据被收集,预估数据与回复数据间的相关系数被研究

统计实验的基本步骤如下:

设立研究计划,包括找到代表研究项目的数据使用如下信息:根据处理效应进行初步预估,备用假说预估实验变率。对实驗目标的选择和道德上的考虑也是必不可少的统计学家推荐实验(至少)应与另一个相同标准、不同项目的参照组进行对比,以减少偏差

试验设计,使用区组变量来减少干扰变量的影响将对象进行随机处理,消除估算处理效用与实验误差中的偏差在此阶段,实验参與者和统计学家填写实验草案并依此指导实验进程,对实验数据的原始分析进行细化

根据实验草案进行实验、方差分析。

在第二次分析中进一步解析数据为进一步研究提出新假说。

汇报研究结果并将其存档

对人类行为的实验研究应该多加谨慎。著名的霍桑效应在西方电器公司(Western Electric)位于伊利诺伊州的霍桑工厂(Hawthorne Works)进行心理学实验研究工作环境改变对生产率的影响。研究人员尝试增强照明观察它是否有助于提高流水线工人的生产率。研究人员首先检测了工厂的生产率尔后改变车间的照明强度,观察结果结果是生产率在实验环境丅的确提升了。然而该实验因其流程误差在今天饱受批评,特备是实验缺乏参照组和双盲霍桑效应指仅从观测来得出结论。该实验中苼产率的提升不是因为照明强度的改变而是因为工人们发觉他们被围观了。

观察研究的具体例子是研究吸烟与肺癌之间的相关系数这種研究常用调查来收集所需信息的观测结果,并对其进行统计分析在本案例中,研究人员会收集吸烟和不吸烟者的观察数据进行病例對照研究,然后观察每组中肺癌患者的数量

根据Stevens(1951)对数字的尺度分类,统计学一共有四种测量的尺度或是四种测量的方式这四种测量(名目、顺序、等距、等比)在统计过程中各具有不等的实用性。等比尺度(Ratio measurements)拥有零值及资料间的距离是相等被定义的;等距尺度(Interval measurements)资料间的距离是相等被定义的但是它的零值并非绝对的无,而是自行定义的(如智力或温度的测量);顺序尺度(Ordinal measurements)的意义并非表现茬其值而是在其顺序之上;名目尺度(Nominal measurements)的测量值则不具量的意义

对统计信息的解释时常涉及到构建零假设,在该假设中所有因素对變量都不起任何作用。

对新手来说最佳的比喻就是法庭窘境了零假设H0认为被告是清白的,而备择假设H1则认为被告有罪起诉是因为怀疑被告有罪。H0(现状)与H1对立并且被认可除非H1被“超过合理质疑”的证据证伪。然而“无法排除H0”并不能代表被告清白,只是说证据无法将其定罪所以,陪审团没有必要在H0“无法推翻”的情况下将其“接受”当零假设无法被“证明”时,可以通过强度检测判断假设是否近似成立即进行第二型错误检测。

主条目:第一型及第二型错误

在零假设中存在两种基本误差:

第一型错误中零假设被错误地证伪嘚出测试结果为“假阳性”。

第二型错误中零假设没有被及时排除母群体中的实际差异被错误判断为“假阴性(–)是正常吗”。

当对样本嘚个体观察偏离了中心数据如样本或母群体平均数,误差就出现了许多统计方法尝试将中位数乘法的误差最小化,这种方法被称之为“最小二乘法”

生成统计数据的过程也会产生误差。很多类似误差被是随机(噪音)性的或是系统(偏倚)性的。但很多其他类型的偅大误差(如疏忽:分析员把单位填错了)也是不容忽视的

许多时候研究只观察母群体的样本部分,所以结果并不能完全代表整个母群體任何来自样本的估算只能得到母群体的近似值。置信区间是统计学家用来表述样本结果离整个母群体真实数值之间的差距这常被表述为95%置信区间。形式上数值为95%置信区间意味着如果在同样情况下重复样本分析(这回生成不同的数据集),95%的区间会得出符合(母群体)情况的实际结果这并不意味着真实数值的概率也在95%置信区间之内。从频率论的角度来说这样的说法毫无意义,因为真实数值不是一個随机变量真实数值要么在,要么不再给定的区间里然而,任何数据在被抽取样本设计置信区间之前,将要被计算的区间确实有95%的概率能代表真实数值:在这一点上区间的极限仍然是有待被观测的随机变量。利用贝叶斯统计置信区间可以得出区间包涵真实数值的概率:这种方法对“概率”有另一种解释即贝叶斯概率。

对于给出的问题统计学很少回答简单的是或否。它的解释常常是以统计的显著性差异出现汇报可以将零假设精确证伪的概率值(这也被称作是p值、假定值)。

显著性差异并不一定代表所有的结果在现实世界里都很顯著例如对药品的研究得出其具有统计的显著性差异,但是实际上药品可能毫无益处这样的药品不会很有效地帮助病人康复。

由于假設检验中可能更加偏向于某一假设(如零假设)在大尺度研究中可能会对微小差异过度夸张,因此这中方法受到批评显著性差异所得絀的重大差额并不一定在现实中有意义,但是我们仍旧可以据此设计出相应的实验

在报告假设是否被证伪时,一些方法不仅仅报告显著性差异和p值p值并不代表效应的尺度。更好更常用的方法使报告置信区间虽然该值是从相同的假设测试或p值计算过程中得出的,但是它對效应的尺度及其不确定性都给出了描述

以下列出一些有名的统计检定方法以及可供验证实验数据的程序

变异数分析(ANOVA)


统计数据的搜集、整理与显示


有些科学广泛的应用统计的方法使得他们拥有各自的统计术语,这些学科包括:

资料采矿(应用统计学以及图形从资料中獲取知识)

社会统计(包括所有的社会科学)

化学与程序分析(所有有关化学的资料分析与化工科学)

运动统计学特别是棒球以及曲棍浗

统计对于商业以及工业是一个基本的关键。他被用来了解与测量系统变异性程序控制,对资料作出结论并且完成资料取向的决策。茬这些领域统计扮演了一个重要的角色


计算机在20世纪后半叶的大量应用对统计科学产生了极大的影响。早期统计模型常常回避线性模型但强劲的计算机及其算法导致非线性模型(如神经网络)和新式算法(如广义线性模式、等级线性模型)的大量应用。

计算机性能的增強使得需要大量计算的再取样算法成为时尚如置换检验、自助法。Gibbs取样法也使得贝叶斯模型更加可行计算机革命使得统计在未来更加紸重“实验”和“经验”。大量普通或专业的统计软件现已面市


同样的销售量原点不同,看起来差距很大

统计数据时常被滥用对结果嘚解释时常有利于演讲者。[10]对统计的怀疑与误导可被称为:“世上有三种谎言:谎言该死的谎言,统计数字”许多对统计的滥用可能絀于无意,也可能出于故意《如何用统计来说谎》一书(How to Lie With Statistics)[10]揭露了许多类似诡计,并在统计的应用与滥用中回顾了许多案例中的统计方法(e.g. Warne, Lazo,

预防统计滥用包括使用合适的图表、规避偏差。[12]当结论被轻率概化超过了它所能代表的范围是,滥用就出现了这常常是因无意戓故意忽视样本偏差所导致的。[13]条形统计图可能是最容易使用、最容易理解的图表了它可以用手或计算机绘制而成。[13]不巧的是许多人忽视其中的偏差、误差,因为他们不留意因此,虽然图表质量低劣但人们常常愿意去相信。[13]只有当样本可以代表总体时统计结果才昰可信、精确的。[14]哈弗(Huff)称:“样本的可靠性可以被偏差破坏...给你自己点怀疑的空间吧”[15]



全距 · 标准差 · 变异系数 · 百分位数 · 四分差 · 四分位数 · 方差 · 标准分数 · 切比雪夫不等式

置信区间 · 区间估计 · 显著性差异 · 元分析 · 贝氏分析

统计总量 · 抽样 · 重复 · 阻碍 · 特敏度 · 区集

统计功效 · 效应值 · 标准误 · 虚无假设 · 对立假设 · 第一型和第二型误差 · 统计检定力

贝叶斯估计算法 · 区间估计 · 最大似嘫估计 · 最小距离估计 · 矩量法 · 最大间距

Z检验 · 学生t检验 · F检验 · 卡方检验 · Wald检验 · 曼-惠特尼检验 · 秩和检验

生存函数 · 乘积极限估计量 · 对数秩和检定 · 失效率 · 危险比例模式

混淆变项 · 皮尔森积差相关系数 · 等级相关 (史匹曼等级相关系数 · 肯德等级相关系数)

线性模式 · 一般线性模式 · 广义线性模式 · 方差分析 · 协方差分析

非参数回归模型 · 半参数回归模型 · Logit模型

饼图 · 条形图 · 双标图 · 箱形图 · 管制圖 · 森林图 · 直方圖 · QQ图 · 趋势图 · 散布图 · 茎叶图

数据可视化 · 信息可视化 · 知识可视化 · 化学成像 · 罪行绘图 · 教育可视化 · 流场可視化 · 地理可视化 · 数学可视化 · 医学成像 · 分子图形学 · 产品可视化 · 科学可视化 · 软件可视化 · 技术制图 · 立体可视化

图表 · 计算机圖形学 · 图示 · 函数图 · 工程制图 · 表意文字 · 信息图形 · 地图 · 照片 · 象形文字 · 图 · 统计图形 · 表格 · 技术插图

制图学 · 计算机图形學 · 图形绘制 · 图形设计 · 影像学 · 信息科学 · 心理可视化 · 神经影像学 · 科学建模 · 空间分析 · 可视化分析论 · 视知觉

两种dna指纹图谱技术在分枝杆菌鉴萣中的应用研究,dna指纹图谱,结核分枝杆菌,指纹图谱,分枝杆菌,中药指纹图谱,非结核分枝杆菌,指纹图谱技术,分枝杆菌培养,草分枝杆菌

我要回帖

更多关于 阴性(–)是正常吗 的文章

 

随机推荐