原标题:细思恐极的星座分析(仩)——用大数据和机器学习揭开十二星座的真实面目
作者wwqqer2017年7月第一版,首发于经管之家未经允许,不得转载!
“为什么我的论文总發表不了是不是我天生就不是做研究的料?”很多同学在写论文中遇到挫折经常会发出这样的疑问。那么今天我就用星座真实的数據和“高大上”的机器学习来帮大家分析一下原因。首先声明我不是宿命论的支持者。本文也不是教大家如何成功但利用本文的研究荿果,可以帮助大家少走些弯路不管大家之前对星座分析持何种态度,我希望大家耐心读完本文之后能对星座与天赋有全新的认识。
溫馨提示:本文完全从科学的角度探讨人类的天赋期间会借用一些星相学中的名词,但请不要将本文与占星术或星盘混为一谈本文很長,分上下两部分上半部分主要讨论太阳星座,下半部分将涉及月亮星座等而且,有同学可能将天文学中的星座(Constellation)与星相学中的星座(Zodiac
Sign)混淆关于这个的科普请见本文下半部分的附录二。另外本文讨论天赋与星座的关系,所使用的是客观的数据不以个人的意志洏转移,不会产生所谓“巴纳姆”效应请个人不要对号入座,因为普通人努力都不够还没资格谈天赋呢。最后本文中的“天赋”其實用“本性”更合适些,因为它还包括了性格等因素
本文的研究方法很简单:聚天下之天才而观察之。把各行各业中的天才们收集起来看看他们哪个星座人数多,哪个星座人数少方法简单,人人都会但操作细节很重要,这样做出来的结果才会有意思(本文研究方法嘚具体细节见文末【附录一】)我们先来看一下有哪些天才被我当成了“小白鼠”。“表一”总结了本文所使用的数据
本文共选择了27個行业,总共5700多个样本其中华人约占350个,女性约占600个南半球约占300个。如果没有特别注明各行业数据的历史一般是从该奖项(如果有嘚话)设立开始,直到2017年为止有些行业有严格的筛选过程,比如每年评选的诺贝尔奖各种体育竞技项目的国际比赛等,我们就可以利鼡它们来确定样本然而,另一些行业没有固定的筛选过程尤其是艺术类。所以我们只能靠“时间”来筛选。具体来说就是用搜索引擎搜索“历史上著名XXX”(XXX为职业名,比如建筑师,作家等)来挑选举世公认的行业领军人物。本文使用的数据的总时间跨度大约是朂近300年左右
既然介绍了数据,那么我们就来看一下使用所有的数据统计出的星座分布(图一)(注:由于每个星座内的天数稍有不同峩用得到的每个星座的人数除以该星座的天数,从而算出星座分布的日均数以排除天数不同带来的影响。本文之后所有的计算和结论都建立在诸如此类的日均数上)图一的四种颜色分别代表土(黄色),水(蓝色)火(红色),风(灰色)四大星象从图一中,我们看到射手人数最少而与之相邻的摩羯座人数最多,两者的平均数接近全部星座的平均数/p/b8181b22ffe1
附录一:本文研究方法的具体细节
在“表一”中27个行业的选择遵循以下三个原则:
1. 要能够突显单个星座的特质。比如诺贝尔和平奖得主没有被选为研究对象,因为他们大多是政治家后天因素起了主要作用,不符合本文的初衷又比如,许多体育项目没有被选中,因为大多数项目是集体活动即使产生了许多体育明星,也很难区分他们的成功是由于团队的力量还是个人的天赋造就的而且,兴奋剂在体育界的滥用也是另一个重要原因
2. 要有可靠的(经過筛选的)且样本数不是太小的数据。比如历年诺贝尔奖得主就是很好的数据,仅管有些科目越来越强调团队合作(比如化学,医学)从而掩盖了单个星座的特质。
3. 选择范围尽量地广人类的天赋具有多面性,所以选择的行业要尽可能覆盖它们比如想象力,逻辑推斷力表达能力,等等
当然,我也不敢肯定这27个行业就一定能代表人类的所有天赋但由于数据的限制,要想选出符合上述三个原则的荇业并不是很容易欢迎大家多提宝贵意见。
二为什么要选择每个行业中的天才?
这是因为在他们身上所体现的某些特质较普通人明显仅管(在研究前)我们暂时不知道到底是哪些特质。而且他们在行业中的表现是客观存在的,不会受到他人主观评价的影响其次,洳同上文提及的天才们是经过了严格的筛选后得到的,数据可靠且容易获得
最后也是最重要的一点,如上所述本文不是讨论如何挖掘天赋,而是假设天赋已显露出来后研究它与星座的关系(请个人不要对号入座,因为普通人努力都不够还没资格谈天赋呢)。我不昰宿命论的支持者一个人的天赋与他(她)最后取得的成就没有必然联系,因为会受到许多后天因素的影响我使用‘天才’们的数据恰恰可以控制这些后天因素,尤其是学术类和体育类行业使得我更有效地观察星座与天才之间的关系。
打个比方我们可以不失一般性哋认为诺贝尔经济学奖获得者的经济学基本理论知识都很扎实,并且背景相似(都具有博士学位都在高等学校任教,等等)而且,我們也无法推断说今年的诺奖获得者比往届的都要勤奋刻苦至于艺术类,后天因素的影响就更小了有人天生对声音敏感,而有人天生对銫彩敏感诸如此类。即使有老师指导也只是起辅助作用。所以如果在后天因素被控制的情况下,某个星座的人数相较其它星座还存茬显著差别那么我们有理由怀疑造成这种差别的原因不是来自后天,而是先天!
三如何判断一个星座的人数比另一个星座的人数多(戓少)?
这里我使用简单的统计学方法假设给定一个行业的星座分布(如图一),我可以算出分布的平均值与标准差如果某个星座在離开平均数1个标准差附近,那么情况就“有点意思” 了计正(负)0.5分。如果明显超过1个标准差那么情况就 “很有意思” 了,计正(负)1分如果超过2个标准差,那么情况就“非常有意思” 了计正(负)2分。如果是在1个标准差以内则视为 “无差别”,计0分这样做的恏处是可以排除某些行业样本数过大带来的影响(注1:所有行业的星座分布都是人数分布,除了围棋每位围棋选手按水平高低有一个实仂评分,围棋的星座分布建立在这些评分上)
【1】小时候被指没天分,长大却成天才少女她的生命很短但惊艳了世界()