泰坦(tǎn)尼克号沉(chén)没(méi)已经过去107年(nián),这场(chǎng)悲剧与可(kě)持续农业、人口迁移问题或者健康保险(xiǎn)费(fèi)率等(děng)现代问题能(néng)有什(shí)么关系?这里给大家一点提(tí)示:数据证明。
无论是好是坏,现代世(shì)界正越来(lái)越多地利用算(suàn)法识别数据中的模式,并根(gēn)据这些模式做出预测。人(rén)们希望回(huí)答的问题(tí)是,“某个人能否在泰坦尼克(kè)号的沉没中幸存下来?”而这(zhè)个问题的基本分析方法,与“最有可(kě)能的人口(kǒu)迁移途径(jìng)是什么?”完全一致(zhì)。
历史悠久的问题
基(jī)于泰坦尼克号数据集,以预测海上生存(cún)概(gài)率,一直是众(zhòng)多胸(xiōng)怀(huái)抱负的数据(jù)科学(xué)家以及程序员的标准实践问题。
这是(shì)一个基本的挑战(zhàn):将(jiāng)一部分泰坦尼克号乘客名单添加(jiā)至(zhì)算法(fǎ),其中描述(shù)每(měi)位乘(chéng)客及其特性的一些基本(běn)变量。根据这(zhè)些数据,算法应(yīng)能够提出相关(guān)结论,说(shuō)明哪些变量决定某个(gè)人在1912年4月那个(gè)寒冷的夜晚拥(yōng)有更高的生存或者死亡机率。为了测试结果是否正确,你(nǐ)需要利用(yòng)训练完成(chéng)的算(suàn)法(fǎ)处理名单中(zhōng)的其余乘客信息,而后与实际(jì)结(jié)果进行比较(jiào)。
Kaggle.com等在线社区曾经进(jìn)行过这样的竞赛(sài),看谁能够(gòu)开发出准确率最高的(de)生(shēng)存预测算法。此外,这也是大(dà)学课(kè)程当中的常见问题。乘客名单大到足够能(néng)反映出明确的趋势,同时(shí)又小(xiǎo)到(dào)能够被(bèi)初学者掌握。其结果也相对简单(dān)——决定生死(sǐ)的变量可能只有十(shí)几项,所以(yǐ)问题(tí)并不复杂(zá),初学者(zhě)也(yě)能够解决(jué);但其中的(de)交互关系又足够复杂,能吸引(yǐn)到技术人员的关注。另(lìng)外,由于(yú)泰坦尼克号的故事非常有名,因此即使过去(qù)一个多世纪,仍能引(yǐn)发共(gòng)鸣(míng)。
SparkBeyond公司正在将泰坦尼克号问题作为其AI平台(tái)的早期测试素材,并希望将(jiāng)其作为向(xiàng)潜在客户展示技术(shù)能力的方式(shì)之一(yī)。该公(gōng)司联合创始(shǐ)人兼CEO Sagie Davidovich表(biǎo)示(shì),“有趣的是(shì),即使是在像泰(tài)坦尼克(kè)号这样简单的问题当中,我们仍能够(gòu)发(fā)掘出大量有价值的(de)结论(lùn)。”
生存(cún)结果可归(guī)结为变量
如果大家对泰(tài)坦尼克号的故事比较熟悉,完全可以通过(guò)简单(dān)的数字计算(suàn)对乘客的命运(yùn)做出合理的猜测。
其中女性的(de)生(shēng)存机率几乎达到男性的两倍,儿童的生存(cún)机(jī)率则(zé)为成人的1.4倍。一等舱乘客的生存机(jī)率(lǜ)为其他乘客的1.9倍。事(shì)实证明,中(zhōng)年女(nǚ)性与年(nián)轻女(nǚ)性(xìng)之间,舱位等级对生存(cún)率的影响最大;而在中年男性(xìng)与(yǔ)年(nián)轻男性之间,年龄差异则是决定(dìng)生存率的关键。
虽然(rán)这(zhè)些(xiē)结果基本在人(rén)们的意料之中,但确实能够做出非常准确的预测。除此之外(wài),算法也需要考虑到其(qí)它(tā)变(biàn)量对于生存名(míng)单的影响,例如一个人的父母、孩子(zǐ)或者兄弟姐妹是否同在船上(shàng)。正因为这些复杂(zá)性(xìng)因素的存在,泰(tài)坦尼克号乘客名单才有长久以来(lái)一直(zhí)成为数据科学家们关注的经(jīng)典问题。
事实证明,以不同的方式(shì)查(chá)看数据有时也能带(dài)来更快捷的分析结果。Davidovich指(zhǐ)出,SparkBeyond的(de)AI方案就通过查看船(chuán)票上(shàng)列出的乘客姓(xìng)名前缀(zhuì),发现了这样(yàng)一条分析“捷径”。
Davidovich解释道,“从数(shù)据当(dāng)中可(kě)以看出,最简单的高生(shēng)存率预测指标就是,乘(chéng)客的名字中不包(bāo)含“先生”这一表述。这显然涉及到乘(chéng)客的性别成分,但深入解(jiě)读,这种现象实际上包含了上面(miàn)谈到的全部(bù)三种生存指标。”因为“先(xiān)生”这一前缀(zhuì),能够快速确定最有可(kě)能在(zài)沉船事故中死亡的群体:中产(chǎn)阶级及资产阶级成年男性(xìng),这一群更有(yǒu)能力购(gòu)买头等舱船票的群体,往往(虽然并(bìng)非全(quán)部)拥(yōng)有“阁下”这类头(tóu)衔,而年轻的男孩则被称为(wéi)“少爷”(主要来(lái)自贵族阶(jiē)层)或(huò)者并无特别(bié)的称谓。
现代(dài)应用
SparkBeyond公司(sī)的AI方案(àn)目前已经(jīng)开始(shǐ)研究监狱暴力行(háng)为的原因、半导体制造(zào)质(zhì)量控制以及人口(kǒu)迁移(yí)模式等问题。
Davidovich介绍称,“机器智(zhì)能可以确定(dìng)的一项基本事实,在(zài)于自然(rán)灾害与人口迁移之间的联系。美国人口(kǒu)迁移的大幅飙(biāo)升与飓(jù)风哈维有关,这一点在某些高速公(gōng)路及主(zhǔ)要道路上体现得尤为(wéi)明(míng)显。”
当然,除了数据模式这一共同本质之外(wài),泰坦尼克号数据集还有着另一大(dà)共通的特性——尽(jìn)管(guǎn)人们在分析(xī)时很容易迷失在具体数(shù)据当中,但这些纷(fēn)繁复杂的数(shù)字与(yǔ)变量背后仍是真实人生(shēng)的(de)反映。