Kumaramputhur是喀拉拉邦Palakkad西北约45公里处的一(yī)个(gè)小村庄,约有3500个家庭在这里居住。这个村庄没有第一产业可言,它的性别比例(lì)和识字率都低于(yú)该(gāi)州的平均水(shuǐ)平。除了有一些(xiē)现代化的痕迹,这里似乎没有什么值得引起注意。
然而,正是(shì)在这个(gè)村子(zǐ)里,高中(zhōng)辍(chuò)学生Mujeeb Kolasseri指(zhǐ)挥着一支由200多(duō)名员(yuán)工组成的团(tuán)队(duì),为美国(guó)、欧洲、澳大利亚和亚洲的客(kè)户开发人(rén)工智(zhì)能解决方案。Kolasseri 于三年前创办了这家名为(wéi)Infolks的公司,28岁的(de)他是该公司资格最老(lǎo)的成员。
该公司的办公室位于连(lián)接Palakkad和Kozhikode的高速公路上,虽然不起眼,但(dàn)团(tuán)队里的大部分成员都(dōu)在(zài)这里工作。他们所要做(zuò)的就(jiù)是将固定(dìng)在自动驾驶(shǐ)车辆上的摄像机拍(pāi)摄(shè)的车辆、交通灯、路标(biāo)和行人的(de)图像进行强调和标记。这份(fèn)工作看似简(jiǎn)单,但(dàn)却很困难,因为他(tā)们需要将激光雷达遥感器(qì)捕获的(de)数据进行精确标记(激光雷达为自(zì)动驾(jià)驶车辆创建3D地图(tú),以(yǐ)获得对周围物(wù)体的感知)。
约2000公里之(zhī)外,加尔各(gè)答西南边(biān)缘的梅蒂阿(ā)布鲁兹胡格利河岸附近,约有200名妇女(nǚ)正在给图像贴标签,这些(xiē)图像(xiàng)将(jiāng)用(yòng)于训练自动驾驶车辆(liàng)和(hé)增强现实系统中的算法。
“他们参与着一些(xiē)我们最前沿(yán)的图像(xiàng)项目,”数据注释公司(sī)iMerit的技术和营销副总裁Jai Natarajan表示,其员工参与标记和准备数(shù)据,以训(xùn)练人工(gōng)智(zhì)能算(suàn)法。
iMerit在加尔(ěr)各答(dá)、兰奇、布巴内(nèi)斯瓦尔、维扎格和(hé)夏隆办事处的数(shù)千名员工也在从事着类似的工作,通过(guò)给数百万数据贴上标签,帮助训(xùn)练全球各大公司开发(fā)的人工智能算法。
全球企(qǐ)业巨头正在逐步采用人工智能,为人工智能算法(fǎ)提供支持的数据集也变得越来(lái)越专有(yǒu),所以这些(xiē)公司需要在(zài)要求、质量控制、反馈和交付方面与(yǔ)数(shù)据标签团(tuán)队(duì)进行(háng)更高程度的合作。
由于本世纪(jì)初业(yè)务流程外包(bāo)的繁荣,印度人(rén)对这些行话和要求并(bìng)不陌生。数(shù)据注释和(hé)标(biāo)记也是一种由流程驱动的工作,需要精确的工(gōng)作和技能,即使(shǐ)是受过高(gāo)中(zhōng)教(jiāo)育的人也可(kě)以接受培(péi)训(xùn)。
随着以众包(bāo)为(wéi)主的第一代(dài)工作被更先进的要求所取(qǔ)代,Infolks、iMerit和Playment等公司(sī)开始迎合全球客户(hù),并使印度(dù)成(chéng)为数据标签和注释工作的新兴中心。
“这是一个(gè)新兴行业。在印(yìn)度,每个人都已(yǐ)经开(kāi)始意识到它带(dài)来的巨大机遇,”印(yìn)度科技产(chǎn)业机构Nasscom的高(gāo)级副总裁兼首席(xí)战略官Sangeeta Gupta表示。“人工智能需要适当注释、分类和匿名的(de)数(shù)据。为(wéi)此(cǐ),不管喜(xǐ)不喜欢,你都将使用自动化,但你也必须使用熟练(liàn)的人力资源,而这(zhè)就(jiù)是它给印度带来(lái)的(de)机会。”
根据(jù)研究公司Cognilytica的一份报告,到2023年(nián)底,与人工智(zhì)能和机(jī)器学习(xí)相关的数据(jù)准备(bèi)解决方(fāng)案的全球市场,预计(jì)将从2018年的约5亿美元增长至12亿美元。
什(shí)么是(shì)数据标(biāo)记(jì)?
通过数据标记(jì)和注释,来自非结构(gòu)化(huà)来源(如照(zhào)相机、传感器、电子邮件和(hé)社交媒体等)以及来自结构化来源(如数据库(kù))的数(shù)据集被标记(jì)、标注、着色或突出显示,以标(biāo)记出差异、相似性或类型。通过(guò)这样的(de)方法(fǎ),当数据被输入到用于(yú)训练人工智能系统的算(suàn)法中时,该算法可以正确地识别数据并(bìng)从中学习(xí)。
比方说,你想训练一(yī)种算法,利用车(chē)载摄像机拍摄的(de)图像(xiàng)来理解路标。数据(jù)标签工或注释工(gōng)将通(tōng)过图像(xiàng)数据(jù)集,使用标注工具(jù)标记或(huò)高亮显示路标,并(bìng)将(jiāng)其输入人工智能算法进行学习(xí)。下(xià)一次,当算法在一个区域内实时行驶并(bìng)遇(yù)到路(lù)标时,它应该(gāi)能够(gòu)识别出路标。算法训练的路标图像越多,其准(zhǔn)确性就越高(gāo)。
推动人工智能或机器学习(xí)激增的(de)是从互联网(wǎng)、社交(jiāo)媒体、传感器(qì)和其他来源获(huò)取的大(dà)量数据(jù)。如今的算(suàn)法有能力吸(xī)收更多的数据,从而也更精确。只要数据是优质且干净的,将另外一百万个数据集输入一个(gè)算法将会提高它的准确性。因此,这也导致了人工(gōng)智能(néng)算(suàn)法和应用对(duì)标(biāo)注良好的数(shù)据产生了无止境(jìng)的(de)渴(kě)望。
根据Cognilytica的报告,现如今,数(shù)据准备和工程任务占据了(le)大多数(shù)人工智能(néng)和机器学习(xí)项目(mù)80%以上的时间。
“比如自(zì)动(dòng)驾驶,一个小时的视频数据可能需要消耗800个工(gōng)时,”Playment首席执行官(guān)Siddharth Mall表示。
Infolks之旅
Kolasseri高中辍学后,在铝加工行业工作(zuò),但由于健康原因不得不离开。在国内,他注册了亚马逊(xùn)称为“Mechanical Turk”(MTurk)的众包就业市场,并开始从全球各地的公司(sī)从事注(zhù)释工作。
“我能够保(bǎo)持99.8的评(píng)级(jí)是因为我能够提供高质量(liàng)的服务。我工(gōng)作过的一家公司非常喜(xǐ)欢我的(de)工作(zuò),于是直接(jiē)找到我,并提(tí)供了更多(duō)的工作(zuò),”Kolasseri说,他随后(hòu)成立了一个六人(rén)团队(duì)来完成这项工作(zuò)。“我们最初(chū)在家工作(zuò),2016年(nián)初,随着业(yè)务(wù)的(de)增(zēng)长,我决定注册成立这(zhè)家公司。”
最初,Kolasseri的兄弟和一个朋友投资了2.5万卢比,帮助他(tā)建立(lì)了这家(jiā)公司。如今,Infolks是一个正在成长中的(de)团队,其大部分员工来自(zì)Kumaramputhur及其周边地区。
Kolasseri说:“公(gōng)司(sī)的愿景是将(jiāng)我们的(de)村庄变得全球化,并(bìng)为(wéi)农村地(dì)区的年轻人提供经(jīng)济机会。近200名(míng)员工中有90%在20到25岁之间。”
尽管该团(tuán)队也负责医疗保(bǎo)健、机(jī)器人和农(nóng)业等(děng)领(lǐng)域的数据集,但他们大约75%的工作都是(shì)在自动驾驶车辆领域。其客户(hù)包括德国(guó)汽车公司戴姆勒和其他国际科(kē)技公司,由于签署的协议,Kolasseri并未透露(lù)这些公(gōng)司(sī)的(de)名(míng)称。
至于注释,该公司使用客户提供的工具(jù),或者使用(yòng)第三方(fāng)工具。“我们的研发(fā)团队正在开发(fā)自己的注释工(gōng)具(jù)。它目前正(zhèng)在测(cè)试中,应该会在接(jiē)下来的几周内(nèi)推(tuī)出(chū),” Kolasseri表示。Infolks还在Kozhikode区附(fù)近的一(yī)个科技园(yuán)区内(nèi)设立了另一(yī)个办(bàn)事(shì)处。Kolasseri希望这能够增加公司(sī)的收入,因为新的地点属于经济特区,有助(zhù)于扩大(dà)其全球客户群。
印度人工智能后(hòu)台
亚马逊(xùn)的MTurk在(zài)开始限制非美国(guó)员工之前,曾是印度人寻找数据标签和注释工作的热门平台。尽管后来取消(xiāo)了限制,但(dàn)随着(zhe)企业客户开始更加重(chóng)视数据安全(quán),MTurk在数(shù)据标签商中的(de)受(shòu)欢(huān)迎(yíng)程度有所(suǒ)下降。此(cǐ)外,包括Spare5、Cloudfactory和Figure Eight在内的(de)新(xīn)众包平台也已经进(jìn)入市场(chǎng),它们则更加关注注释和标签市场。
Kolasseri说:“在创(chuàng)办公司之前,我曾于2015年(nián)至2016年期(qī)间在(zài)MTurk平(píng)台上(shàng)工(gōng)作(zuò)过,如(rú)今,仍然不(bú)断有新的平台出现。但是(shì),由于企业客户非(fēi)常关注(zhù)数(shù)据安全,尤其是考虑(lǜ)到许多数(shù)据集都是专有(yǒu)的,因此(cǐ)信任这些平台上的工作(zuò)人员成为他们面(miàn)临的更大挑战。”
由前Flipkart员工(gōng)Mall、Ajinkya Malasane和Akshay Kumar Lal所创立的Playment,则以一种(zhǒng)略(luè)有不(bú)同(tóng)的方式对(duì)待注释和(hé)标(biāo)签行业。
该公司为各种用例开发了(le)一系(xì)列注释工具,并开发了一个(gè)由(yóu)受过(guò)这些工具培训的标签工和注(zhù)释工组成的众包(bāo)平台。该公司直接与客户或相关的(de)信(xìn)息技(jì)术服务公司进行合作。
“要将原始数据转换为(wéi)带注释(shì)的结构(gòu)化数据,你需要前端注(zhù)释工具、熟练(liàn)且(qiě)经(jīng)济高效的人力资(zī)源。此外,由于处理数据的规(guī)模化,你还需要有合适的(de)中间件来支(zhī)持不同(tóng)的工作(zuò)流并(bìng)管理远程人力资源,”Mall说。
Playment的众包(bāo)平台拥有30多万(wàn)标签工和注释工。其(qí)中,该(gāi)公司认为约有(yǒu)2.5万人是“高技能顶(dǐng)级玩家”。据Mall称,这些人几(jǐ)乎整天(tiān)都在平台(tái)上(shàng),平(píng)均月(yuè)收(shōu)入为2万至3万卢比(bǐ)。
Playment的(de)大部分(fèn)工作也来自国际客户,其中包括三星、滴滴出行、阿里巴巴(bā)、Drive.ai和(hé)Continental AG,其(qí)中大部分都属于自动驾驶车(chē)辆领域。
iMerit的战略则以员(yuán)工(gōng)为(wéi)中心(xīn)。其(qí)2000多名劳动力中,约80%来自月收入低(dī)于100美元的家庭(tíng);其中大约(yuē)一半是女性(xìng)。“我们的社会使命(mìng)是在贫困社区和公司或(huò)工业较少的地区(qū)创造技术就业机会。我(wǒ)们在科技产(chǎn)业稍低、科技就业机会较少的城(chéng)市开(kāi)展业务,” Natarajan说道(dào)。
所谓的(de)利(lì)他主(zhǔ)义也有很好的(de)商业(yè)意义(yì)。Natarajan表示:“我们的合(hé)作(zuò)伙伴(bàn)和办公地点(diǎn),允许(xǔ)我们以非常经济高效的方式(shì)扩(kuò)大数据注释和标签团队(duì),并为客户提供高质量的工作。”
尽管iMerit的大(dà)部分业务(wù)都来自美国——客(kè)户包括微软、易趣(qù)和Tripadsvisor——但(dàn)其90%的数据注释(shì)和标(biāo)签(qiān)工作是在印度完成的。
注释(shì)自动(dòng)化(huà)
虽然各大公司正在开发用于注释的自动化工具,但由于许(xǔ)多工作需要更(gèng)为细致的定制注(zhù)释或(huò)标签(qiān)工作,要想让自动(dòng)化工(gōng)具达到高精度还需要(yào)一段时间。
Natarajan说,与五年前人工智(zhì)能还在区分猫和狗的(de)不(bú)同相比,现(xiàn)在的(de)人(rén)工智(zhì)能需要(yào)处理更高级的工作。“机器学习已(yǐ)经向前发展,所以不再有人要求(qiú)我们(men)为狗和(hé)猫进行标记。如(rú)今,每家公司都有(yǒu)定制的需求和非(fēi)常细微的需求,所以不可能(néng)自动实(shí)现这(zhè)一点,也不可(kě)能自动给出数据并由一群(qún)匿名人士(shì)贴上标签(qiān)。”
他说,基于人(rén)工智能的自动(dòng)化注释工具是不可(kě)避免会(huì)出现的,但它(tā)并不是一(yī)个威胁。“自动化(huà)注释工具本身就是经过良好注释训练出来的结果。当你试图解决一个问题时,这些工具只(zhī)能把(bǎ)你带到(dào)一定的(de)水平(píng),但是(shì)要超越(yuè)这个水平,你(nǐ)还(hái)需(xū)要自定义注释,”Natarajan说。
当(dāng)然,加(jiā)以一(yī)段时间,自动化工具会变(biàn)的(de)足够有效,从而能(néng)够(gòu)创建更好地数据集。“从更长远(yuǎn)的(de)角度来(lái)看,我们确实(shí)认识到这个行业并不能永久存(cún)在。当客(kè)户(hù)成功时,我们(men)的任务就结(jié)束了,”Natarajan说(shuō)。“但我们也发现,这也并不是一(yī)个100%肯定的事情,因为它总是一个持(chí)续不断的(de)学习和(hé)改进的过程。此(cǐ)外,当客户转向(xiàng)下(xià)一个问题时,一切又都(dōu)从(cóng)零开始了。”
换句话说,印度的数据(jù)标签和注释公司尚未见顶,这(zhè)一行业可能需要很长时间才会走上业务流程外包(bāo)的老路(lù)。