自(zì)然语言处理(NLP)的(de)一般处理流程!
1. 什么(me)是NLP
自(zì)然语言处理 (Natural Language Processing) 是人(rén)工智能(AI)的(de)一个子领(lǐng)域。自然语言处理(lǐ)是研究(jiū)在人与人交互中以及在(zài)人与(yǔ)计(jì)算(suàn)机交(jiāo)互中(zhōng)的(de)语言问题的一门学(xué)科。为了建设和完善(shàn)语言(yán)模型,自(zì)然语言处理建立计算框架,提出相应(yīng)的(de)方(fāng)法(fǎ)来不(bú)断的完善设计各种实(shí)用系统,并探讨这些实用系统的评测方法。
2. NLP主要研(yán)究方向
信息(xī)抽取:从给定文本中抽取重要的信息,比如时(shí)间、地点、人物、事件、原因、结果、数(shù)字(zì)、日期、货(huò)币、专有名词等等。通俗说来,就(jiù)是要了解谁在什么时候、什么原因、对谁、做了(le)什么事、有什么结果(guǒ)。
文本生成(chéng):机器像人一样使用自然(rán)语言进行表达和写作。依据(jù)输入的不同,文本生成技术主要(yào)包括数据到文(wén)本(běn)生成(chéng)和文本到文(wén)本生成。数(shù)据到文本生成是指将包(bāo)含键值对的数据转化(huà)为自然语(yǔ)言文本;文本到(dào)文本生成对输入文本进行转化和处(chù)理从而产生(shēng)新的文本。
问答系(xì)统:对(duì)一个(gè)自然语言表达的(de)问题,由问答系统(tǒng)给出(chū)一个精(jīng)准(zhǔn)的答案。需(xū)要(yào)对自然语言查询语句(jù)进行某种(zhǒng)程(chéng)度的语义分析,包(bāo)括实体链接、关系识别,形(xíng)成逻辑表达式,然后到(dào)知识库中(zhōng)查找可能的(de)候选答案并通过一个排序机制找出(chū)最佳(jiā)的(de)答(dá)案(àn)。
对话系统(tǒng):系统通过(guò)一(yī)系列的对话,跟用户(hù)进行聊天、回答、完成某一项任务。涉及(jí)到用户(hù)意图理解、通用聊天引(yǐn)擎、问答(dá)引擎、对话管理等技术(shù)。此外,为了体现(xiàn)上下文相关,要具备多轮(lún)对话能力。
文本挖掘:包括文本聚类、分类(lèi)、情(qíng)感分析以及对挖掘(jué)的信(xìn)息和知识(shí)的可(kě)视(shì)化、交互式的表达界面。目前主流的技术都是基于统计机器学(xué)习的。
语音识别和生成(chéng):语音识别是将(jiāng)输入计算(suàn)机(jī)的语音符号识别转换成书面(miàn)语表示。语音生(shēng)成又(yòu)称文语转换、语音合成,它是(shì)指将书面文本自动转换成对应(yīng)的语(yǔ)音(yīn)表(biǎo)征。
信息过滤:通过计算机(jī)系统(tǒng)自动(dòng)识别和过滤符合特定条件的文档信息。通常指(zhǐ)网络有害信息的自(zì)动识别和过滤,主要用(yòng)于信息安全和防护,网(wǎng)络内容管(guǎn)理等。
舆(yú)情(qíng)分析:是指收(shōu)集和处(chù)理海量(liàng)信息,自动化地对网络舆情进行分析,以实现及时应对(duì)网络舆情的目的(de)。
信息检索:对(duì)大规模的文(wén)档进(jìn)行索引。可(kě)简单对文(wén)档中(zhōng)的词汇(huì),赋之(zhī)以不同的权重来建立(lì)索引,也可建立更加深层(céng)的索引(yǐn)。在查询的(de)时候,对(duì)输(shū)入的查询表(biǎo)达式(shì)比如一个检索词或(huò)者一(yī)个句子进行(háng)分析,然后在索引里面查找匹配的候选文档,再根据一个排序机制把(bǎ)候选文档排序,最后输出排序得分最高的(de)文(wén)档。
机器翻译(yì):把输(shū)入的源(yuán)语言文本通过(guò)自动翻译获(huò)得(dé)另外一种语言的文本。机器翻译(yì)从最早的基于规则的方(fāng)法到二十年前的基(jī)于(yú)统计的方法,再到今天的基于(yú)神经网络(编(biān)码-解码(mǎ))的(de)方法,逐渐形成了一套比较严谨的方法体系。
3. NLP的发展(zhǎn)
1950年前:图(tú)灵(líng)测(cè)试 1950年前阿兰·图灵图灵测(cè)试:人和机器进行交流,如果人(rén)无法判断自己交(jiāo)流的对象是人还是机(jī)器,就说明这个机器具有智能。
1950-1970:主流:基于规(guī)则(zé)形式语言理论
乔姆斯基,根据数(shù)学中(zhōng)的(de)公理化(huà)方法研(yán)究自然语(yǔ)言,采用代数(shù)和集(jí)合论把形(xíng)式(shì)语(yǔ)言(yán)定义为符号(hào)的(de)序列。他试(shì)图使(shǐ)用(yòng)有限的规(guī)则描(miáo)述无限的语言现象,发现人类普遍的语(yǔ)言机制,建立所谓的普遍语法。
1970-至今:主流:基(jī)于(yú)统计 谷歌、微软、IBM,20世纪70年(nián)代,弗里德里克·贾里尼克(kè)及其领导(dǎo)的IBM华生(shēng)实验室将语音识别率从70%提升到(dào)90%。 1988年,IBM的彼得·布(bù)朗提出(chū)了基于统计的机器翻译方(fāng)法。 2005年,Google机器翻(fān)译打败基于规则(zé)的Sys Tran。
2010年以后(hòu):逆袭:机器学习
AlphaGo先后(hòu)战(zhàn)胜李世(shì)石、柯洁等,掀起人(rén)工智能热潮。深度学(xué)习、人工神经(jīng)网络成(chéng)为(wéi)热词。领域:语音(yīn)识别、图像识别、机器(qì)翻译(yì)、自动驾驶、智(zhì)能家居。
4. NLP任务的一般步骤
下面图片看不清楚(chǔ)的,可以百度脑图查看,点击链接(jiē)
5. NLP、CV,选(xuǎn)哪个?
NLP:自(zì)然语言处理,数(shù)据是(shì)文本。
CV:计算(suàn)机视觉(jiào),数据是图像。
两者属于不同的领域,在遇到(dào)这个问题的时(shí)候,我也是犹豫了很久,想了很多,于是乎得(dé)出一个(gè)结论:都是利用深度学习(xí)去解(jiě)决现实世界(jiè)存在的问题,离开了CV,NLP存活不了;离开了NLP,CV存活不了。两者就像(xiàng)兄弟姐妹(mèi)一样,整个(gè)“家庭”不(bú)能分割但个(gè)体又存在差(chà)异!
NLP/CV属于两(liǎng)个不同的研究领(lǐng)域,都是很好的领域,可以根据自己(jǐ)的爱好作出适(shì)合自己的(de)选择(zé),人工智能(néng)是(shì)一个多学科交(jiāo)叉(chā)的领域,需要的不(bú)仅(jǐn)仅是单方面的能力,而是多方面的能力。对于每个(gè)人来说都有自己的侧重点(diǎn),选择自己擅(shàn)长的领域里持(chí)续(xù)深耕,就会(huì)有所(suǒ)成就!