课程目录
NLP的历史
完成学习
<style type="text/css"> </style> <!--style type="text/css"> /* Overrides of notebook CSS for static HTML export */ body { #overflow: visible; #padding: 8px; } div#notebook { overflow: visible; border-top: none; }@media print { div.cell { display: block; page-break-inside: avoid; } div.output_wrapper { display: block; page-break-inside: avoid; } div.output { display: block; page-break-inside: avoid; } } </style--> <!-- Custom stylesheet, it must be in the same directory as the html file --> <!--link href="/static/codemirror/codemirror.css" rel="stylesheet"--> <!--link rel="stylesheet" href="/static/css/custom.css"--> <!-- Loading mathjax macro --> <section> <div tabindex="-1" id="notebook" class="border-box-sizing"> <div id="notebook-container"> <div class="cell border-box-sizing text_cell rendered"><div class="prompt input_prompt"> </div> <div class="inner_cell"> <div class="text_cell_render border-box-sizing rendered_html"> <h2 id="NLP&#21457;&#23637;&#21382;&#21490;">NLP&#21457;&#23637;&#21382;&#21490;<a class="anchor-link" href="#NLP&#21457;&#23637;&#21382;&#21490;">&#182;</a></h2><p>《圣经.旧约.创世纪》<a href="https://zh.wikipedia.org/zh-cn/創世記#巴別塔與人類語言的變亂">第十一章</a>中讲到,原本所有人的语言只有一种,人们齐心协力企图建造一座通天塔。而上帝见此情形甚是恐慌,于是扰乱了人类的语言和口音,使人们语言彼此不通,便无法继续建造,人类自此个散东西。圣经中关于语言不同起源的历史解释并无科学依据,事实上人类的语言在上万年前就已经有了。而自然语言处理(NLP)的历史直到二十世纪五十年代初才刚刚开始,至今已有半个多世纪的历史。</p> <p>在1940年代末的时候还没有自然语言处理这种说法,最初在1949年由Warren Weaver提出了机器翻译(machine translation,简称MT)的概念。当时机器翻译的主要语言是英语和俄语。之后的1954年的<a href="https://en.wikipedia.org/wiki/Georgetown%E2%80%93IBM_experiment">乔治城实验</a>将60句俄语全部自动翻译成英语。在1956年人工智能诞生之时,该领域的创始人将国际象棋(computer chess)和机器翻译作为两个标志性任务提出,认为只要计算机的象棋程序打败国际象棋世界冠军、机器翻译达到人类翻译水平就可以宣布人工智能的胜利。研究人员宣称三到五年之内可以解决机器翻译问题,但根据1966年<a href="https://en.wikipedia.org/wiki/ALPAC">ALPAC</a>的报告,机器翻译的研究远未达到预期目标,这也导致了研究经费被大幅削减。也正是在这个时候,人们开始使用计算机进行文学和语言学研究,构建了世界第一个机读语聊库—布朗语料库(Brown Corpus)。因为人工智能(AI)学科的影响在60年代也有了早期的人机对话系统,并随着研究的深入,在语言和任务处理方面变得越来越复杂。1960年代发展特别成功的NLP系统有<a href="https://en.wikipedia.org/wiki/SHRDLU">SHRDLU</a>这是一个词汇有限,运作于受限如“<a href="https://en.wikipedia.org/wiki/Blocks_world">blocks world</a>”的一种自然语言系统,以及1964-1966年约瑟夫·维森鲍姆模拟“个人中心治疗”而设计的<a href="https://en.wikipedia.org/wiki/ELIZA">ELIZA</a>,几乎没有用到人类想法或感情的信息,有时候却能呈现令人讶异地类似人与人的互动。“病人”提出的问题超出ELIZA 知识范围之时,可能会得到空泛的回答。例如问题是“我的头痛(My head hurts)”,回答是“为什么说你头痛(Why do you say your head hurts)?”</p> <p>1970年代,许多程序员开始设计“概念本体论”(conceptual ontologies)的程式,将现实世界的数据,架构成电脑能够理解的资料。实例有MARGIE、SAM、PAM、TaleSpin、QUALM、Politics以及Plot Unit。许多聊天机器人就是在这一时期写成,包括<a href="https://en.wikipedia.org/wiki/PARRY">PARRY</a>、<a href="https://en.wikipedia.org/wiki/Racter">Racter</a> 以及Jabberwacky。</p> <p>1980年代,多数自然语言处理系统是以一套复杂、人工规定的规则为基础。而从1980年代末期开始,语言处理引进了机器学习的算法,NLP产生革新。原因有两个:计算机运算能力的稳定增加(参见<a href="https://zh.wikipedia.org/wiki/摩尔定律">摩尔定律</a>);以及乔姆斯基语言学理论渐渐丧失主导(例如<a href="https://zh.wikipedia.org/wiki/转换-生成文法">转换-生成文法</a>)。有些最早期使用的机器学习算法,例如决策树,类似当时的人工制定的规则。最初在词性标记任务中引入隐马尔可夫模型,后来有大量的研究转向统计模型。直到80年代,统计机器翻译系统发展起来,机器翻译的研究才得以更上一层楼。</p> <p>许多早期在机器翻译领域的成功,特别要归功于IBM的研究,发展出复杂的统计模型。统计模型的一个缺点是受限于语料库,一直到现在这都是限制成功的一个主要因素,于是大量的研究致力于从有限的数据集中更有效地学习,这也是目前研究的主要模式。</p> <p>近来的研究更加聚焦于非监督式学习和半监督学习的算法。这种算法能够从没有人工给定理想答案的数据集中学习。大体而言,这种学习比监督学习困难,并且在同量的数据下,通常产生的结果较不准确。不过随着未标注数据的数量级日益增大,这也弥补了不准确的缺点。近些年又随着神经网络算法的出现,深度学习的发展,自然语言处理例如语音识别,机器翻译,情感分析等任务都取得了很多突破的进展,并且发展速度惊人。</p> <p>推荐阅读:</p> <ul> <li><a href="https://en.wikipedia.org/wiki/Natural-language_processing">维基百科:自然语言处理</a></li> <li><a href="http://ccl.pku.edu.cn/doubtfire/NLP/OVERVIEW/A%20Brief%20History%20of%20CIP.pdf">中文信息处理技术发展简史</a></li> </ul> </div> </div> </div> </div> </div> </section>
实战演练(0)
返回 >

暂无相关实战演练哦~