每天上千条文本过期累死志愿者的维基百科被MIT最新AI接手啦

放大字体  缩小字体 2020-03-31 16:26:04  阅读:9691 作者:责任编辑NO。石雅莉0321
​编者按:本文来自微信大众号“大数据文摘”(ID:BigDataDigest),编译:Iris、钱天培,36氪经授权发布。来历:MIT维基百科作为。

编者按:本文来自微信大众号“大数据文摘”(ID:BigDataDigest),编译:Iris、钱天培,36氪经授权发布。

来历:MIT

维基百科作为一个敞开协同式的百科网站,是全世界最受欢迎的十大网站之一。现在,维基百科现已累积了逾越上百万个词条。

由于现实发作改变,每天有千上万的文章需求及时更新。修改作业触及文章扩展、严重改写,或比方更新数据、日期、人名和地址等例行修订。现在,这项使命由世界各地的志愿者保护着。

走运的是,MIT的一项最新研讨成果有望大大减轻志愿者的保护压力。

在本年AAAI人工智能大会上,MIT的几位研讨者提出了一个文本生成体系,该体系能精确定位维基百科语句,还能用近似人类的编写办法替换语句中特定的信息。

人们只需求在某个界面输入简略的语句,指出信息改变,这一体系就能主动检索维基百科,定位到详细的页面和过期的语句,再以人类的办法重写该语句。

研讨者也说到,未来可以构建一个全主动化的体系,经过辨认和运用网络上最新的信息来生成维基百科语句需求重写的语句。

论文合著者之一的Darsh Shah,一位来自计算机科学与人工智能实验室(CSAIL)的博士生标明,“维基百科的文章一向都有许多的更新作业,假如能削减或没有人工干预的情况下,完结主动、精确地修订文章,那会十分有价值。不再需求消耗许多人力来修订维基百科的文章,只需几个人便即可搞定,由于模型可以主动完结,这是巨大的提高。

现实上,现已有许多其他的机器人能主动修改维基百科。Shah说到,这些东西一般被用来削减破坏性信息,或是去除预界说模板的狭义界定信息。

他指出,他们的新模型处理了人工智能的一个扎手问题:给定一个新的非结构化信息,模型会像人相同主动修订语句。

“其他的机器人更多选用根据规矩的办法,但是主动修订则是要可以判别两个语句中对立的部分,并生成连接的文本。”

论文合著者和CSAIL研讨生Tal Schuster说到,体系还可以正常的运用其他的文本生成运用。论文中,研讨者运用盛行的现实核对数据集主动合成语句,来削减误差,也无需人工搜集额定的数据。Schuster标明这种办法可以改进主动化现实核对模型,比方,练习数据集检测虚伪新闻。

Shah、Schuster、德尔塔电子电气工程与计算机科学Regina Barzilay教授以及CSAIL的一位教授一同合著了这篇论文。

“中立屏蔽”

依托一系列的文本生成技能,体系得以辨认语句的对立信息,并将两个独立的语句交融在一同。将维基百科文章中“过期”语句和“声明”语句作为输入,声明语句包括了更新和抵触信息。体系会根据声明语句主动删去和保存过期语句中的特定词,并在不改变款式和语法情况下更新语句的现实。这对人来说很简单,但对机器学习而言具有应战。

举例来说,假如要将“费德勒有19个大满贯”更新为“费德勒有20个大满贯”。根据声明语句,在维基百科找到“费德勒”,将过期数据(19)替换为新数据(20),并保存语句原有的句式和语法。在他们的作业中,研讨者只用到维基百科部分语句的数据集来运转该体系,而无需拜访百科一切的页面。

体系选用包括语句对的盛行数据集来进行练习,每个语句对包括一个声明和另一个相关的维基百科语句。每个语句对会被标记为三种状况:赞同、不赞同、中立。

“赞同”代表语句之间包括的现实信息共同。“不赞同”代表两个语句之间存在对立的信息。“中立”代表没有满足的信息来判别是否赞同。体系根据声明改写过期语句之后,一切标记为不赞同的语句将变为赞同状况。这需求两个独立的模型来得到希望的成果。

一个模型是现实核对分类器,预练习的时分需将每个语句标识为“赞同”、“不赞同”、“中立”,大多数都用在找出存在对立的语句对。

与分类器一同运转的还有一个自界说的“中立屏蔽”(neutrality masker)模块,用以区分过期语句中哪些单词与声明语句相对立。该模块删去尽或许少的单词以到达“最大化中性”,即语句可以被标记为中性。

也就是说,假如把这些词屏蔽后,两个语句将不再存在对立信息。咱们对过期语句构建了一个二进制的“遮盖”模块,0代表或许需求删去的单词,1代表赞同保存的单词。

遮盖后,咱们运用一个“双编码—解码”结构(two-encoder-decoder framework)生成终究的输出语句。模型会学习声明语句和过期语句的特征。与此同时,选用“双编码—解码”进程来交融声明中相对立的单词:先删去过期语句中包括对立信息的单词(即被标记为0的单词),然后添补更新过的单词。

在一项测验中,模型的测验成果逾越了一切传统办法,测验运用一种名为“SARI”的办法比对机器删去、添加和保存语句与人类修订语句的差异。

与传统文本生成办法相比较,新模型能更精确地更新现实信息,输出语句愈加挨近人类编写的成果。

在另一项测验中,众包人员对模型生成的语句进行打分,主要是对现实更新精确性和语法匹配程度来打分,分值区间为1到5分。模型“现实更新”的均匀得分为4分,“语法匹配度”的均匀得分为3.85分。

数据增强,消除误差

研讨也标明,该体系可以用增强数据集来练习“虚伪新闻”区分器,起到消除练习误差的效果。

“虚伪新闻”用虚伪信息的宣扬方式来误导读者,然后获取更多的网络阅读和引发大众言论。

判别虚伪信息的模型一般需求许多“赞同-不赞同”的语句对作为数据集。

在这些语句对里,声明要么包括与维基百科给定的“依据”语句相匹配(赞同)的信息,要么包括由人工修订后与依据语句相对立的信息(不赞同)。模型经过练习可以将与“依据”相对立的语句标记为“过错”,然后区分虚伪信息。

不幸的是,Shah以为这些数据集必然存在误差。“在练习期间,在短少满足相关‘依据’语句的情况下,虚伪信息中的某些短语也会让模型容易发现‘缝隙’。在评价实在语句实例的时分,这会下降模型的精确性,无法起到有用的核对效果。”

研讨者在维基百科项目中运用了相同的删去和交融技能来平衡数据会集的“不赞同-赞同”对,以缓解误差。对一些“不赞同”语句对,他们运用批改语句中的过错信息来为语句从头生成一个假的“依据”。若提醒性短语在“赞同”和“不赞同”语句中都存在,模型就可以区分更多的特征。运用增强后的数据集,研讨将虚伪区分器的过错率削减了13%。

Shan着重,“假如在你的数据会集存在误差,那么模型往往会失真。因而,数据增强十分有必要。”

相关报导:

https://www.csail.mit.edu/news/automated-system-can-rewrite-outdated-sentences-wikipedia-articles

本文仅代表作者个人观点,与本网站立场无关。如若转载,请联系我们!

本网站转载信息目的在于传递更多信息。请读者仅作参考,投资有风险,入市须谨慎!

推荐阅读