澳门新葡亰平台官网可应用于实际的14个NLP突破性研究成果(一)

by admin on 2020年3月5日

为了加速将自然语言处理(NLP)应用到更多的语言,Facebook 开源了增强版
LASER
库,成为第一个成功地与
NLP
社区分享的大型多语种句子表示工具。该工具目前可以使用90多种语言,涉及28种不同的字符表。

摘要: 最好的论文是可以直接走出实验室!NLP年度最佳应用论文大集锦!

摘要: 最好的论文是可以直接走出实验室!NLP年度最佳应用论文大集锦!

澳门新葡亰平台官网 1

可应用于实际的14个NLP突破性研究成果

澳门新葡亰平台官网 2

LASER
通过将所有语言都嵌入在一个共享空间来实现这点(而不是不同语言使用着不同的模型)。Facebook
同时开源的还有免费提供的多语言编码器和PyTorch代码,以及包括100多种语言的多语言测试集。

论文摘要

语言理解对计算机来说是一个巨大的挑战。幼儿可以理解的微妙的细微差别仍然会使最强大的机器混淆。尽管深度学习等技术可以检测和复制复杂的语言模式,但机器学习模型仍然缺乏对我们的语言真正含义的基本概念性理解。

LASER
实现了从一种语言(如英语)到其他几种语言(包括训练数据极为有限的语言)进行
NLP
零样本迁移的大门,是第一个使用单个模型处理各种语言的库(其中包括低资源语言,如卡拜尔语、维吾尔语,以及吴语等方言)。有朝一日,这项工作可以帮助
Facebook 或其他公司推出些特定的 NLP
功能,例如可以将同一语言的电影评论分正面和负面,然后用其他100多种语言进行发布。

尽管最近在训练高质量的句子嵌入上做出了很多的努力,但是大家仍然对它们所捕捉的内容缺乏了解。基于句子分类的‘Downstream’tasks通常用于评估句子表示的质量。然而任务的复杂性使得它很难推断出句子表示中出现了什么样的信息。在本文将介绍10个probing
tasks,旨在捕捉句子的简单语言特征,并用它们来研究由三种不同编码器产生的句子嵌入,这些编码器以八种不同的方式进行训练,揭示了编码器和训练方法的有趣特性。

但在2018年确实产生了许多具有里程碑意义的研究突破,这些突破推动了自然语言处理、理解和生成领域的发展。

LASER 功能亮点

LASER 为 XNLI 语料库(注:语料库一词在语言学上意指大量的文本)14
种语言中的 13
种带来了更高的零样本跨语言自然语言推理准确率,在跨语言文档分类、并行语料库挖掘、多语言相似性(即使是低资源语言)方面也有很好的表现。

LASER 还拥有以下优势:

  • 极快的性能,能在 GPU 上每秒处理多达 2000 个句子。

  • 句子编码器是在 PyTorch 中实现的,只需很少的外部依赖。

  • 资源有限的语言可以从多种语言的联合训练中受益。

  • 该模型支持在一个句子中使用多种语言。

  • 随着新语言的加入,系统会学习识别其语系特征,从而使相关性能有所提高。

总结

我们总结了14篇研究论文,涵盖了自然语言处理的若干进展,包括高性能的迁移学习技术,更复杂的语言模型以及更新的内容理解方法。NLP,NLU和NLG中有数百篇论文,由于NLP对应用和企业AI的重要性和普遍性,所以我们从数百篇论文中寻找对NLP影响最大的论文。

通用、语言无关的句子嵌入

LASER 的句子向量表示对输入语言和 NLP
任务是通用的。该工具将任何语言的句子映射到高维空间中的一个点,为的是任何语言中的相同语句最终会出现在同一邻域中。该表示可以被视为语义向量空间中的一种通用语言。Facebook
观察到,该空间中的距离与句子的语义接近度非常相关。(见下图,图左显示的是单语嵌入空间,图右说明了
LASER 的方法——将所有语言嵌入到同一共享空间。)

澳门新葡亰平台官网 3

LASER
的方法建立在与神经机器翻译相同的基础技术之上:编码器/解码器方法,也称为序列到序列处理。Facebook
为所有输入语言使用一个共享编码器,并使用共享解码器生成输出语言。编码器是五层双向
LSTM(长短期记忆)网络。与神经机器翻译相比,Facebook
不使用注意机制,而是使用1024维固定大小的向量来表示输入句子。它是通过对
BiLSTM
的最后状态进行最大池化来获得的。这使得句子表示能够被比较并直接输入到分类器。下图说明的是
LASER 的结构。

澳门新葡亰平台官网 4

Facebook
AI研究团队试图更好地理解句子嵌入所捕获的内容。因为任务的复杂性不允许我们直接获得理解。因此,论文介绍了10个旨在捕捉句子简单语言特征的探究任务。通过这些探测任务获得的结果可以揭示编码器和训练方法的一些有趣特性。

2018年最重要的自然语言处理研究论文

零样本、跨语言的自然语言推理

该模型在跨语言自然语言推理(NLI)中取得好的成绩,而这项任务的表现是一个强有力的指标,代表着模型可以表示句子的意义。关于零样本设置,可以在英语上训练
NLI
分类器,然后在没有微调或目标语言资源的情况下将其应用于所有目标语言。14种语言中的8种,零样本性能在英语表现的5%以内,其中包括俄语,中文和越南语等。此外,也在斯瓦希里语和乌尔都语等低资源语言上取得好的成绩。在最后,14种语言中,LASER
有13种语言的表现优于所有以前的零样本迁移方法。

与之前需要句子为英语的方法相比,该系统是完全可以多语言的,并且支持不同语言的前提和假设的组合。下表显示了
LASER 如何能够确定不同语言的 XNLI
语料库中句子之间的关系,而以前的方法只考虑了同一语言的前提和假设。

澳门新葡亰平台官网 5

此外,相同的句子编码器也被用于挖掘大量单语文本中的并行数据,只需要计算出所有句子间的距离,并选择距离最小的一对句子(语言对)。这在共享
BUCC
任务上的表现远远超过了现有水平。(该方法的详细描述可见论文:)

一样的方法可以用在使用任何语言对,来挖掘90多种语言的并行数据。预计这将改善许多依赖于并行训练数据的
NLP 应用程序,包括低资源语言的神经机器翻译。

论文的核心思想是什么?

论文摘要:

未来的应用

LASER
库也可用于其他相关任务。比如多语言语义空间的属性,就可用于对同种语言或
LASER
现支持的其他93种语言做出句子的解释、或是搜索相似含义的句子。Facebook
表示将继续改进模型、新增更多的语言。

新闻来源:https://code.fb.com/ai-research/laser-multilingual-sentence-embeddings

(文/开源中国)    

  • 我们有许多句子嵌入方法,表现出非常好的表现,但我们仍然缺乏对它们如何捕获的内容的理解。

  • 研究人员通过引入10个探测任务来研究由3种不同编码器(BiLSTM-last,BiLSTM-max和Gated
    ConvNet)生成的嵌入来解决这个问题,这些编码器以8种不同的方式进行训练。

  • 探测任务测试句子嵌入保留的程度:

我们引入了一种名为BERT的新语言表示模型,它是Transformer的双向编码器表示。与最近的语言表示模型不同,BERT旨在通过联合调节所有层中的左右上下文来预训练深度双向表示。因此,预训练的BERT表示可以通过一个额外的输出层进行微调,以创建适用于广泛任务的最先进模型,例如问答和语言推理,而无需实质性的具体的架构修改。

  1. 表面信息(句子中的单词数、单词内容);

  2. 句法信息(词序、句子的层次结构、最高成分的顺序);

  3. 语义信息(主句动词的时态、主语和宾语的数量、随机替换的单词)。

BERT在概念上简单且经验丰富,它获得了11项自然语言处理任务的最新成果,包括将GLUE基准推至80.4%、MultiNLI准确度达到86.7%、SQuAD
v1.1问题回答测试F1到93.2%。

什么是关键成就?

总结

  • 对现代句子编码器进行广泛的评估。

  • 揭示编码器和训练方法的一些有趣属性:

谷歌AI团队提出了自然语言处理的新前沿模型-BERT,它的设计允许模型从每个词的左侧和右侧考虑上下文。BERT在11个NLP任务上获得了新的最先进的结果,包括问题回答,命名实体识别和与一般语言理解相关的其他任务。

  1. 由于自然语言输入的冗余,Bag-of-Vectors所擅长得捕获句子级属性令人惊讶。

  2. 相似性能的不同编码器架构可导致不同的嵌入。

  3. 卷积架构的整体探测任务性能与最佳LSTM架构的性能相当。

  4. BiLSTM-max在探测任务中优于BiLSTM。此外,即使没有经过任何训练,它也能实现非常好的性能。

澳门新葡亰平台官网 6

未来的研究领域是什么?

论文的核心思想是什么?

  • 将探测任务扩展到其他语言和语言域。

  • 调查多任务训练如何影响探测任务的性能。

  • 通过引入的探测任务,找到更多具有语言意识的通用编码器。

  • 通过随机屏蔽一定比例的输入token来训练深度双向模型-从而避免单词间接“看到自己”的周期。

  • 通过构建简单的二进制分类任务来预训练句子关系模型,以预测句子B是否紧跟在句子A之后,从而允许BERT更好地理解句子之间的关系。

  • 训练一个非常大的模型(24个Transformer块,1024个隐藏层,340M参数)和大量数据。

什么是可能的商业应用?

什么是关键成就?

1、更好地理解不同预训练编码器捕获的信息将有助于研究人员构建更多具有语言意识的编码器。反过来,这将改善将会被应用在NLP系统中。

  • 刷新了11项NLP任务的记录,包括:

  • 获得80.4%的GLUE分数,这比之前最佳成绩提高了7.6%;

  • 在SQuAD 1.1上达到93.2%的准确率。

  • 预训练的模型不需要任何实质的体系结构修改来应用于特定的NLP任务。

你在哪里可以得到实现代码?

AI社区对其看法?

1、GitHub上提供了本研究论文中描述的探测任务。

  • BERT模型标志着NLP的新时代;

  • 两个无人监督的任务在一起为许多NLP任务提供了很好的性能;

  • 预训练语言模型成为一种新标准;

论文摘要

未来的研究领域是什么?

人类可以因为一些描述从而推断出下面要发生什么,例如“她打开汽车的引擎盖”,“然后,她检查了发动机”。在本文中,我们介绍并整理了基础常识推理。我们提出SWAG,一个新的数据集,包含113k多项选择问题,涉及丰富的基础推理。为了解决许多现有数据集中发现的注释工件和人类偏见的反复出现的挑战,我们提出了一种新颖的过程,它通过迭代训练一组风格分类器构建一个去偏见的数据集,并使用它们来过滤数据。为了解释对抗性过滤,我们使用最先进的语言模型来大量过滤一组不同的潜在反事实。实证结果表明,虽然人类可以高精度地解决由此产生的推理问题,但各种竞争模型仍在努力完成我们的任务。

  • 在更广泛的任务上测试该方法。

  • 收集BERT可能捕获或未捕获的语言现象。

总结

最可能的商业应用是什么?

当你读到“他将生鸡蛋面糊倒入锅中时,他…”你可能会这样选择“提起锅并移动它来搅拌。”我们可以发现,答案并不明显,这需要常识推理。SWAG是支持研究自然语言推理与常识推理大规模数据集。它是使用一种新颖的方法——对抗性过滤创建的,它可以以最经济有效的方式构建未来的大规模数据集。

BERT可以帮助企业解决各种NLP问题,包括:

澳门新葡亰平台官网 7

  • 提供更好的聊天机器人客服体验;

  • 客户评论分析;

  • 搜索相关信息;

论文的核心思想是什么?

你在哪里可以代码?

  • SWAG包含113K多项选择题,大多是视频字幕:
  • Google
    Research发布了一个官方Github存储库,其中包含Tensorflow代码和BERT预训练模型。

  • BIT的PyTorch实现也可以在GitHub上获得。

1、上下文的句子来自于视频字幕。

论文摘要

2、正确的答案是实际视频中的下一个字幕。

学习注意力函数需要非常大规模的数据,不过有很多自然语言处理任务都是对人类行为的模拟,在这篇论文中作者们就表明人类的注意力确实可以为
NLP
中的许多注意力函数提供一个不错的归纳偏倚。具体来说,作者们根据人类阅读语料时的眼睛动作追踪数据估计出了「人类注意力」,然后用它对
RNN
网络中的注意力函数进行正则化。作者们的实验表明,人类注意力在大量不同的任务中都带来了显著的表现提升,包括情感分析、语法错误检测以及暴力语言检测。

3、使用对抗过滤生成错误的答案。

总结

  • Adversarial Filtering背后的想法:

Maria
Barrett和她的同事建议使用从眼动(eye-tracking)追踪语料库中获取的人类注意力来规范循环神经网络中的注意力。通过利用公开可用的眼动追踪语料库,即通过眼睛跟踪测量增强的文本,它们能够在NLP任务中显着提高RNN的准确性,包括情绪分析、滥用语言检测和语法错误检测。

1、大量生成错误答案,然后选择哪些看起来像真正答案的回答。

论文的核心思想是什么?

2、过滤模型确定哪些回答似乎是机器生成的。这些回答被删除并替换为模型认为是人为编写的新回答。

  • 使用人的注意力,从眼动追踪语料库中估计,以规范机器注意力。

  • 模型的输入是一组标记序列和一组序列,其中每个标记与标量值相关联,该标量值表示人类读者平均专注于该标记的注意力。

  • RNN联合学习循环参数和注意力功能,但可以在来自标记序列的监督信号和眼睛跟踪语料库中的注意力轨迹之间交替。

  • 建议的方法不要求目标任务数据带有眼睛跟踪信息。

  • 最后,整个数据集由众包工作者验证。

什么是关键成就?

什么关键成就?

  • 在注意力序列分类任务中引入循环神经结构。

  • 证明使用人眼注意力(从眼动追踪语料库中估计)来规范注意力功能可以在一系列NLP任务中实现显著改善,包括:

  • 提出一个新的具有挑战性的大规模数据集来测试NLI系统。

  • 引入Adversarial
    Filtering,这种方法可用于经济高效地构建大型数据集,具有以下几个优点:

§ 情绪分析,

§ 检测语言检测,

§ 语法错误检测。

1、句子的多样性不受人类创造力的限制;

  • 性能比基线平均误差减少4.5%。这些改进主要是由于召回率增加。

2、数据集创建者可以在数据集构建期间任意提高难度;

AI社区对其看法?

3、人类不会写回答但只会验证它们,这样更经济;

  • 该论文获得了关于计算自然语言学习顶级会议的CoNLL
    2018人类语言学习和处理启发的最佳研究论文特别奖。

AI社区的想法是什么?

未来的研究领域是什么?

  • 该论文在2018年一个自然语言处理领域领先的会议上被发表。

  • 即使在此重要的NLP会议上发布之前,该数据集也是通过Google的新BERT模型解决的,该模型的准确度达到了86.2%并且非常接近人类的准确度。

  • 在学习人类相关任务时,探索利用人类注意力作为机器注意力的归纳偏见的其他可能性。

未来的研究领域是什么?

什么是可能的商业应用?

  1. 使用更好的Adversarial Filtering和语言模型创建更具对抗性的SWAG版本。
  • RNN结合人类注意力信号,可应用于商业环境:

什么是可能的商业应用?

§ 加强客户评论的自动分析;

§ 过滤掉滥用的评论,回复。

  1. 该数据集可以帮助构建具有常识推理的NLI系统,从而改善Q&A系统和会话AI的开发。

你在哪里可以得到实现代码?

你在哪里可以获得实现代码?

  • 本研究论文的代码可在GitHub上获得。

1、SWAG数据集可在GitHub上获得。

论文摘要

论文摘要

机器翻译系统在某些语言上实现了接近人类的性能,但其有效性强烈依赖于大量并行句子的可用性,这阻碍了它们适用于大多数语言。本文研究了如何在只能访问每种语言的大型单语语料库时学习翻译。我们提出了两种模型变体,一种神经模型,另一种基于短语的模型。两个版本都利用参数的初始化、语言模型的去噪效果以及通过迭代反向翻译自动生成并行数据。这些模型明显优于文献中的方法,同时更简单且具有更少的超参数。在广泛使用的WMT’14英语-法语和WMT’16德语-英语基准测试中,我们的模型不使用单个平行句的情况下分别获得28.1和25.2
BLEU分数,超过现有技术水平11
BLEU分。在英语-乌尔都语和英语-罗马尼亚语等低资源语言中,我们的方法比半监督和监督方法获得的效果都要好,我们的NMT和PBSMT代码是公开的。

本文推出了一种新的基于深度学习框架的词向量表征模型,这种模型不仅能够表征词汇的语法和语义层面的特征,也能够随着上下文语境的变换而改变。简单来说,本文的模型其实本质上就是基于大规模语料训练后的双向语言模型内部隐状态特征的组合。实验证明,新的词向量模型能够很轻松的与NLP的现有主流模型相结合,并且在六大NLP任务的结果上有着巨头的提升。同时,作者也发现对模型的预训练是十分关键的,能够让下游模型去融合不同类型的半监督训练出的特征。

总结

总结

Facebook
AI研究人员承认了缺乏用于训练机器翻译系统的大型并行语料库,并提出了一种更好的方法来利用单语数据进行机器翻译。特别是,他们认为通过适当的翻译模型初始化、语言建模和迭代反向翻译,可以成功地完成无监督的MT。研究人员提出了两种模型变体,一种是神经模型,另一种是基于短语的模型,它们的性能都极大地超越了目前最先进的模型。

艾伦人工智能研究所的团队引入了一种新型的深层语境化词汇表示:语言模型嵌入。在ELMO增强模型中,每个单词都是根据使用它的整个上下文进行矢量化的。将ELMo添加到现有NLP系统可以实现:

澳门新葡亰平台官网 8

1:相对误差减少范围从6-20%;

论文的核心思想是什么?

2:显著降低训练模型所需的时期数量;

  • 无监督的MT可以通过以下方式完成:

3:显著减少达到基线性能所需的训练数据量。

§ 合适的翻译模型初始化;

§
在源语言和目标语言中训练语言模型,以提高翻译模型的质量(例如,进行本地替换,单词重新排序);

§ 用于自动生成并行数据的迭代反向转换。

论文的核心思想是什么?

  • 有两种模型变体:神经和基于短语:
  • 生成词嵌入作为深度双向语言模型的内部状态的加权和,在大文本语料库上预训练。

  • 包括来自biLM的所有层的表示,因为不同的层表示不同类型的信息。

  • 基于角色的ELMo表示,以便网络可以使用形态线索来“理解”在训练中看不到的词汇外令牌。

§ 神经机器翻译一个重要的属性:跨语言共享内部表示。

§
基于短语的机器翻译在低资源语言对上优于神经模型,且易于解释和快速训练。

取得了什么关键成就?

什么是关键成就?

  • 将ELMo添加到模型中会创造新的记录,在诸如问答、文本蕴涵、语义角色标记、共指解析、命名实体提取、情绪分析等NLP任务中相对误差降低6-20%。

  • 使用ELMo增强模型可显著着降低达到最优性能所需的训练次数。因此,具有ELMo的语义角色标签模型仅需要10个时期就可以超过在486个训练时期之后达到的基线最大值。

  • 将ELMo引入模型还可以显著减少实现相同性能水平所需的训练数据量。例如,对于SRL任务,ELMo增强模型仅需要训练集的1%即可获得与具有10%训练数据的基线模型相同的性能。

  • 基于神经和短语的机器翻译模型显著优于以前的无监督,例如:

AI社区对其的评价?

§
对于英语-法语任务,基于短语的翻译模型获得的BLEU分数为28.1(比之前的最佳结果高出11
BLEU分);

§
对于德语-英语任务,基于神经和短语的翻译模型组合得到BLEU得分为25.2(高出基线10个BLEU点)。

  • 该论文被NAACL评为优秀论文,NAACL是世界上最具影响力的NLP会议之一。

  • 本文介绍的ELMo方法被认为是2018年最大的突破之一,也是NLP未来几年的主要趋势。

  • 无监督的基于短语的翻译模型实现了超过使用10万个并行句子训练的监督模型对应的性能。

未来的研究领域是什么?

AI社区的对其想法?

1、通过将ELMos与不依赖于上下文的词嵌入连接起来,将此方法合并到特定任务中。

  • 该论文在自然语言处理领域的领先会议被评为EMNLP 2018评为最佳论文奖。

可能的商业应用的范围是什么?

未来的研究领域是什么?

ELMo显著提高了现有NLP系统的性能,从而增强了:

  • 寻找更有效的原则实例或其他原则。

  • 扩展到半监督模型。

  1. 聊天机器人将更好地理解人类和回答问题;

  2. 对客户的正面和负面评论进行分类;

  3. 查找相关信息和文件等;

什么是可能的商业应用?

你在哪里可以得到实现代码?

  • 改进其中没有足够的并行语料库来训练受监督的机器翻译系统的机器翻译结果。

艾伦研究所提供英语和葡萄牙语预训练的ELMo模型,你还可以使用TensorFlow代码重新训练模型。

你在哪里可以得到实现代码?

论文摘要

  • Facebook团队在GitHub上提供了本研究论文的原始实现代码。

在本文中,我们建议扩展最近引入的模型:不可知元学习算法,用于低资源神经机器翻译。我们将低资源翻译构建为元学习问题,并且我们学习基于多语言高资源语言任务来适应低资源语言。我们使用通用词汇表示来克服不同语言的输入输出不匹配的问题。我们使用十八种欧洲语言(Bg,Cs,Da,De,El,Es,Et,Fr,Hu,It,Lt,Nl,Pl,Pt,Sk,Sl,Sv和Ru)评估所提出的元学习策略,源任务和五种不同的语言(Ro,Lv,Fi,Tr和Ko)作为目标任务。我们证实了,所提出的方法明显优于基于多语言迁移学习的方法,这能够使我们只用一小部分训练样例来训练有竞争力的NMT系统。例如,通过通过16000个翻译单词(约600个并行句子),用所提出的方法在罗马尼亚语-英语WMT’16上实现高达22.04
BLEU。

未完待续……

总结

本文作者:

香港大学和纽约大学的研究人员使用模型无关的元学习算法来解决低资源机器翻译的问题。特别是,他们建议使用许多高资源语言对来查找模型的初始参数,然后,这种初始化允许仅使用几个学习步骤在低资源语言对上训练新的语言模型。

阅读原文

澳门新葡亰平台官网 9

本文为云栖社区原创内容,未经允许不得转载。

论文的核心思想是什么?

  • 介绍了一种新的元学习方法MetaNMT,该方法假设使用许多高资源语言对来找到良好的初始参数,然后从找到的初始参数开始在低资源语言上训练新的翻译模型。

  • 只有在所有源和目标任务之间共享输入和输出空间时,元学习才能应用于低资源机器翻译。然而,由于不同的语言具有不同的词汇。为了解决这个问题,研究人员使用键值存储网络动态地构建了针对每种语言的词汇表。

关键成就是什么?

  • 为极低资源语言找到了神经机器翻译的新方法,其中:

1、能够在高资源和极低资源语言对之间共享信息;

2、仅使用几千个句子来微调低资源语言对上的新翻译模型;

  • 实验证明:

1、元学习始终比多语言迁移学习好;

2、元学习验证集语言对的选择会影响结果模型的性能。例如,当使用罗马尼亚语-英语进行验证时,芬兰语-英语受益更多,而土耳其语-英语则更喜欢拉脱维亚语-英语的验证。

AI社区对它的看法?

  • 该论文在自然语言处理领域领先的会议EMNLP上被发表。

  • 所提出的方法获得了Facebook的低资源神经机器翻译奖。

未来的研究领域是什么?

  • 半监督神经机器翻译的元学习或单语语料库的学习。

  • 当学习多个元模型且新语言可以自由选择适应的模型时,进行多模态元学习。

什么是可能的商业应用?

  • MetaNMT可用于改善可用并行语料库非常小的语言对的机器翻译结果。

你在哪里可以得到实现代码?

1、MetaNMT的PyTorch实施可以在Github上找到。

本文作者:

阅读原文

本文为云栖社区原创内容,未经允许不得转载。

发表评论

电子邮件地址不会被公开。 必填项已用*标注

网站地图xml地图