您正在使用IE低版浏览器,为了您的雷锋网账号安全和更好的产品体验,强烈建议使用更快更安全的浏览器
                    人工智能 正文
                    发私信给skura
                    发送

                    0

                    WMT 2019国际机器翻译大赛:微软亚洲研究院以7项第一成为冠军

                    本文作者:skura 2019-04-27 12:23
                    ?#21152;錚?#27492;次,微软亚洲研究院使用了多种创新算法

                    雷锋网(公众号:雷锋网) AI 科?#35745;?#35770;按,近日,由国际计算语言学协会 ACL(The Association for Computational Linguistics)举办的 WMT 2019 国际机器翻译比赛的客观评测结果揭晓,微软亚洲研究院机器学习组在参加的 11 项机器翻译任务中,有 7 项获得了第一名,另外 4 项获得第二名。

                    WMT 2019国际机器翻译大赛:微软亚洲研究院以7项第一成为冠军

                    ?#35745;?#26469;自大赛网站,横向为源语种,纵向为目标语种

                    7项任务获第一,4项任务获第二

                    WMT 的全称为 Conference on Machine Translation (http://www.statmt.org/wmt19/),是全球学术界公认的国际顶级机器翻译比赛。自 2006 年至今,WMT 机器翻译比赛已经成功举办 14 届,每一次比赛?#38469;?#20840;球各大高校、科技公司与学术机构展示自身机器翻译实力的较量,更是见证了机器翻译?#38469;?#30340;不断进步。

                    在本届 WMT 2019 大赛中(http://www.statmt.org/wmt19/translation-task.html),共有来自全球的 50 多支队伍参加,包括微软、Facebook、百度、字节跳动、平安、日本情报通信研究机构(NICT)等企业、科研机构和高校。大赛共设置了 19 项不同语言之间的翻译任务,微软亚洲研究院参加了 11 项,其中 7 项翻译任务获第一,包括:德语-英语、德语-法语、法语-德语、中文-英语、英语-立陶宛语、英语-芬?#21152;鎩?#20420;语-英语。另外 4 项任务获得第二,包括:英语-德语、立陶宛语-英语、芬?#21152;錚?#33521;语、英语-哈萨克语。来自微软的另外一支团队则在英语-德语的任务上获得了第一名。

                    结果显示,此次大赛的亚军团队在 3 项任务中获得了第一,季军团队则有两项获得第一,来自微软亚洲研究院的神经网络机器翻译算法的表现遥遥领先于其他参赛队伍。

                    机器翻译算法?#24917;?/strong>

                    2018 年 3 月,由微软亚洲研究院与微软雷德蒙研究院共同研发的机器翻译系统便在 WMT 2017 大会上发布的通用新闻报道测试 newstest2017 机器翻译系统融合了微软亚洲研究院机器学习组的最近研究成果——对偶学习(Dual Learning)推敲网络(Deliberation Networks),以及自然语言计算组的最新?#38469;酢?a href="http://mp.weixin.qq.com/s?__biz=MzAwMTA3MzM4Nw==&mid=2649446724&idx=1&sn=0f0a16dda6b91bcca4146302b76a9413&chksm=82c0b0c0b5b739d656bb35d034ef4048ceaf446d235511d7e9dbf886f475e67690c442e4f540&scene=21#wechat_redirect" target="_blank" rel=nofollow>联合训练(Joint Training)和一致性规范(Agreement Regularization)。

                    在 WMT 2019 的比赛中,微软亚洲研究院机器学习组再次将多个创新的算法运用在了机器翻译的任务中,从学习机制、预训练、网络架构优化、数据增强等方面,提升了机器翻译结果的质量。

                    此次使用的创新算法包括:

                    • MADL:Multi-agent dual learning,多体对偶学习

                    • MASS:Masked sequence to sequence pre-training,屏蔽序列到序列的预训练

                    • NAO:Automatic neural architecture optimization,自动神经网络架构优化

                    • SCA:Soft contextual data augmentation,软性上下文数据增强

                    其中,关于 NAO 的论文已被 NIPS 2018 收录,关于 MADL 的论文已被 ICLR 2019 收录,关于 MASS 的论文则被 ICML 2019 收录。

                    新的学习机制:MADL 多体对偶学习

                    在机器翻译中,训练数据的数据量越大、质量越高,其训练的翻译结果越好。基于对偶学习,创新的 MADL 算法利用正向与反向翻译的多个模?#25237;?#21333;语数据进行前向和后向翻译并打分,然后将得分最高的数据放置到训练数据中从而获得更多高质量的数据,或者将单语数据的前向后向重建误差加入到损失函数里来增强学习过程。MADL 不局限于某个语种,可以在任何源语种和目标语种之间提供这样的对偶学习能力。

                    更好的预训练:MASS 屏蔽序列到序列的预训练

                    MASS 是针对序列生成设计的预训练算法,比 BERT 以及 GPT/2 更加通用。BERT 模型通常是屏蔽掉句子中的一个单词,然后通过分类来预测这个词;GPT 模型是给定前面的词,通过分类生成后面的词,直至一句话或整篇文档;两者?#38469;?#39044;训练一个编码器。而翻译则是基于编码器-解码器-注意力框架,因此 BERT 和 GPT/2 并不能很好地适用于翻译任务。但 MASS 则能将句子中的部?#33267;?#32493;片断随机屏蔽,然后训练一个编码器-解码器-注意力模型预测生成该片断,从而利用海量单语数据预训练然后初始化翻译模型。因此,MASS 比 BERT 和 GPT/2 都更适用于机器翻译这个应用场景。实验证明,MASS 屏蔽翻译句子中 50% 的片断效果最好。

                    网络架构优化: NAO 自动神经网络架构优化

                    NAO 是?#30001;?#32463;网络结构优化的角度去提升机器翻译水平。不同的网络结构通常对于翻译结果有着较大影响,NAO 把离散的网络结构?#24230;?#21040;连续的向量空间,从而通过连续优化?#19994;?#26356;好的网络结构。与固定的 Transformer 相比,NAO 可以?#19994;?#26356;多样的网络结构,和 Transformer 形成互补优势,使得机器翻译多模?#22270;?#25104;的结果更?#36873;?br/>

                    数据增强:SCA 软性上下文数据增强

                    所谓 SCA 软性上下文数据增强,是在双语训练数据中随机屏?#25991;?#20010;词,再基于语言模型利用上下文来预测这个词,随后选择概?#39318;?#39640;的几个词,根据预测概率把这些预测的词线性组?#31995;?#19968;起,替换原来被屏蔽的词。这样一个句子/句对可以生成多个句子/句对,同一个句子的翻译就可以出现多个合理的翻译结果,这也与实际翻译过程中翻译结果并不唯一这一事实相吻合。通过如此软性上下文数据增强,从而扩大训练数据的规模,增强数据质量,得到更好的翻译结果。

                    在此次的 11 项机器翻译任务中,微软亚洲研究院的研究员们在每个翻译任务上采用了上述不同的?#38469;酢?#26410;来,研究团队计划将这四个层面的创新?#38469;?#25972;合,并且通过与微软翻译产品部门的合作,将新?#38469;?#23613;快转化到微软翻译产品中。

                    雷锋网版权文章,未经授权禁止转载。详情见转载须知

                    WMT 2019国际机器翻译大赛:微软亚洲研究院以7项第一成为冠军
                    分享:
                    相关文章

                    文章点评:

                    表情
                    最新文章
                    请填写申请人资料
                    姓名
                    电话
                    邮箱
                    微信号
                    作品链接
                    个人简介
                    为了您的账户安全,请验证邮箱
                    您的邮箱还未验证,完成可获20积分哟!
                    请验证您的邮箱
                    完善账号信息
                    您的账号已经绑定,现在您可以设置密码以方便用邮箱登录
                    捷豹时时彩分分彩网站

                                                        安徽快3直播开奖结果查询 黑龙江11选5加盟条件 双色球搜狐彩票 全年公式规律 刘伯温四肖中特期期准,69期 87期大乐透推荐号码 一码一肖中特会员料 秒速时时彩出自哪里 一尾中特诗论坛 彩足球奖金计算器 福彩3d论坛 牌九变牌钱币型 六合图库app产品介绍 极速快3有什么技巧 北京快乐8