苏州大学自然语言处理团队和合作单位近期在CCF-A类国际会议ACL发表13篇论文,包括7篇长文、3篇短文、和3篇Findings长文;在IJCAI发表3篇长文。文章涵盖的领域包括词法句法分析、语义分析、命名实体识别、篇章分析、阅读理解、文本生成、机器翻译、摘要、预训练和对话评测。
自然语言处理 (NLP)领域的顶级国际会议ACL-IJCNLP 2021(The Joint Conference of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing)将于2021年8月2-4日在线举行(原定在泰国曼谷举行),一年一度的全球学术大会ACL是自然语言处理领域最受关注的国际学术会议之一。本届ACL 2021引入了新在线附属出版物“Findings of ACL”。ACL-IJCNLP 2021共收到有效投稿3350篇,其中21.3%的论文被ACL主会录取,另有14.9%的论文被Findings of ACL录取。
人工智能(AI)领域的顶级国际会议IJCAI 2021(The 30th International Joint Conference on Artificial Intelligence)将于2021年8月21-26日在线举行(原定在加拿大蒙特利尔举行)。会议共计收到有效投稿4204篇,最终共有587篇论文被大会录用,总录用率为13.9%。
文章列表:
1.Title: An In-depth Study on Internal Structure of Chinese Words (词法句法) (合作单位:华为) (ACL)
题目:汉语词内部结构深层研究
作者:龚晨,黄赛豪,周厚全,李正华,张民,王喆锋,怀宝兴,袁晶
摘要:与英文字母不同,汉字有丰富而具体的含义。通常,一个词的意义在某种程度上可以由组成它的汉字派生出来。一些前人的句法分析工作提出对浅层词内部结构进行标注从而更好地利用字级别的信息。本文提出将汉语词的深层内部结构建模为包含11个标签的依存树,用于区分词内部结构中不同的依存关系。首先,根据我们最新编写的标注规范,我们人工标注了一个来源于中文宾州树库的包含超过3万个词的词内部结构 (WIST)。为了保证标注质量,每个词都由两个标注者独立标注,由第三个标注者处理标注不一致情况。第二,我们对WIST进行了详细而有趣的分析,揭示了对汉语构词的一些见解。第三,我们提出了词内部结构分析的新任务,并基于一个先进的句法分析器进行了基准实验。最后,我们提出了两种简单的编码词内部结构的方法,在句法分析任务中验证了汉语词内部结构的作用。
2.Title: More than Text: Multi-modal Chinese Word Segmentation (中文分词) (ACL, Short Paper)
题目:不止于文本:多模态中文分词
作者:张栋,胡政,李寿山,吴含前,朱巧明,周国栋
摘要:毫无疑问,中文分词是自然语言处理中一项重要的基础性工作。以往的研究仅关注文本模态,但现实往往存在音频和视频内容(如新闻广播和面对面的对话),其中包括文本、声学和视觉模态。因此,我们尝试将多模态信息(本文中主要是转换后的文本和真实音频信息)结合起来进行分词。本文标注了一个包含文本和音频的全新中文分词数据集。此外,我们提出了一个基于Transformer框架的时间依赖多模态交互模型,以整合多模态信息进行序列标注。在三种不同训练集上的实验结果表明,我们的方法将文本和音频按时间步融合在一起进行分词是有效的。
3.Title: XLPT-AMR: Cross-Lingual Pre-Training via Multi-Task Learning for Zero-Shot AMR Parsing and Text Generation (语义分析) (合作单位:腾讯) (ACL)
题目:基于多任务多语言预训练的零资源AMR分析与文本生成
作者:徐东钦,李军辉,朱慕华,张民,周国栋
摘要:与英文AMR的研究不同,由于缺少人工标注数据,其他语言AMR的研究十分受限。为此,本文借助于预训练技术,提出了零资源跨语言AMR分析与文本生成方案。具体地,将英语看作枢轴语言,提出了基于多任务学习的跨语言预训练方法。同时,基于得到的预训练模型,提出并比较了多种不同的微调方法。实验结果表明,借助该方法,本文方法极大地提高了现有的研究水平,在德语、西班牙语和意大利语的AMR分析与文本生成的任务中提高了约10个点的性能。
4.Title: Enhancing Entity Boundary Detection for Better Chinese Named Entity Recognition (命名实体识别) (ACL, Short Paper)
题目:融入实体边界信息的中文命名实体识别
作者:陈淳,孔芳
摘要:命名实体识别旨在识别出自然语言文本中具有特定含义的实体,作为一个典型的序列标注问题,命名实体识别在长期发展中形成了Bi-LSTM+CRF的深度学习框架。与英文相比,中文没有明确的词语边界和显式的实体边界变化,因此中文命名实体识别的形势更为严峻,有待进一步发展。近年来Transformer在NLP各领域都超越了RNN类模型,但是在命名实体识别任务上效果不佳,我们使用轻量级的Star-Transformer对序列进行结构化编码,作为baseline。在此基础上,本文提出了一个融入实体边界信息的命名实体识别统一模型,从以下两个方面增强实体边界信息:1. 使用图注意力网络(GAT)对实体内部的词语依存关系进行编码,配合Star-Transformer进一步捕获实体内部的语义特征;2. 将实体边界识别看作是两个二分类任务(实体head和tail的识别)和命名实体识别同时训练,赋予命名实体识别任务明确的实体边界。实验表明,本文给出的模型在规范文本OntoNotes和非规范文本Weibo语料上都达到了SOTA。
5.Title: Adversarial Learning for Discourse Rhetorical Structure Parsing (篇章分析) (ACL)
题目:面向篇章修辞结构解析的对抗学习算法
作者:张龙印,孔芳,周国栋
摘要:由于缺乏训练数据,文本级篇章修辞结构解析一直被认为是一个极具挑战性的研究课题。尽管最近提出的自顶向下的篇章修辞结构解析器可以很好地利用全局篇章上下文信息并取得了一定进展,但目前的解析性能仍然不够出色。据我们所知,以往所有的篇章修辞结构解析器均在每个解析步骤进行一次局部决策来实现自底向上的节点合成或者自顶向下的分割点排序,这在很大程度上忽略了从全局的角度进行篇章修辞结构解析。显然,仅通过这些局部决策来构建整个篇章修辞结构树是远远不够的。在这个工作中,我们期望通过评估整棵篇章树的优劣来实现对篇章修辞结构解析的全局优化。具体来说,基于最新的自顶向下的解析架构,我们提出了一种全新的方法将标准篇章树和自动篇章树分别转换为带双颜色通道的篇章树图。然后,我们在标准树图和自动树图之间训练一个对抗机器人来从全局的角度评估生成的篇章修辞结构树的优劣。我们在英文RST-DT和中文CDTB语料库上进行了实验,并使用原始Parseval进行性能评估。实验结果表明,与最新的篇章修辞结构解析器相比,我们的解析器能够显著地提升解析性能。
6.Title: DuReader-Robust: A Chinese Dataset Towards Evaluating Robustness and Generalization of Machine Reading Comprehension in Real-World Application Scenarios (阅读理解) (合作单位:百度) (ACL, Short Paper)
题目:DuReader-Robust:评估真实应用场景下机器阅读理解鲁棒性与泛化性的中文数据集
作者:唐竑轩,李弘宇,刘璟,洪宇,吴华,王海峰
摘要:机器阅读理解(MRC)是NLP领域中一项至关重要且富有挑战的任务。本文提出了一个全新的中文机器阅读理解数据集DuReader-Robust,旨在从过敏感、过稳定与泛化能力这三个方面评估现有MRC模型在实际应用场景中的鲁棒性与泛化性。DuReader-Robust中的全部样例均为真实用户提供的自然文本,本文将详细阐述该数据集的构建方式。此外,本文也基于DuReader-Robust行了大量实验,希望通过这些实验启发未来的MRC研究。最后,我们将公开DuReader-Robust数据集以丰富中文MRC的语料资源。
7.Title: Improving Text Generation with Dynamic Masking and Recovering (文本生成) (合作单位:腾讯) (IJCAI)
题目:利用动态覆盖和还原单词提高文本生成任务性能
作者:刘志东,李军辉,朱慕华
摘要:目前不同文本生成任务由于源端输入不同往往会采用不同的编码器-解码器结构。因此大多数提高文本生成任务鲁棒性的方法都是受限于具体形式的输入,并不能很好适用于其他文本生成的任务。本文在基本的编码器解码器结构的基础上提出一种增强模型语义捕获能力的方法,该方法可以适用于不同的文本生成任务。具体做法为:首先,在训练过程中对目标端的文本序列按照一定比例进行随机覆盖,然后约束解码器除了要生成完整的目标序列还引入一个辅助任务用于还原被覆盖掉的单词。在机器翻译,AMR-to-Text和图像描述三个文本生成任务的实验表明,该方法在不同输入形态的场景下也能显著提高文本生成任务的性能。
8.Title: Breaking the Corpus Bottleneck for Context-Aware Neural MachineTranslation with a Novel Joint Pre-training Approach (机器翻译) (合作单位:阿里) (ACL)
题目:利用联合预训练任务打破上下文感知神经机器翻译语料缺乏瓶颈
作者:陈林卿,李军辉,贡正仙,陈博兴,骆卫华,张民,周国栋
摘要:上下文感知神经机器翻译(NMT)由于缺乏大规模文档级平行数据仍然具有挑战性。为了突破语料库瓶颈,本文利用大规模句子级平行数据集和源端单语文档改进上下文感知的NMT。为此目的,我们提出两项预训练任务。一个在句子级平行数据集中学习将一个句子从源语言翻译成目标语言,而另一个在单语文档上学习将一个文档从加噪版本翻译成原始版本。这两个预训练任务是通过同一模型共同学习的,然后利用规模有限的平行文档语料从句子级和文档级的角度对模型进行微调。在四个翻译任务上的实验结果表明,我们的方法显著提高了翻译性能。我们的方法的一个很好的特性是,经过微调的模型可以用于翻译句子和文档。
9.Title: Improving Context-Aware Neural Machine Translation with Source-side Monolingual Documents (机器翻译) (合作单位:阿里) (IJCAI)
题目:通过源端单语篇章语料提高上下文感知神经机器翻译性能
作者:陈林卿,李军辉,贡正仙,段湘煜,陈博兴,骆卫华,张民,周国栋
摘要:为了充分利用源端单语文档实现上下文感知的NMT,我们首次提出一种新的自监督预训练任务,该任务包含两个训练目标:(1)从破损的句子中重建原句;(2)从左右相邻的句子中生成一个间隙句。然后我们设计了一个通用的预训练全局上下文(PGC)模型,该模型由一个全局上下文编码器、一个句子编码器和一个解码器组成,其结构与典型的上下文感知NMT模型相似。我们通过将预先训练好的PGC模型适应于各种下游上下文感知的NMT模型来评估其有效性和通用性。对四种不同翻译任务的实验表明,我们的PGC方法显著提高了上下文感知的NMT的翻译性能。例如,基于最先进的SAN模型,我们在四个翻译任务上平均提高了1.85 BLEU值和1.59 Meteor值。
10.Title: Combining Static Word Embeddings and Contextual Representations for Bilingual Lexicon Induction (机器翻译) (合作单位:阿里) (Findings of ACL)
题目:结合静态词向量与上下文表示的双语词典归纳
作者:张金鹏,季佰军,肖妮妮,段湘煜,张民,施杨斌,骆卫华
摘要:双语词典归纳(BLI)旨在寻找源语言单词在目标语言中的翻译,其最典型的方法是通过学习线性变换来对齐单词表示空间。目前,两类典型的词向量表示方法,即静态词向量和上下文向量,已经被用于探索双语词典归纳,但是以前的研究并没有将这两类方法有效的结合起来。因此,本文提出了一种简单且有效的机制来结合静态词向量与上下文向量,这一机制可以在进行双语词典归纳时充分发挥两者各自的优点。我们分别在无监督与有监督的基准设置上进行实验,测试了这一结合机制在多种语言对上的双语词典归纳效果,实验结果表明我们的方法可以在各种语言对上获得稳定的提升,在有监督设置中,平均可以提升3.2个百分点,在无监督设置中,平均可以提升3.1个百分点,显著超越了现有系统。
11.Title: LayoutLMv2: Multi-modal Pre-training for Visually-rich Document Understanding (预训练) (合作单位:哈工大、微软) (ACL)
题目:LayoutLMv2: 面向富视觉信息文档理解的多模态预训练
作者:徐阳,徐毅恒,吕腾超,崔磊,韦福如,Guoxin Wang,Yijuan Lu,Dinei Florencio,Cha Zhang,车万翔,张民,周礼栋
摘要:现实生活中种类繁多的文档(扫描或电子版的票据、报告、文件等)往往会包含布局、图像等丰富的视觉信息,单纯从文本入手难以充分挖掘其内容。本文提出的 LayoutLMv2 使用带有空间感知自注意力机制的多模态 Transformer 编码器网络,统一建模文本、图像、布局三种模态的信息,能够在大规模无标注文档数据上预训练通用文档理解模型。在预训练任务方面,除了现有的遮罩式视觉语言模型(Masked Visual-Language Modeling)外,LayoutLMv2 还引入了新的文本—图像对齐(Text-Image Alignment)以及文本—图像匹配(Text-Image Matching)任务,帮助模型从位置和语义层面对齐多模态信息。实验结果表明,经过预训练—微调的 LayoutLMv2 模型在对应不同类型任务的六个文档理解数据集上显著优于基线方法,达到世界领先水平。
12.Title: Bridging Subword Gaps in Pretrain-Finetune Paradigm for Natural Language Generation (篇章理解、预训练) (合作单位:厦门大学、阿里) (ACL)
题目:解决自然语言生成预训练-微调范式中的字词粒度差异问题
作者:刘鑫,杨宝嵩,刘大一恒,张海波,骆卫华,张民,张海英,苏劲松
摘要:预训练-微调范式的一个局限性在于其固定的词表带来的不灵活。这一局限削弱了预训练模型应用至自然语言生成任务时的效果,尤其是上下游任务的子词分布存在着明显差异时。为了解决这一问题,我们在传统预训练-微调范式基础上引入了一个词嵌入转移步骤。具体而言,我们设计了一种即插即用的词嵌入生成器用于生成任意输入词语的词嵌入,这一过程生成器将参照与其形态相似的预训练词表词嵌入。因此,下游任务中与上游任务不匹配词语的词嵌入可以被有效地初始化。我们在基于多个生成式任务的预训练-微调范式下进行了实验。实验结果和分析表明我们提出的策略能够保证上下游任务词表的自由迁移,进而在下游生成任务上提升了模型效果。
13.Title: A Structure Self-Aware Model for Discourse Parsing on Multi-Party Dialogues (篇章分析) (合作单位:厦门大学、腾讯、阿里) (IJCAI)
题目:针对多人对话篇章解析任务的结构自感知模型
作者:王安特,宋霖峰,蒋辉,赖少鹏,姚俊峰,张民,苏劲松
摘要:对话篇章结构描述了对话的组织方式,因此对对话的理解与生成有所帮助。本文关注多人对话场景下的篇章结构预测。之前的工作采用了增量式的生成方法,利用历史预测结构信息辅助待预测关系生成。尽管这种方式考虑到了结构关系间的关联信息,但同时错误传播问题也非常严重并对性能造成影响。为了缓解错误传播问题,我们提出了一种结构自感知模型。该模型采用了关注结构关系的图神经网络,更新句对间的结构信息,学习更加直接的结构表示。并且,我们采用了额外的训练信号来辅助表示学习。我们在两个对话篇章解析数据集上验证了模型的有效性。
14.Title: BASS: Boosting Abstractive Summarization with Unified Semantic Graph (文本摘要) (合作单位:北大、百度) (ACL)
题目:BASS:基于统一语义图的生成式文本摘要
作者:吴文浩,李伟,肖欣延,刘家辰,曹自强,李素建,吴华,王海峰
摘要:对于Seq2Seq结构而言,长文档或多文档的生成式摘要仍然十分具有挑战性,因为Seq2Seq不擅长学习文本中的长距离关系。在本文中,我们介绍了BASS模型,它是一种基于统一语义图的生成式摘要框架。该框架利用统一语义图聚合分布在很长上下文中的共指短语,并挖掘了短语之间的丰富关系。此外,本文提出了一种基于图的编码器-解码器模型,以利用图的结构来改进文档表示和摘要生成过程。具体而言,本文在编码过程中设计了一些图增强方法,在解码过程中设计了图传播注意机制以帮助摘要生成中的内容选择与语言组织。实证结果表明,本文所提出的方法为长文档和多文档摘要任务带来了明显的改进。
15.Title: Code Summarization with Structure-induced Transformer (摘要生成) (合作单位:上海交大) (Findings of ACL)
题目:基于结构诱导Transformer的代码摘要生成
作者:伍鸿秋, 赵海, 张民
摘要:在如今的语言理解领域,代码摘要(Code summarization)是一个极具潜力的研究方向。它旨在为程序语言生成合理的注释,以此极力地助于程序开发工作。程序语言是十分结构化的,因此前人们尝试通过结构遍历(structure-based traversal)或非序列化模型,如树形LSTM、图神经网络,去学习程序的语义。然而令人惊讶的是,在如Transformer这样的相比LSTM更为先进的编码器中融入结构遍历并不能得到性能提升,这使得图神经网络成为了建模该类结构信息的唯一方法。为了减少这种不便,我们提出了结构诱导Transformer(structure-induced Transformer),它通过全新的结构诱导自注意力机制,对代码序列的多视角结构信息编码。通过大量的实验,我们证明了结构诱导Transformer能够在基准数据集上达到新的SOTA。
16.Title: Enhancing the Open-Domain Dialogue Evaluation in Latent Space (对话评测) (合作单位:北大、腾讯、人大) (Findings of ACL)
题目:隐空间增强的开放域对话评测
作者:产张明,刘乐茂,李俊涛,张海松,赵东岩,史树明,严睿
摘要:开放域对话中“one-to-many”特性导致了其自动评估方法的设计成为一个巨大的挑战。最近的研究试图通过直接考虑生成的回复与对话上下文的匹配度来解决该问题,并利用判别模型从多个正样本中学习。尽管这类方法取得了令人兴奋的进展,但它们无法应用于没有多个合理回复的训练数据——而这正是真实世界数据集的一般情况。为此,我们提出通过隐空间建模增强的对话评估指标——EMS。具体来说,我们利用自监督学习来获得一个平滑的隐空间,该空间既可提取对话的上下文信息,也可以对该上下文可能的合理回复进行建模。然后我们利用隐空间中捕捉的信息对对话评测过程进行增强。在两个真实世界对话数据集上的实验结果证明了我们方法的优越性,其中与人类判断相关的Pearson和Spearman相关性分数均胜过所有基线模型。
编辑:杨浩苹,龚晨,李正华