用于语法纠错的 C4_200M 汇成数据集
发布时间:2022-03-16 00:11:42 所属栏目:大数据 来源:互联网
导读:语法纠错 (GEC) 尝试对语法和其他类型的写作错误进行建模,以提供语法和拼写建议,提高文档、电子邮件、博客文章甚至非正式聊天中书面输出的质量。在过去的 15 年里,GEC 质量有了实质性的提高,这在很大程度上可以归功于将问题重新定义为翻译任务。例如,
语法纠错 (GEC) 尝试对语法和其他类型的写作错误进行建模,以提供语法和拼写建议,提高文档、电子邮件、博客文章甚至非正式聊天中书面输出的质量。在过去的 15 年里,GEC 质量有了实质性的提高,这在很大程度上可以归功于将问题重新定义为“翻译”任务。例如,当在 Google Docs 中引入时,这种方法导致接受的语法更正建议的数量显着增加。 然而,GEC 模型面临的最大挑战之一是数据稀疏性。与语音识别和机器翻译等其他自然语言处理(NLP) 任务不同,GEC 可用的训练数据非常有限,即使是英语等高资源语言也是如此。对此的常见补救措施是使用一系列技术生成合成数据,从基于启发式的随机单词或字符级损坏到基于模型的方法。然而,这些方法往往过于简单,不能反映实际用户的错误类型的真实分布。 在EACL 第 16 届关于将 NLP 用于构建教育应用的创新研讨会上发表的“使用标记损坏模型进行语法错误校正的合成数据生成”中,我们介绍了标记损坏模型。受到流行的机器翻译反向翻译数据合成技术的启发,这种方法能够精确控制合成数据的生成,确保多样化的输出与实践中看到的错误分布更加一致。我们使用标记损坏模型生成了一个新的200M 句子数据集,我们发布的目的是为研究人员提供真实的 GEC 预训练数据。通过将这个新数据集集成到我们的训练管道中,我们能够显着改进 GEC 基线。 标记的腐败模型 将传统的腐败模型应用于 GEC 背后的想法是从一个语法正确的句子开始,然后通过添加错误来“破坏”它。通过在现有 GEC 数据集中切换源语句和目标语句,可以轻松训练损坏模型,之前的研究表明,这种方法对于生成改进的 GEC 数据集非常有效。 我们提出的标记损坏模型建立在这个想法的基础上,通过将一个干净的句子作为输入以及描述人们希望重现的错误类型的错误类型标签。然后它生成包含给定错误类型的输入句子的不合语法版本。与传统的腐败模型相比,为不同的句子选择不同的错误类型增加了腐败的多样性。 为了使用该模型进行数据生成,我们首先从C4 语料库中随机选择了 200M 条干净的句子,并为每个句子分配了一个错误类型标签,使其相对频率与小型开发集BEA-dev的错误类型标签分布相匹配。由于BEA-dev是一个精心策划的集合,涵盖了广泛的不同英语水平,我们希望它的标签分布能够代表在野外发现的书写错误。然后我们使用标记的损坏模型来合成源语句。 结果 在我们的实验中,标记的腐败模型在两个标准开发集(CoNLL-13和BEA-dev)上的表现优于未标记的腐败模型超过三个 F0.5 点(GEC 研究中的一个标准指标,将精度和召回率与更高的权重相结合)关于精度),在两个广泛使用的学术测试集CoNLL-14和BEA-test上推进了最先进的技术。 此外,使用标记损坏模型不仅可以在标准 GEC 测试集上产生收益,还能够使 GEC 系统适应用户的熟练程度。例如,这可能很有用,因为母语为英语的作者的错误标签分布通常与非母语为英语的人的分布显着不同。例如,母语人士往往会犯更多的标点符号和拼写错误,而限定词错误(例如,缺失或多余的冠词,如“a”、“an”或“the”)在非母语作者的文本中更为常见。 结论 众所周知,神经序列模型需要大量数据,但用于语法纠错的带注释的训练数据很少见。我们新的C4_200M 语料库是一个包含各种语法错误的合成数据集,在用于预训练 GEC 系统时会产生最先进的性能。通过发布数据集,我们希望为 GEC 研究人员提供宝贵的资源来训练强大的基线系统。 (编辑:天瑞地安资讯网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |
站长推荐