当前位置: 首页 - 智能化学会动态 - 爱奇艺推出FASPell简繁中文拼写检查神器如同天使之手拯救你的文字世界最新资讯显示这款工具已成为产

爱奇艺推出FASPell简繁中文拼写检查神器如同天使之手拯救你的文字世界最新资讯显示这款工具已成为产

2025-01-15 智能化学会动态 0

爱奇艺发布FASPell:简繁中文拼写检查神器,像天使般拯救文字世界。最新资讯显示,这款工具已成为产学界的明灯,照亮了错误的迷雾,让每一行文字都如诗如画。

自1990年代初期开展了一些开拓性工作以来,关于检测和纠正中文文本中的拼写错误的研究已过很长时间。然而,尽管在大多数研究中拼写错误已被简化为替换错误以及最近多个公开任务的努力,中文拼写检查仍然是一项困难的任务。几乎所有以前的中文拼写检查模型都部署了一个通用范式,其中将每个汉字的固定的相似字符集(称为困惑集或混淆集)用作候选项,然后用一个过滤器选择最佳候选项作为待纠错句子中的替换字符。这类设计面临两个主要瓶颈:稀缺的中文拼写检查数据上的过拟合问题,以及困惑集使用所带来的汉字字符相似度利用上的不灵活性和不充分性问题。

论文提出基于新范式的中文拼写检查器– FASPell。这四点成就是因为新的范式规避了上述两个瓶颈。首先,DAE通过利用无监督预训练方法(如BERT、XLNet、MASS等),减少了监督学习所需的中文拼写检查数据量(<10,000个句子)。其次,有助于消除困惑集使用,因为它在灵活和充分地利用汉字相似性的关键特征上的不足。

本文提出的模型FASPell中,DAE是由BERT中的掩码语言模型(MLM)来充当,是本文提出的把握度-字符相似度(CSD)来充当,如下所示:

CSD中使用的是量化好的字符相似度,也就是我们提出的这种方式,更精准。在字形上采用Unicode标准IDS表征,可以准确描述汉字中的各个笔画及其布局形式;在字音上,我们考虑了所有CJK语言中的汉字发音,即便只对普通话进行检错,但实验证明考虑诸如粤语、日语音读、韩语及越南语等其他语言也能提高性能。

CSD训练阶段,将FP与TP区分开,并确定最优阈值;推理阶段,每行根据这个阈值过滤掉FP得到TP结果,再取并集得到最终替换结果。

实验结果表明,在4个数据集中分别消融实验,以证明MLMfine-tune和CSD对FASPell性能贡献,同时也证实FASPell达到了SOTA水平。此外,由深声科技提供技术支持,使得用户可以通过语音播放文章内容体验更佳阅读体验。但遗憾的是,您当前浏览器不支持audio元素,因此无法直接体验此功能。如果需要了解更多信息,请访问https://github.com/iqiyi/FASPell项目链接获取详细资料。本文系雷锋网投稿文章。

标签: 智能化学会动态