2025-01-08 资讯 0
雷锋网 AI 科技评论按:如题,虽然 NLP 研究领域已经在深度学习的帮助下取得了长足的发展,许多技术也已经商业化落地,但我们也需要知道,这个领域还有几个开放性问题等待解决 —— 如果它们也能比较好地解决,也许我们能迎来 NLP 科研成果与商业落地的一个新的突破。
下面列举的 5 个开放性问题来自自学 NLP 的机电一体化本科生 Deepak Garasangi 在 Reddit 上的发帖讨论内容总结,并且参考了 Sebastian Ruder 曾经总结的 4 个开放性问题。按重要性从轻到重排序:
评价指标这个问题在领域内不算很大的瓶颈,但是经常有研究人员觉得有必要重新讨论这个问题,因为现行惯例里往往不问原因就沿用某些固定的架构、数据集和评价指标。有人这样总结:「随着我们探索越来越高级的认知任务,弄明白为什么某些方法、某些架构在某些时候能起到好的效果,这对我们非常有帮助。」
另外一种担忧是对于评价指标自身的问题,它们这些评价技巧、这些生成的大数字到底能在多大程度上对应人类语言中的多样性和表达能力?对这个问题的回答也可以帮助我们构建出更有趣自然语言推理数据集。
拓展阅读:EMNLP 2017 论文《Why We Need New Evaluation Metrics for NLG》(https://www.aclweb.org/anthology/D17-1238)
终生学习(Life long learning)NLP 领域遇到的另一个棘手问题是为这几个挑战设计解决方案:
低阶模型用于下游任务时终生的适配
迁移学习应用
视觉、文本、音频等各语言相关模态无缝整合
低资源情境中高效跨任务迁移
拓展阅读:Sebastian Ruder 近期写了一篇文章,总结了NLP 领域迁移学习现状,雷锋网 AI 科技评论编译,可以点击阅读
面向目标的对话系统(Goal oriented dialogue systems)从 ACL 学会出版论文集中看,一两年的 ACL 会议和 EMNLP 会议中研究面向目标对话系统论文都增加得很多。这就是又一个开放性问题:如何设计具备常识,在真实世界语境中与人类进行较长时间较为精确交谈的人机交互系统?
目前研究思路包括带状态追踪任务驱动对话系统,以及使用强化学习及其他新点子。
拓展阅读:在 NLP 中应用强化学习https://www.csie.ntu.edu.tw/~yvchen/doc/KAIST19_Tutorial.pdf
低资源语言这可以算是最紧迫的问题。目前全世界大约有7000种语言,但其中只有很小的一部分,大概20种左右,可谓“资源丰富”。专家们认为可行方向包括:
为低资源语言设计收集数据并用较小数据训练言语模型方法
有效跨任务迁移方法以提升特定于该类别情境下的表现力
拓展阅读:详细说明文章参见 http://www.cs.cmu.edu/~ytsvetko/jsalt-part1.pdf
自然语言理解没错,这就是那个最开放的问题,它与 NLP 领域中的许多具体难题息息相关。想要解决这个高层次认知难题,我们可能需要借鉴强化学习、领域适应、小样本/零样本学习等思想,同时创新思考方式。
现阶段研究重点聚焦于共指消歧核心引用分析多义词解析文档摘要以及论证推理讽刺幽默环境中的自然言语结合通过联合建立一个共同世界模型并将其融入言语模型开发过程中,以便实现环境信息利用提高理论上的描述能力。
Yoshua Bengio 曾提醒:「要勇敢前行,不仅限于读取当前行业标准文献,要扩宽视野去了解更多关于机器人自动控制法则逻辑图灵计算方面知识。」希望我们的每位科学工作者能够开阔眼界,将经验融合,从而克服更复杂难题创造更宏伟成就。
via deeps.site/blog/2019/09/09/nlp-problems/, 雷锋网 AI 科技评论编译