2025-01-08 资讯 0
雷锋网 AI 科技评论按:如题,虽然 NLP 研究领域已经在深度学习的帮助下取得了长足的发展,许多技术也已经商业化落地,但我们也需要知道,这个领域还有几个开放性问题等待解决 —— 如果它们也能比较好地解决,也许我们能迎来 NLP 科研成果与商业落地的一个新的。
下面列举了 5 个开放性问题,从轻到重排序:
评价指标这个问题在领域内不算很大的瓶颈,但是经常有研究人员觉得有必要重新讨论这个问题,因为现行惯例里往往不问原因就沿用某些固定的架构、数据集和评价指标。有人这样总结:「随着我们探索越来越高级的认知任务,弄明白为什么某些方法、某些架构在某些时候能起到好的效果,这对我们非常有帮助。」
另外一种担忧是对于评价指标自身的,这些评价技巧、这些生成的数字到底能在多大程度上对应人类语言的多样性和表达能力?对这个问题的回答也可以帮助我们构建出更有趣的自然语言推理数据集。
拓展阅读:EMNLP 2017 论文《Why We Need New Evaluation Metrics for NLG》(https://www.aclweb.org/anthology/D17-1238)
终生学习(Life long learning)NLP 领域遇到的另一个棘手问题是为这几个问题设计解决方案:
低阶模型用于下游任务时的终生适配
迁移学习应用
视觉、文本、音频等等语言相关模态无缝整合
低资源情境中高效跨任务迁移
拓展阅读:Sebastian Ruder 近期写了一篇文章,总结了NLP 领域迁移学习现状,雷锋网 AI 科技评论也做了编辑,可以点击阅读
面向目标对话系统(Goal oriented dialogue systems)从 ACL 学会出版的一两年的论文集中看,近年来的 ACL 会议、EMNLP 会议中研究面向目标对话系统论文都有大幅增加。这就是又一个开放性问题:如何设计具备常识、高效与人类进行较长交谈且语境敏感机器对话系统?
目前研究思路包括带状态追踪任务驱动式对话系统,以及使用强化学习或其他新点子。
拓展阅读:在 NLP 中应用强化学习https://www.csie.ntu.edu.tw/~yvchen/doc/KAIST19_Tutorial.pdf
低资源语言这可以算是最紧迫的问题。目前全世界约7000种语言,但只有20种左右可称为资源丰富。在其中找到灵感并取得进展相对于其他方向可能更加容易。专家们认为可行方向包括:
为低资源语言设计收集数据及训练小型模型方法
有效跨任务迁移方法以提高其性能
拓展阅读详见 http://www.cs.cmu.edu/~ytsvetko/jsalt-part1.pdf
自然语言理解没错,这就是那个最开放的问题,它和 NLP 领域中的许多具体问题息息相关。想要解决这个高阶认知难题,我们可能需要借鉴来自于强化学习、领域适应、小样本/零样本学习各个方面,并且还需要更多创新。
现阶段研究重点包括共指消歧、大文本表示以及环境中的言语学。
Yoshua Bengio 曾说:「要有野心,不仅仅读 NLP 论文,还要读很多机器学习、深度学习及强化-learning 的论文。」希望每位研究者能够打开眼界,将以前及现在各类科学知识融入自己的工作中,以此来攻克更复杂难题并创造更多价值。
via deeps.site/blog/2019/09/09/nlp-problems/, 雷锋网 AI 科技评论编译
上一篇:中国智网未来之路的无缝连接