2025-01-23 新品 0
在Reddit的热门建议中,西雅图研究人员发起了名为“TuringAdvice”的新人工智能大挑战。这项挑战旨在创造能够提供有用建议的语言模型,以便它们能够与真实世界中的人类用户进行有效交流。TuringAdvice挑战赛基于动态的RedditAdvice数据集,这是一个由社区成员共享并投票支持的众包数据集。在过去两周内,共收集了200个情景下的建议。
为了通过挑战,AI必须能提供与受欢迎的人类建议一样有用的、甚至更好的建议。研究人员还发布了一个静态RedditAdvice 2019数据集,用于训练提供建议的人工智能模型,其中包含18.8万个情景下的61.6万条建议。
初步分析显示,即使是像谷歌T5这样的高级模型,只有在9%的情况下能写出至少和人类相同或更好的推荐。研究人员评估了Grover变压器模型和TF-IDF版本,但没有评估像BERT这样的双向NLP模型,因为它们通常被认为在生成文本方面不如从左到右的模型。
最近一篇关于TuringAdvice论文指出:“目前最大的模式在REDDITADVICE上努力挣扎,因此我们很高兴看到新的模式得到发展。”文章还提到,“当今主流范式是研究静态数据,并根据输出结果与预先定义正确答案相似性对机器进行评级。”
然而,在现实世界中使用语言时,有很少通用的正确答案可以作为参考。因此,他们引入了一种框架来缩小基准测试和实际语言使用之间的差距。作者们认为,如果AI能更好地为人类提供建议,它们也许会成为虚拟治疗师。
为了确保结果符合真实世界语言使用,他们采用了一种动态评估方法,从Reddit子社区收集最近两周内获得支持票最多的情境200个案例。此外,该项目选择将适用于阅读理解等核心NLP任务,这些任务对自然语言处理至关重要。
该项目是华盛顿大学和艾伦人工智能研究所(Allen Institute of AI)的合作成果,上周发表于arXiv的一篇论文详细阐述了此项工作。这篇题为《根据机器实际语言使用情况评价机器》(evaluation Machines by their Real-World Language Use)的论文由华盛顿大学副教授Ali Farhadi共同撰写,他也是之前团队负责人,也是其公司Xnor被苹果收购后的一员之一。
所有性能评估都来自亚马逊Mechanical Turk雇佣者完成的人力任务。这份报告批判获取人工智能训练数据方式,但认为比自动化回应问题更加道德,并承认获得报酬可能引入外部动机。如果参与者选择的是机械作业而非人类作业,则他们将失去机会参加第二轮排行榜竞赛,其结果预计几个月后公布。
此次挑战赛的一个重点是在价格上:评估200条关于Mechanical Turk的大约需要370美元未来的参与者将需支付这个费用以便让自己的模型被评价或列入排行榜上。而这次Turing Advice是一年来建立健壮自然语言模型所创建最新事件,比如去年秋天推出的SuperGLUE挑战赛及其更多复杂性能测试系列。