2025-01-23 新品 0
在Reddit上,人工智能是否能像人类一样提供宝贵的建议?这是一个被西雅图研究人员提出的挑战,他们称之为"TuringAdvice"。这个挑战基于名为RedditAdvice的动态数据集,这个数据集包含了来自Reddit小组中获得大量支持票的众包建议。为了成功,AI提供的建议必须与受欢迎的人类建议不仅有用,而且可能甚至更有效。
作为TuringAdvice的一部分,研究人员还发布了一个静态版本的RedditAdvice 2019数据集,用以训练能够提出建议的人工智能模型。这份数据集包括18.8万个情景下的61.6万条来自Reddit子社区用户分享的建议。
初步分析表明,即使是像谷歌T5这样的高级模型,只有在9%的情况下,其提供的建议能达到或超过人类标准。此外,还评估了Grover变压器模型和TF-IDF版本,但并未考虑到如Google BERT等流行双向NLP模型,因为它们通常被认为在生成文本方面不如从左到右的模型。在人际关系、法律事务以及日常生活方面,网上可以找到这些领域的人机对比演示。
最近发表的一篇关于TuringAdvice论文指出:“目前最先进的大型语言模型在REDDITADVICE上的表现令人遗憾,因此我们很高兴看到新一代模型正在发展。”文章进一步解释说,“我们认为,在现实世界中使用语言与我们的评估方法所衡量的是两回事。当今主流范式是研究静态数据,并根据输出结果与预定义正确答案相似性来评估机器性能。”
然而,当我们实际应用语言进行交流时,如给予意见或者传授概念时,我们很少会有通用的正确答案可供比较。这正是我们希望实现的一个松散目标。因此,该团队引入了一种框架,以缩小基准测试和实际语言使用之间差距。
作者表示,如果AI能够通过TuringAdvice挑战,那么它将更加适合人类提供建议或充当虚拟治疗师。为了确保结果与真实世界中的语言使用保持一致,研究小组采用了一种动态评估方法,从最近两周内收集200个情况,并将其作为测试场景,因为这是在所有人都非常熟悉的事情,与阅读理解等核心NLP任务重叠。
该挑战由华盛顿大学和艾伦人工智能研究所(Allen Institute of AI)共同发起,上周已在arXiv上发表详细阐述论文题为《根据机器实际语言使用情况评价机器》(Evaluation Machines by their Real-World Language Use)。该项目得到了华盛顿大学副教授Ali Farhadi参与,他曾是艾伦研究所前团队负责人,也是Xnor AI创始人的之一,该公司后来被苹果收购。
所有性能评估都是由亚马逊Mechanical Turk雇佣者完成,这篇论文曾批判获取AI训练数据方式,但认为Mechanical Turk雇佣员工更道德一些;同时也承认报酬完成任务会引入外部动机。对于倾向于选择机械化提示而非人类提示工作人员,被解雇了。
首席研究员Rowan Zellers透露,将有一次机会让参与者创建并调整他们自己的模式;第二轮排行榜预计几个月后公布。他们选择从Reddit各子社区分享流行意见尝试创造一种内生的动力,就像人们响应求助时体验到的那样。而且,每次对200条关于Mechanical Turk的事务进行评价大约需要370美元未来参加挑战赛的人员需要支付此费用,以便让他们的模式得到评价或出现于TuringAdvice排行榜中。这项挑战已经成为过去一年建立更强健自然语言处理系统努力的一部分,是SuperGLUE竞赛和“排行榜”系列任务的一个最新扩展。
雷锋网编译, via VentureBeat: https://venturebeat.com/2020/04/14/researchers-challenge-ai-to-give-advice-as-well-as-humans-on-reddit-can/