2025-01-23 新品 0
在Reddit的热门建议中,人工智能大赛“TuringAdvice”正在进行中,这场比赛旨在创建能够为真实世界中的用户提供有用建议的语言模型。这个挑战基于动态的RedditAdvice数据集,该数据集由社区成员在过去两周内对各种情景下的建议进行投票产生。
为了通过挑战,AI生成的建议必须与人类推荐一样有用或更有用。研究人员还发布了一个静态RedditAdvice 2019数据集,用于训练能给出建议的人工智能模型,该数据集包含来自18.8万个情境下的61.6万条人类建议。
初步分析表明,即使是高级模型,如谷歌T5,只有在9%的情况下,其生成的主贴可以达到与人类同等水平。研究人员评估了Grover变压器模型和TF-IDF版本,但没有评估像Google BERT这样的流行双向NLP模型,因为它们通常被认为在生成文本方面不如从左到右的模型。
最近发表的一篇关于TuringAdvice论文指出:“今天最大的模型在REDDITADVICE上苦苦挣扎,所以我们很高兴看到新模式得到发展。”作者们表示,TuringAdvice挑战可能会使AI更好地为人类提供建议或充当虚拟治疗师。
为了确保结果与真实世界语言使用保持一致,研究小组采用了一种动态评估方法,他们收集了200个情况,并选择把建议作为测试场景,因为它是所有人都非常熟悉的事情,并且与阅读理解等核心NLP任务重叠。
该挑战由华盛顿大学和艾伦人工智能研究所(Allen Institute of AI)合作,上周在arXiv上发表了一篇详细阐述此项工作的研究论文。这篇论文题为《根据机器实际语言使用情况来评估机器》(evaluation Machines by their Real-World Language Use)。
所有性能评估都来自于亚马逊Mechanical Turk雇佣的人员。首席研究员Rowan Zellers透露,未来将允许参与者调整他们的模型;第二轮排行榜结果预计将在几个月后公布。
这次挑战的一个关注点是成本。评价200条关于Mechanical Turk的建议大约需要370美元。此外,将要参加未来的挑战赛的人员将被要求支付Mechanical Turk费用,以便他们参与排名榜上的测试或提交自己的AI系统进行测试。
随着超越当前自然语言处理技术界限,这项最新的人工智能大赛——TuringAdvice正逐步展现出其潜力,为建立更加健壮、可靠的人工智能推进前进。在这一过程中,它也揭示了目前人们如何利用这些技术来改善生活质量,以及如何让它们成为真正帮助他人的工具,而不仅仅是简单地模仿人类行为。