当前位置: 首页 - 新品 - 上海交大招生办解读最新高招AI做军师先赢过Reddit用户再说吧

上海交大招生办解读最新高招AI做军师先赢过Reddit用户再说吧

2025-01-23 新品 0

在Reddit的热门建议中,人工智能大赛“TuringAdvice”正在进行中,这场比赛旨在创建能够为真实世界中的人类提供有用建议的语言模型。这个挑战基于动态的RedditAdvice数据集,该数据集由用户在过去两周内在Reddit小组中获得最多支持票的建议构成。为了通过挑战,AI生成的建议必须与受欢迎的人类建议一样有用,甚至更好。

作为TuringAdvice的一部分,研究人员还发布了一个静态RedditAdvice 2019数据集,用以训练提供建议的人工智能模型。这一数据集包含了来自Reddit子社区用户分享的情景下的61.6万条建议,以及18.8万个情境。

初步分析表明,即使是像谷歌T5这样的高级模型,只有9%的情况下,其生成的建议与人类提供的相似。在评估Grover变压器模型和TF-IDF版本时,也发现它们未能达到人类标准。此外,由于BERT等双向NLP模型通常被认为在文本生成方面不如从左到右流行,它们也未被评估。

最近发表的一篇论文指出:“目前,最大的机器学习模型对REDDITADVICE感到棘手,因此我们期待看到新型号出现。”文章还提出,“现有的主流范式是在静态数据集中研究,并根据输出结果与预先定义正确答案相似的程度来评估机器。”

然而,在现实世界中使用语言进行交流时,如给予咨询或教授概念,大多数没有通用的正确答案可供比较。这就引入了一个框架来缩小基准测试和实际语言使用之间差距。作者表示,TuringAdvice挑战可能会促进AI更好地为人类提供帮助或成为虚拟治疗师。

为了确保结果与真实世界语言使用保持一致,研究者采用了一种动态评估方法,从近期两周内收集200个情况并将其作为测试场景。这场挑战是华盛顿大学和艾伦人工智能研究所(Allen Institute of AI)的合作项目,上周他们发表了一篇详细阐述该工作论文题为《根据机器实际语言使用情况评价机器》。

所有性能评估都依赖于亚马逊Mechanical Turk雇佣的人员完成任务。虽然这项技术可以用于获取人工智能训练所需的大量数据,但它也面临道德问题,比如支付报酬以完成任务可能会引入外部动机影响结果。此外,有些参与者选择机械化推荐而不是人类推荐后被解雇,他们倾向于选择AI而非人类方案,这导致混淆性强烈,因为这些决定是基于经济利益,而非出自真正需求满足的问题解决能力。

首席研究员Rowan Zellers透露,将允许参与者调整他们的模型;第二轮排行榜预计将在几个月后公布。

此次挑战的一个重点是成本:对Mechanical Turk上200条关于话题讨论的大约需要370美元付费。未来参加此次挑战的小组将需要支付这一费用,以便让自己的AI系统接受评价或登上排行榜。

总之,“Turing Advice Challenge”代表着自然语言处理领域最新努力之一,为建立更加健壮、有效地理解并回应不同情境下人们需求的人工智能系统奠定基础。

标签: 苹果发布会2023新品23年新品手机iphone新品发布会服装新品发布会建材新品