万古神帝最新资讯AI若想做军师首先要在Reddit用户心中赢得一席之地

2025-01-23 新品 0

在Reddit的热门建议中，西雅图研究人员发起了名为“TuringAdvice”的新人工智能大挑战。这项挑战旨在创造能够提供有用建议的语言模型，以便它们能够与真实世界中的人类用户进行有效交流。TuringAdvice挑战赛基于动态的RedditAdvice数据集，这是一个由社区成员共享并投票支持的众包数据集。在过去两周内，共收集了200个情景下的建议。

为了通过挑战，AI必须能提供与受欢迎的人类建议一样有用的、甚至更好的建议。研究人员还发布了一个静态RedditAdvice 2019数据集，用于训练提供建议的人工智能模型，其中包含18.8万个情景下的61.6万条建议。

初步分析显示，即使是像谷歌T5这样的高级模型，只有在9%的情况下能写出至少和人类相同或更好的推荐。研究人员评估了Grover变压器模型和TF-IDF版本，但没有评估像BERT这样的双向NLP模型，因为它们通常被认为在生成文本方面不如从左到右的模型。

最近一篇关于TuringAdvice论文指出：“目前最大的模式在REDDITADVICE上努力挣扎，因此我们很高兴看到新的模式得到发展。”文章还提到，“当今主流范式是研究静态数据，并根据输出结果与预先定义正确答案相似性对机器进行评级。”

然而，在现实世界中使用语言时，有很少通用的正确答案可以作为参考。因此，他们引入了一种框架来缩小基准测试和实际语言使用之间的差距。作者们认为，如果AI能更好地为人类提供建议，它们也许会成为虚拟治疗师。

为了确保结果符合真实世界语言使用，他们采用了一种动态评估方法，从Reddit子社区收集最近两周内获得支持票最多的情境200个案例。此外，该项目选择将适用于阅读理解等核心NLP任务，这些任务对自然语言处理至关重要。

该项目是华盛顿大学和艾伦人工智能研究所（Allen Institute of AI）的合作成果，上周发表于arXiv的一篇论文详细阐述了此项工作。这篇题为《根据机器实际语言使用情况评价机器》（evaluation Machines by their Real-World Language Use）的论文由华盛顿大学副教授Ali Farhadi共同撰写，他也是之前团队负责人，也是其公司Xnor被苹果收购后的一员之一。

所有性能评估都来自亚马逊Mechanical Turk雇佣者完成的人力任务。这份报告批判获取人工智能训练数据方式，但认为比自动化回应问题更加道德，并承认获得报酬可能引入外部动机。如果参与者选择的是机械作业而非人类作业，则他们将失去机会参加第二轮排行榜竞赛，其结果预计几个月后公布。

此次挑战赛的一个重点是在价格上：评估200条关于Mechanical Turk的大约需要370美元未来的参与者将需支付这个费用以便让自己的模型被评价或列入排行榜上。而这次Turing Advice是一年来建立健壮自然语言模型所创建最新事件，比如去年秋天推出的SuperGLUE挑战赛及其更多复杂性能测试系列。

标签：小米新品、桂花新品种、新品发布会方案、苹果新品发布会、苹果官宣10月31日新品发布会

上一篇：情况说明报告深度分析与策略建议

下一篇：智能化学会动态-新一代绿色催化剂的研发与应用前景探讨

万古神帝最新资讯AI若想做军师首先要在Reddit用户心中赢得一席之地

探索水果新品种甜蜜革命的果实

一加电视与福建农业职业技术学院合作推出新功能手机来电时电视自动调节音量创意生活体验

陕西职业技术学院新时代高等职业教育的典范

智能装备技术在现代工业与军事领域的应用及其未来发展趋势研究

福建农业职业技术学院提供了哪些专业课程特别是与农业相关的