互联网最新资讯AI能否成为军师先让Reddit用户见证其英勇前行

2025-01-23 新品 0

在Reddit的热闹氛围中，西雅图的一群研究人员最近推出了一个名为“TuringAdvice”的新挑战，这项挑战旨在测试人工智能语言模型是否能够像人类那样提供有用的建议。这个由动态RedditAdvice数据集构成的挑战赛要求AI生成与真实世界中获得支持票最高的人类建议一样有效甚至更佳。

为了准备这场大型比赛，研究者们还发布了一个静态的RedditAdvice 2019数据集，用于训练能给出建议的人工智能模型。这份包含18.8万个情景下的61.6万条建议的数据集，是通过众包方式收集于Reddit子社区用户之间。

初步结果显示，即使是拥有110亿参数的高级模型如谷歌T5，只有9%的情况下能提供与人类同样有用的建议。研究人员还评估了Grover变压器模型和TF-IDF版本，但没有包括流行的双向NLP模型如BERT，因为它们通常被认为在生成文本方面不如从左到右的模型。

一篇关于TuringAdvice最新论文指出：“当前最强大的模型在REDDITADVICE上仍然挣扎，我们很期待看到新的进展。” 论文作者提出了一个关键问题：现实世界中的语言使用如何与我们目前评估机器能力的手段相匹配？

为了缩小这一差距，TuringAdvice采用了一种动态评估方法，从Reddit各个子社区收集近两周内200个情况作为测试场景。他们选择推荐作为测试场景，因为它是所有人都熟悉且与核心NLP任务重叠，如阅读理解。

华盛顿大学和艾伦人工智能研究所共同发起了这项工作，上周在arXiv上发表了一篇详细阐述此项目论文题为《根据机器实际语言使用情况来评估机器》（evaluation Machines by their Real-World Language Use）。

所有性能评估均来自通过亚马逊Mechanical Turk雇佣的人员。在对获取训练数据方式表示关切时，该论文认为，比起自动化回答需要帮助的人类问题，更合适的是雇佣Mechanical Turk成员进行评价；但同时承认外部激励可能会引入偏见，如那些倾向于选择机器而非人类答案的小组成员被解雇后，他们更倾向于选择人的答案。

首席研究员Rowan Zellers透露，参与者将机会创建并调整自己的模型；第二轮排行榜预计将在几个月后公布。此外，由于每次评价大约需要370美元，因此未来参与者将需支付Mechanical Turk费用以参加排名。

随着时间推移，这些努力正在不断进步，以建立更加健壮、能够充分利用自然语言处理技术的大型系统。此前一年，一系列包括SuperGLUE挑战赛和“排行榜”（leaderboard）等任务也被设计出来，以考验这些系统。

标签：华为秋季全场景新品发布会、水果新品种、最新品色、苹果新品发布会、小米新品发布会视频

上一篇：音准和弦的裂缝

下一篇：完成报告的撰写我是如何一篇接一篇地把报告写完的

互联网最新资讯AI能否成为军师先让Reddit用户见证其英勇前行

免费心理测试抑郁自评量表我是如何通过这份小测验找回快乐的

新浪财經小微企業融資難題及破解之道

工作效率提升编制高效单位打报告申请模板的艺术与实践

北京软件测评公司确保代码的质量与创新

北京保健大师守护健康的不懈追求