当前位置: 首页 - 新品 - AI如西安疫情最新资讯的智慧军师先在Reddit用户心中大显身手再说

AI如西安疫情最新资讯的智慧军师先在Reddit用户心中大显身手再说

2025-01-23 新品 0

在西安疫情最新资讯的背景下,Reddit用户们提出了一个挑战:AI能否像军师一样提供宝贵建议?为了衡量这一点,研究人员推出了名为“TuringAdvice”的新人工智能大赛。这个挑战的核心在于创建语言模型,为使用真实世界语言的人类提供有用的建议。

"TuringAdvice"竞赛基于动态的RedditAdvice数据集,这是一个众包数据集,其中包含了来自Reddit小组中获得最多支持票的建议。在通过挑战以提供与人类建议同等或更好的建议来获胜。作为此项工作的一部分,研究人员还发布了一个静态RedditAdvice 2019数据集,以用于训练能够给出提供建议的人工智能模型。

初步分析显示,即使是高级模型如谷歌T5(去年秋天推出的拥有110亿参数的一个模型),也只有在9%的情况下能够写出至少和人类建议一样有用的内容。研究人员还评估了Grover变压器模型和TF-IDF版本。这项研究没有对像Google BERT这样的双向NLP流行模型进行评估,因为它们通常被认为在生成文本方面不如从左到右的模型。

关于人际关系、法律事务以及日常生活方面的建议,可以通过网上找到人机对比演示。最近发表的一篇关于TuringAdvice论文指出:“今天最大的模式在REDDITADVICE上苦苦挣扎,所以我们很高兴看到新模式得到发展。”

为了确保结果与真实世界中的语言使用保持一致,研究小组采用了一种动态评估方法,他们收集了200个情况,从Reddit各子社区内最近两周内分享的小贴士中获取。在这个过程中,他们选择把给予别人的意见作为测试场景,因为它是每个人都非常熟悉的事物,并且与阅读理解等核心NLP任务重叠。

TuringAdvice挑战由华盛顿大学和艾伦人工智能研究所共同开展,上周他们发表了一篇详细阐述该项目的论文,该论文题为《根据机器实际语言使用情况来评估机器》。华盛顿大学副教授Ali Farhadi是这篇文章的一个合著者,他之前曾是艾伦研究所团队负责人,也是Xnor AI公司创始人的之一,其后被苹果收购。

所有性能评价都是由通过亚马逊Mechanical Turk雇佣的人员完成。此外,该论文批判了获取AI训练所需数据方式,但认为雇佣Mechanical Turk员工更道德;同时,它承认获得报酬会引入外部动力导致偏见。当有人选择机械化答案而不是人类时,这些参与者将失去其工作机会。

首席研究员Rowan Zellers透露,将允许参与者创建并调整他们自己的模块;第二轮排行榜预计将几个月后公布。

对于价格问题,评估200条关于Mechanical Turk的话题的大约需要370美元。而未来参与者的输入将要求支付这些费用,以便让他们的模块被评估或进入排行榜。

总之,“TuringAdvice”是一项旨在建立更加健壮自然语言处理系统的问题,是过去一年里出现的一个新的挑战。此前,一系列包括SuperGLUE竞赛和“排行榜”(leaderboard)等更复杂任务系列也已展开过。

标签: 智能化新品秋装新品苹果秋季新品发布会召开世界首个龙眼与荔枝杂交新品种诞生华为发布会2023秋季新品发布时间