当前位置: 首页 - 新品 - 汽车最新资讯AI如何成为Reddit用户的智慧引擎

汽车最新资讯AI如何成为Reddit用户的智慧引擎

2025-01-23 新品 0

在Reddit的热门建议中,人工智能大赛“TuringAdvice”正在进行中,这场比赛旨在创建能够为真实世界中的用户提供有用建议的语言模型。这个挑战基于名为“RedditAdvice”的动态数据集,该数据集是通过众包方式收集的,它包含了过去两周内在Reddit子社区中获得最多支持票的建议。

为了通过这项挑战,AI生成的建议必须与人类所给出的推荐一样有效甚至更有效。作为这一项目的一部分,研究人员还发布了一个静态版的RedditAdvice 2019数据集,该数据集用于训练能够提供建议的人工智能模型。这一集合包括了来自18.8万个情景下的61.6万条用户分享于Reddit子社区的小贴士。

初步分析显示,即使是像谷歌T5这样的高级模型,只有在9%的情况下能创造出至少和人类相同效果的提供建议内容。研究人员也评估了Grover变压器模型以及TF-IDF版本。但他们并没有评估像Google BERT这样的双向NLP模型,因为它们通常被认为在文本生成方面不如从左到右模式。

最近发表的一篇关于TuringAdvice论文指出:“目前最强大的模型在地面上的REDDITADVICE上挣扎,因此我们很高兴看到新型号出现。”该团队表示,他们希望缩小现实世界语言使用与机器评估之间存在差距,并引入了一种框架来实现这一目标。

为了确保结果接近真实世界语言使用,研究者采用一种动态评估方法,从最近两个星期内各个子社区收集200个情况。此外,他们选择将建议作为测试场景,因为它非常普遍且与阅读理解等核心NLP任务重叠。

华盛顿大学和艾伦人工智能研究所(Allen Institute of AI)的工作对此进行了详细阐述,上周发表于arXiv上的一篇论文题为《根据机器实际语言使用情况来评价机器》(evaluation Machines by their Real-World Language Use)。该论文由华盛顿大学副教授Ali Farhadi领导,他也是之前的一个先前团队成员之一,也是他的人工智能初创企业Xnor最近被苹果收购。

所有性能评价都来源于亚马逊Mechanical Turk雇佣的人员。尽管这篇文章批判获取人工智能训练数据方式,但它认为,比起自动回应需要帮助的人类请求,更合适的是雇佣Mechanical Turk员工;然而,它也承认,这样的安排可能会引入外部动机。在排行榜公布后,有机会调整他们自己的模型,然后第二轮排行榜结果预计将在几个月后公布。

参与者将被要求支付Mechanical Turk费用,以便让他们自己的AI模块被评估或列入TuringAdvice排行榜中。TuringAdvice是一个建立自然语言更健壮新型号最新挑战,在去年秋天,由华盛顿大学、纽约大学、Facebook AI实验室以及三星实验室共同推出了SuperGLUE挑战赛及“排行榜”。

标签: 新品管七大手法华为新品发布会2023春季新品世界首个龙眼与荔枝杂交新品种诞生热水器方太新品