当前位置: 首页 - 资讯 - 数据之战NLP如何助力最新汽车资讯走向实用阶段的核心所在

数据之战NLP如何助力最新汽车资讯走向实用阶段的核心所在

2025-02-17 资讯 0

在人工智能的发展历程中,随着技术的不断进步和应用场景的不断拓展,人们对与计算机交互提出了更高的要求。我们不再满足于简单的人机对话,而是追求一种更加自然、流畅的人类交流体验,就像科幻电影中的情景一样。但人类之间的交流远比文字或语音更为复杂,它涉及到情感表达、语气变化以及深层次的情感理解。

为了让计算机真正理解人类日常交流,我们需要构建一个能够跨越语言障碍和文化差异的桥梁。这就是自然语言处理(NLP)的核心任务。在新一代AI技术下,数据成为支撑不同场景应用的一个关键因素。沈向洋教授曾在清华演讲中指出,无论何时构建AI,都离不开数据,以及如何设计和构建负责任的AI,数据来源至关重要。

然而,大部分NLP应用场景都缺乏足够规模的标注数据,并且标注成本非常高,因此准确率通常并不理想。那么,我们如何才能以低成本、快效高质量地快速上手ASR/TTS/NLP引擎,以达到实用阶段呢?

澳鹏(Appen)中国区客户服务副总裁段杨Danny Duan指出:“成品数据库不失为一个明智选择。”以下是雷锋网AI科技评论与Danny进行的一场深度对话:

Q:目前在人机交互的人工智能中,声称几乎每个决方案都利用了NLP,这句话怎么理解?

D:人机交互有几个步骤,一开始你要让机器听懂你说的是什么,比如智能音箱或者语音助手就是这样一个很典型的情况。你对语音助手说了一句话,它能把它转换成相应文本,因为计算机会处理文本信息比较容易,这就是语音识别技术。而转成文本以后,你要让机器知道你想要干什么,这样就可以通过分析文字来知道你的意图,是不是这个意思?这后面一步就是自然语言理解或者叫做NLP任务。

比如我对着一个智能音箱说,“帮我打开空调。”首先,用到了语音识别把我说的话转换成文字,然后通过分析文字知道我的目的是要打开空调,这后面一步就是自然语言理解(NLP)的任务,它明白了,我要做的是打开空调,所以就操纵空调上的接收器去打开包括进一步设置到某一个温度。

现在基本上各种自然语言理解引擎都是把各种各样的输入信息转换成文本来进行处理、分析、切割,进行语意提取,还包括情绪提取,可以说这是真正实现人机交互基础。

Q:成功的NLP从哪些方面定义?

D:成功的NLP其实从最终用户角度来讲很简单,就是能够像真人一样知道我要说什么,要做什么,有能力做出正确动作或者给出正确反应。所谓人工智能,其参照物其实就是人的行为,在我们的限定的领域内。而像AlphaGo下围棋这种人工智能,与我们所说的“人人”是两个不同的方向。在这个领域里,就是以人的行为作为标杆。如果我跟Siri或者百度音乐说话,如果我看不到你,我感觉到你是一个真的吗?还是根本分辨不出来你是不是真实存在?如果分辨不出来,那就说明这个NPL已经做得非常成功了,以假乱真当然现在还有一定距离。但目前已有的技术水平还相距甚远。

Q:难点主要是在哪些环节?

D:真正难点并非在于转换过程,而是在于分析过程。一旦进入分析阶段,就会发现问题变得复杂多变。我告诉系统“把空调开到26度”,这是确定性的集合,但是往往很多情况下,说话是不确定性强,有多种可能含义,而且往往带有上下文依赖附加背景知识,本身是个开放集,所以对于这样的情境下的精准解析和响应就显得尤其困难了。

因此,每家厂商都会事先圈定好一些特定的应用场景,比如设闹钟、设日历客服回答常见问题搜索内容点播视频找餐馆等等,在这些有限范围内它才可以对常见意图进行解析和响应,对训练范围之外的事物就会说不知道,也许给个链接相当于网页搜索,让用户自己解决。所以当跟虚拟助手聊天的时候,它经常会说“我没听懂”,然后将你的声音翻译成文字给个链接,就是因为背后的引擎没有办法处理这一类内容

Q;无法解锁情感分析?

D:当然,不同的声音可能表达截然相反的情绪,但这也是需要大量训练覆盖各种不同的环境噪声条件等不同含义情况的一部分;另一方面也是一步一步逐渐增加复杂维度,比如普通正常速度,没有特别大的噪声,不同时几个人说话,同时也有普通内容,这种基础级别先修炼好,然后逐步追求更高复杂度

Q;当前状态是否只是处于较为基础和通用的使用状态?

D:可以这样认为,即使觉得可用但仍然远未达到实际使用中的“好用”。但是各大厂商策略不同,如百度微软GoogleApple头部企业则更多聚焦通用场合,而其他企业则专注特定场合,如驾驶时候车载设备医院医生病员间客服服务等平台缩减使用范围以有限投入获得有限结果,从而易于训练有效nlp引擎。

因为自然语言处理既不是机械识别声音,更是一种模糊去判断交流目的的问题。这一高度模糊性确实极其挑战性,一旦错误判读可能导致完全相反结果甚至灾难后果。

算法,对此有什么影响?

D: 在任何形式的人工智能研发中,无论是算法还是支持性的东西,都需要三样东西——算法、算力与数据。而这里讨论到的核心作用即便是第三位角色——数据。此外无论多少科学研究人员努力工作,只不过他们提供了一套理论框架或工具,但真正决定一切效果最后效果却始终归功於那些被编码进模型中的数千亿词汇组成了巨大的数据库—即"原材料"而非理论开发者们制定的方法之一条路径或二条路径。在现今世界观念中,最好的思路应该基于优化现存资源尽量利用旧知晓资料完成任命而非创造新的所有新资料。

数据库数量小且成本低可用于推广许多初学者项目!

标签: 智能化资讯