当前位置: 首页 - 资讯 - 数据之战NLP如何助力最新旅游资讯在物品场景中的实用应用

数据之战NLP如何助力最新旅游资讯在物品场景中的实用应用

2025-02-17 资讯 0

在这个信息爆炸的时代,人们对与计算机交互提出了更高的要求。我们不再满足于简单的人机对话,而是希望能够像人与人交流那样自然、流畅。然而,人类之间的交流并非仅仅文字表达,它是一种微妙且复杂的过程。生活中,我们通过语气词来加强语气,表达愉悦、恼怒或无聊。而要让计算机真正理解人类日常交流用语,就需要超越单词定义,更深入理解人类的情感和潜台词。

NLP(自然语言处理)就是在丰富的人类语言和机器语言之间搭建桥梁的技术。在新一代AI技术发展下,巨大的数据支持成为不同场景实现NLP应用的关键。著名AI大牛沈向洋曾在清华演讲中指出:“构建AI离不开数据”,如何设计负责任的AI,其数据来源至关重要。

然而,在现有的NLP应用场景中,大部分缺乏足够规模标注数据,并且标注成本高昂,因此准确率通常并不理想。那如何才能以低成本、高效率获取高质量数据,以便快速上手ASR/TTS/NLP引擎,并迈向实用阶段?

澳鹏(Appen)中国区客户服务副总裁段杨Danny Duan认为,“成品数据库是一个明智选择。”以下是他与雷锋网AI科技评论进行的一次深度对话:

一个成功NLP引擎关键因素之一是算法和高质量训练数据,而算法往往公开可得,其差异化更多来自精准大量训练数据以及定制化数据采集标注时间长而成本高。

Q:目前在人工智能中的每个决策方案都利用了NLP,这句话意味着什么?

Danny:人机交互有几个步骤,首先,让计算机听懂你说的是什么;接着分析文字知道你的意图,然后做出相应反应。这就是自然语言理解或者叫做NLP任务,比如我告诉智能音箱“打开空调”,它首先将声音转换为文字,然后分析意图去打开空调。

Q:怎么定义一个成功的NLP?

Danny:从用户角度看,是能够像真人一样知道你想说什么,要做什么,以及给出正确反应。如果能分辨不出来你是不是感觉到对方是个机器,那就说明这个NLP已经非常成功了,即假乱真,但现在还存在差距。

Q:难点主要体现在转换过程吗?

Danny:实际难点在于分析过程,因为分析文本不是简单识别内容,而是要识别意图。而人的意图发散,我说“26度”可能有多种含义,而且往往依赖上下文知识,这使得分析变得困难。

基于这些原因,每家公司都会限定好应用场景,比如设闹钟、客服回答常见问题等,从而让引擎可以对常见意图进行理解和应答,对超出范围内容则会说不知道。你会发现跟语音助手对话时,它经常会说没听懂,然后提供搜索链接,就是因为它没有办法处理这一类内容。

Q:无法解锁情绪分析吗?

Danny:虽然目前还有一些限制,但通过大量训练覆盖各种情况以及逐步叠加复杂维度,可以逐渐提高能力。一方面需要基础最基本场景先行训练,再追求更复杂;另一方面,一旦错误,如反问句可能得到错误回应。因此,现在还远未达到完全处理复杂维度的情境。但各厂商根据自身需求聚焦特定场景,有时候缩小使用范围,便于有限投入获得可用的引擎。

Q:算法对于NPL是否第一位?

Danny:"任何人工智能研发需三样东西—算法、算力及数据"。虽然理论突破重要但普遍开源,所以核心还是取决于拥有丰富多样的、高质量标准化的大量培训材料,即所谓成品数据库。此外,无论是在中文语音识别还是其他领域,都必须面临千变万化的问题,以适应不断变化的人类行为习惯及环境条件。

标签: 智能化资讯