2025-02-17 智能化学会动态 0
在这个信息爆炸的时代,人们对与计算机交互提出了更高的要求。我们不再满足于简单的人机对话,而是希望能够像人与人交流那样自然、流畅。然而,人类之间的交流并非仅仅文字表达,它是一种微妙且复杂的过程。生活中,我们通过语气词来加强语气,表达愉悦、恼怒或无聊。而要让计算机真正理解人类日常交流用语,就需要超越单词定义,更深入理解人类的情感和潜台词。
NLP(自然语言处理)就是在丰富的人类语言和机器语言之间搭建桥梁的技术。在新一代AI技术发展下,巨大的数据支持成为不同场景构建AI不可或缺的一部分。AI大牛沈向洋曾指出,在构建负责任的AI时,数据来源至关重要。
目前,大部分NLP应用场景缺乏足够规模标注数据,并且标注成本高昂,这导致准确率并不理想。那如何才能以低成本、高效率获取高质量数据,以快速上手ASR/TTS/NLP引擎并步入实用阶段呢?
针对这一问题,我有幸与澳鹏(Appen)中国区客户服务副总裁段杨进行了深度对话。他指出,“成品数据库不失为一个明智选择。”
成功NLP引擎关键因素之一是算法和高质量数据。虽然算法往往公开,但差异化更多地来自于精准大量训练数据以及定制的数据采集标注时间长、成本高。
问:目前在人机交互中的每个决策方案似乎都利用了NLP,这句话意味着什么?
答:人机交互有几个步骤:首先,让机器听懂你说的是什么;其次,将声音转换为文本,因为计算机处理文本信息比较容易。这就是语音识别技术。当文本生成后,重点是让机器理解你的意图,然后知道该如何应答。这就是自然语言理解或者叫做NLP任务。
问:如何定义一个成功的NLP?
答:从最终用户角度来讲,一旦能像真人一样知道我要说什么,要做什么,并能正确行动或者给出正确反应,那么就可以认为是一个成功的NLP。如果分辨不出来,你是否感觉到它是一个真正的人工智能?如果没有分辨,那就说明这个NPL已经非常成功,以假乱真了,但是现在还相距很远。
问:难点主要体现在转换过程,也就是从语音和图像转换成文字这一部分?
答:其实真正的问题不是转换,而是在分析过程中,因为分析文本,不仅仅是识别内容,还要识别意图。而最麻烦的是人的意图发散。我说“把空调开到26度”,这是确定集合,但多数情况下,我说的模糊,有多种可能含义,而且往往带有上下文知识,这使得分析困难极大,所以各厂家会事先圈定好一些应用场景,比如闹钟、日历设置等常见任务,使之可靠应答。
问:它无法解锁情绪分析吗?
答:语气属于情感分析的一部分,是很重要的一个方面,也是个难点。一方面需要大量训练覆盖各种场景;另一方面,每个事情都有不同阶段,从基础开始逐渐叠加复杂维度,如正常对话速度,没有环境噪音或多个人同时说话的情况,只有普通内容才训练好,再逐步追求更复杂的情况。
问:目前基本还是处在比较常规基础上的状态,对复杂维度还没达到处理层面?
答可以这样说,在常规程度上觉得可以用,但离实际使用中的“好用”相对还有距离。但各厂家的做法不同。大厂如百度、微软、Google和Apple着眼于通用场景,而其他厂商聚焦特定场景,比如开车时的人机交互,或医院医生病人交流客服等通过缩减范围内投入有限资源,用有限资源获得可用的引擎。因为自然语言处理既非机械去识别声波,又需模糊去判断人跟你交流意图,其复杂性极高,一旦错误可能造成灾害后果。
问:“算法”对于NPL来说第一位吗?
答任何AI技术产品研发,都需要三样东西——算法、算力和数据。算力支持性质较弱而开放共享,其中核心依然是数据千变万化比如中文字量影响中文语音识别效果。此外,由于中文字符繁多,与英文相比,其结构更加独特,使得中文领域内涉及到的挑战尤为严峻,因此对于提高中文领域内相关模型性能具有重大意义。