2025-02-17 资讯 0
在这个信息爆炸的时代,人们对与计算机交互提出了更高的要求。我们不再满足于简单的人机对话,而是希望能够像人与人交流那样自然、流畅。然而,人类之间的交流并非仅仅文字表达,它是一种微妙且复杂的过程。生活中,我们通过语气词来加强语气,表达愉悦、恼怒或无聊。而要让计算机真正理解人类日常交流用语,就需要超越单词定义,更深入理解人类的情感和潜台词。
NLP(自然语言处理)就是在丰富的人类语言和机器语言之间搭建桥梁的技术。在新一代AI技术发展下,巨大的数据支持成为不同场景实现NLP应用的关键。著名AI大牛沈向洋曾在清华演讲中指出:“构建AI离不开数据”,如何设计和构建负责任的AI,数据来源至关重要。
然而,大部分NLP应用场景缺乏足够规模标注数据,并且标注成本极高,因此准确率通常并不理想。这就引出了一个问题:如何以低成本、高效获取高质量数据,以便快速上手ASR/TTS/NLP引擎,从而迈入NLP实用阶段?
为了回答这一问题,我有幸进行了深度对话澳鹏(Appen)中国区客户服务副总裁段杨Danny Duan。他指出,“成品数据库是一个明智选择”。
成功的NLP从最终用户角度来说很简单,就是能够像真人一样知道我要说什么,要做什么,并能做出正确动作或者给出正确反应。所谓“人工智能”,其参照物其实就是人,这里主要指的是人机交互领域。而像AlphaGo下围棋这种人的表现,与我们所说的“人工智能”是两个不同的方向。
分析文本并不是简单地识别内容,因为你要识别意图。而最麻烦的是,人的意图发散。我说“把空调开到26度”,这是一个确定集合,但更多情况下,我说的话模糊,有多种可能含义,而且往往有上下文,这本身就是开放集合,这种情景下的NLP引擎能否准确分析正确应对就难度非常大了。
基于以上原因,每个厂家都事先圈定好一些应用场景,比如闹钟、日历设置、客服回答常见问题等。但是对于训练范围之外内容,它就会说不知道。你会发现跟语音助手对话时,它经常会说没听懂,然后转成文字给你链接,那实际上就是因为它背后的NLP引擎无法处理这一类内容。
目前虽然还处于基础阶段,对复杂维度处理还远未达到,但各厂家的做法不一样。大厂商着眼于通用场景,小厂商则聚焦特定场景,如驾车环境或医院环境,用有限投入得到可用的NLP引擎。在自然语言处理,不仅机械去识别声波,还需模糊去识别和判断交流意图,这个复杂度非常高,一旦出错可能造成灾难性后果。
对于算法,在任何人的技术研发中,其实都需要三样东西:算法、算力和数据。算力支持性质较弱,而关于中文语音识别,由于汉字量大,对待这些挑战仍需不断努力提升解决方案。