2025-02-17 资讯 0
在这个信息爆炸的时代,人们对与计算机交互提出了更高的要求。我们不再满足于简单的人机对话,而是希望能够像人与人交流那样自然、流畅。然而,人类之间的交流并非仅仅文字表达,它是一种微妙且复杂的过程。生活中,我们通过语气词来加强语气,表达愉悦、恼怒或无聊。而要让计算机真正理解人类日常交流用语,就需要超越单词定义,更深入理解人类的情感和潜台词。NLP正是试图在丰富的人类语言和机器语言之间搭建无障碍沟通的桥梁。在新一代AI技术发展下,我们需要巨大的数据支持各种场景。
AI大牛沈向洋曾指出,在构建AI时,数据至关重要,但目前NLP的大部分应用缺乏足够规模的标注数据,并且标注成本很高,因此准确率通常并不理想。那如何才能以低成本、高效率获得高质量数据,以便快速上手ASR/TTS/NLP引擎,并迈向实用阶段呢?
针对这一问题,我有幸与澳鹏(Appen)中国区客户服务副总裁段杨进行了一次深度对话。他认为,“成品数据库不失为一个明智的选择。”
段杨指出:“成功NLP引擎关键因素之一是算法和高质量数据,算法往往公开可获取,其差异化更多地来自于精准大量训练数据及定制标注时间长而成本高。”
他解释说:“人机交互有几个步骤:首先,让计算机听懂你说的是什么;然后分析你的意图。这就是自然语言理解或者叫NLP任务。”
“成功NLP其实从最终用户角度很简单,就是能像真人一样知道我要说什么,要做什么,可以做出正确动作或者给出正确反应。如果能分辨不出来,你就是真的假不了了。”
段杨还提到:“真正难点不是转换过程,而是在分析过程,因为分析文本,不只是识别内容,还要识别意图。而人的意图发散,有多种可能含义,而且往往带上下文,这就使得分析变得非常困难。”
他进一步解释道:“因此各厂家会事先圈定好一些应用场景,比如闹钟、日历设置客服回答常见问题等,这样才可以对常见意图进行理解分析和应对,对范围之外内容则会说‘没听懂’。”
关于情绪分析,他表示:“语气是一个情感分析的一部分,是个重要方面,也是个难点。如果用不同的语气跟一个助手说话,比如反问句,它很可能给错误答复。”
最后,他总结了当前NLP状态:“目前基本处于比较常规基础上远未达到处理复杂维度层面。但不同厂商策略不同,一些聚焦特定场景缩减使用范围,用有限资源训练可用的引擎。”