2025-02-17 资讯 0
在这个信息爆炸的时代,人们对与计算机交互提出了更高的要求。我们不再满足于简单的人机对话,而是希望能够像人与人交流那样自然、流畅。然而,人类之间的交流并非仅仅文字表达,它是一种微妙且复杂的过程。生活中,我们通过语气词来加强语气,表达愉悦、恼怒或无聊。而要让计算机真正理解人类日常交流用语,就需要超越单词定义,更深入理解人类的情感和潜台词。NLP正是试图在丰富的人类语言和机器语言之间搭建无障碍沟通的桥梁。在新一代AI技术发展下,我们需要巨大的数据支持各种场景。
AI大牛沈向洋曾指出,在构建AI时,数据至关重要,但目前NLP的大部分应用缺乏足够规模的标注数据,并且标注成本高昂,因此准确率通常并不理想。这就引出了一个问题:如何以低成本、高效获取高质量数据,以便快速上手ASR/TTS/NLP引擎,并迈向实用阶段?
澳鹏(Appen)中国区客户服务副总裁段杨Danny Duan认为,“成品数据库不失为一个明智的选择。”他进一步解释说:“成功NLP引擎关键因素之一是算法和高质量数据,一般而言算法往往是公开的,其差异化更多地来自于精准大量训练数据,以及定制时间长、成本高的事务性采集标注。”
Danny还指出,真正难点不在于转换过程,而是在于分析过程。“人的意图发散,我说‘把空调开到26度’是一个确定集合,但多数情况下我说的模糊,有多种可能含义,这本身就是开放集合,这种情景下的NLP引擎能否做到准确分析正确应对就非常难。”
关于情绪分析,他表示:“语气是情感分析的一部分,是很重要的一个方面,也可以说是一个难点。如果你试着用不同的语气跟一个语音助手说话,比如反问句,它很可能会给你错误答案。”
尽管当前NLP仍处于基础阶段,对复杂维度处理能力不足,但各厂商都在不断努力。一方面,他们聚焦特定场景,如开车时的人机交互;另一方面,他们缩减使用范围,在有限投入之内,用有限数据训练可用的NLP引擎。
最后,Danny强调了三样东西对于任何人工智能产品研发至关重要:算法、算力和数据。他认为“对于NLP而言,算法理论突破隔一段时间才会出现,而且现在行业内算法研究普遍是开源性的,所以真正核心的是数据”。