2025-02-17 资讯 0
在智能化的浪潮中,人工智能技术尤其是自然语言处理(NLP)正在成为连接计算机与人类交流的桥梁。随着技术的不断进步,人们对与计算机交互提出了更高要求,不仅要实现文字级别的人机交互,还希望达到情感和意图理解的层次,就像科幻电影中的描绘那样。
然而,人类之间的交流远比简单地使用词汇复杂,它包含了语气、情感、上下文和潜台词等多维度信息。因此,让计算机真正理解人类日常交流用语并不容易。NLP实际上是在极为丰富的人类语言与机器语言之间搭建无障碍沟通桥梁。在新一代AI技术发展下,需要大量数据以支撑不同的场景。
AI大牛沈向洋曾在演讲中强调,在任何时候构建AI都离不开数据,而如何设计和构建负责任的AI,其数据来源至关重要。当下NLP的大部分应用场景都缺乏足够规模的标注数据,并且标注成本非常高,因此准确率通常也不会很理想。
那么如何才能以低成本、高效率获得高质量数据,以便快速进入NLP实用的阶段?针对这一问题,我们有幸深入了解澳鹏(Appen)的中国区客户服务副总裁段杨Danny Duan对于这个问题的一些看法。他指出,“成品数据库不失为一个明智选择。”
成功的NLP引擎关键因素之一是算法和高质量训练数据。在很多情况下,算法虽然公开,但差异化更多地来自于精准大量训练数据及定制化时间长、成本高的情形。
当我们试图让计算机理解我们的意图时,其中最核心的问题之一就是分析过程。这涉及到识别有限集合中的确定含义,也可能包括模糊或开放性的含义,这本身就是一个开放集合,对于正确分析并做出应对反应就显得异常困难。此外,由于人的情绪表达往往模糊多变,对此进行有效处理也是挑战之一。
尽管目前NLP还处于较基础水平,与处理复杂维度相比还有很大的距离。但各厂家正朝着提高这一能力努力,有些甚至专注于特定场景,如驾驶辅助系统或者医疗咨询系统,以便通过缩小应用范围内使用有限资源来训练出可靠性能的模型。而真正核心的是这些模型所依赖的大量、高质量且适用于特定任务或领域的人工标记或自动标记好的训练集资料。