追一科技分享：九问虚拟数字人（上篇）

2021-04-09 14:39:48 [ 中关村在线原创 ]

虚拟主播,虚拟老师,虚拟客服,虚拟歌手,虚拟导游….一个个鲜活的虚拟角色正在扑面而来,进入企业和大众的视野, 让以商业和技术为导向的数字经济多了些温情和烟火气。

这些虚拟角色的背后是集合了视觉、语义、语音等多种人工智能技术的多模态交互技术,能对人体的形态、表情和动作进行模拟仿真,打造出高度拟人化的虚拟形象,并具备听与说的能力,像真人般与人互动沟通,我们称之为虚拟数字人 (以下简称数字人) 。

作为中国人工智能产业发展联盟(AIIA)数字人标准起草单位,追一科技在数年前就预见到数字人的应用潜力,开展了预研,如今已在多个行业实现规模化应用。今天我们请追一科技的数字人团队分享他们在数字人领域的应用经验和对未来趋势的看法。

为什么数字人的应用正越来越受欢迎?

▌关键词:虚拟世界, 体验经济,人机交互新范式

追一数字人团队:越来越多的数字人应用见证的是一个虚拟世界的崛起。如果说在互联网时代,各种在线平台代表的是一种初级的“虚拟世界”,这个虚拟世界和物理世界之间还有着明显的区隔甚至割裂。

随着5G等信息基础设施的完善,社交的视频化,视频会议和直播的普及,游戏的云化,物联网和数字孪生的发展, 虚拟现实/增强现实/混合现实的成熟,“万物互联”的世界逐渐成型,再加上人工智能等新兴技术的加持,一个和物理世界逐渐融合的虚拟世界正在崛起,人机交互的方式加速更迭,变得越来越丰富立体。先是有文本交互(比如即时通信工具聊天),后有语音交互(比如机器人外呼,智能家居的语音控制),再到融合了视觉、语音及语义技术的多模态数字人交互 (比如数字人导购,虚拟教师),用户在虚拟世界中将得到更为真实,更接近现实,更具沉浸感的体验。物理世界中人人交互的场景会越来越多在虚拟世界中迁移、复制并融合新体验,这就是数字人交互应用潜力所在,代表着智能人机交互的新范式。

此外,现在客户越来越重视体验,不只是满足于传统的价格、功能这些因素,“悦己”的情感诉求不断提升,体验经济渐渐崛起。基于生活和情境打造感官体验,让顾客在购物和服务中获得更好的愉悦感,有助于提升客户满意度,这也是数字人发展的一个重要驱动因素。

相对于文本和语音交互技术,数字人交互的价值具体体现在哪里?

▌关键词:真实,效率,情感

追一数字人团队:数字人最重要的价值是给用户提供更真实自然的交互方式,就像我们人与人之间的沟通一样,是最真实的,带来非常自然的体验,更加人性化。比如在教育场景,数字人可以做老师的虚拟形象,跟学生互动,提升学习的积极性和体验。

此外,从交互效率的角度来看,文本和语音都有局限。文本交互需要打字,语音可能会丢失信息(比如嘈杂环境下),但数字人听的懂,看的见,说的出,将身份识别、手势识别、情感识别等信息包含进来,信息收集、交互和传递维度更为丰富,有更强的场景适应性, 还可以增加多媒体面板以富媒体的形式表达信息,交互效率也提高不少。

再者,数字人是非常好的情感化表达载体,在一些特定场景下有独特优势,是其他交互形式无法替代的,比如说针对独居老人,可以做一个亲人的形象来陪伴老人;针对留守儿童,可以做爸爸妈妈的形象。而语音和语义的交互形式更多停留在功能上的作用,情感化属性相对欠缺。情感属性的另一面还体现在数字人有助于企业品牌的人格化,和客户建立更人性化的情感纽带。

当然,目前数字人的应用还在早期,随着时间的推移,大家对数字人的认识越来越深,越来越多的数字人价值会被发现和释放。

数字人行业整体发展情况如何?

▌关键词:百舸争流,良莠不齐

追一数字人团队:今年可以看作是数字人的元年,需求渐渐起来,越来越多的厂商也在进入数字人领域,一些行业的领先公司已经开始应用数字人,可以说是百舸争流,群雄逐鹿。不过整个数字人市场还在发展的初级阶段,各家公司都在探索不同的落地场景,大家走的方向和路径也有所不同。

从是否具备双向交流能力来看,数字人可分为交互型和非交互型。交互型就是具备类似于人的沟通和互动能力,能实时与人双向交流,可以用在客户服务,教育培训,营销导购等互动式场景。非交互型主要是指按照事先设定好的内容和情境单向输出内容,比如数字人主播,或者电影和游戏中的数字人。数字人的呈现形式可分为真人形象, 仿真,和卡通类型。真人形象目前是2D为主,能做到对人的形象像素级还原,3D真人要做到实时驱动唇形,动作,表情,目前技术上可行度不高,而仿真和卡通类型可以做到3D。

其实数字人技术挑战是蛮大的,特别是交互型,需要在语义、语音、视觉、底层算法等领域都有足够的技术积累,但目前各家企业技术良莠不齐,满足这些条件的厂商不多。有些厂商做的demo看上去很炫酷,但是“新瓶装旧酒“, 到底有多少真材实料要打个问号,真正从算法层面上实现的不多。

相信随着时间的推移,有一批公司会被淘汰掉;有自己核心技术的,经过时间的验证,会留下来的。追一在业内率先对数字人做了预研,有着深厚的技术积累,商业落地也走在前面,我们对自己的产品是非常有信心的。

作为一种新兴的技术应用,虚拟数字人的难点在哪里?

▌关键词:表现力,算法,交互

追一数字人团队:相比语义、语音交互产品,数字人加入了视觉元素,需要一个逼真的形象,让用户能够有交互的沉浸感。怎么让数字人在与用户的交互中做到非常自然,比如说数字人的声音和形象要同步,嘴型、动作和表情要匹配,没有瑕疵,而且要在对话中实时推理完成的,这对算法和计算性能的要求非常高,是非常难的。实际上,数字人是从文本低维信号转变为图像高维信号的过程,只有同时具备自然语言理解(NLP)、语音识别和生成,视觉合成这样的整体AI能力,才能给用户一个自然逼真的体验。

从产品设计的角度上讲,数字人是一个类似于人与人之间面对面交互的产品,语义、语音、视觉的交互是同步进行的。在产品设计的时候,怎么去设计这套交互规范,让它们互相协同,是比较大的一个挑战,需要时间上的沉淀和系统化的思考,也需要在实际落地应用中持续积累和迭代。

在这方面我们也做了很多探索,目前我们通过智慧超脑和智能导演系统来尝试做一些突破。智慧超脑,顾名思义,相当于数字人的“大脑”,是核心中枢,它集合NLP、深度学习、强化学习等多种AI能力,连接海量知识库,经由智慧超脑的精密运算,数字人的会话意图准确率在95%以上,确保交互的准确性。智能导演系统是数字人的后台决策系统,通过综合调动各项AI能力,让数字人的声音、形象等要素协调统一,自然流畅。

追一的虚拟数字人有何特点?

▌关键词:全栈,逼真,全案

追一数字人团队:尽管市面上越来越多的厂商开始发力数字人产品,但追一在技术积淀、仿真程度、全案交付能力上有着明显优势。

数字人从算法到设计,再到工程化和集成环节是非常复杂的,需要对语音、语义、视觉三个不同方向的AI能力进行整合,这要求厂商有非常深厚的技术积淀。追一是做语义起家的,逐步发展到语音和视觉多模态技术,形成全栈AI的能力,尤其是数字人的核心“大脑”部分,主要是依赖NLP技术实现人与人的双向交互,而NLP正是我们的核心技术优势,这是许多厂商所不具备的。

数字人的表现力一直是难点。得益于我们多年来对算法的钻研与沉淀,目前已经能实现快速准确的实时推理,确保嘴唇和声音完美契合,肢体动作自然流畅,图像合成逼真拟人,再加上我们在模特选型方面也特别注重其亲和力,确保最终呈现的数字人栩栩如生,具有无限接近于真人的表现力。

全案交付能力上,追一是一家专注于To B企业级市场的厂商,在金融、电信运营商等领域有丰富经验,能够深刻理解客户的业务场景和需求,有能力打磨面向企业级的全套数字人解决方案,实现包括数字人的形象、大脑、载体在内的整体解决方案设计及交付。市面上多数厂商仅能提供非交互型数字人解决方案的时候,我们的方案就已经覆盖全场景(交互型和非交互型)和全类型(真人,仿真, 卡通)。全栈的AI技术能力也使我们能提供一站式解决方案,无需依赖第三方技术。

本文属于原创文章，如若转载，请注明来源：追一科技分享：九问虚拟数字人（上篇）https://pad.zol.com.cn/766/7660930.html