讯飞智作首发超拟人数字人：一张照片即可定制自己的专属形象

　　超拟人数字人重磅发布!10月24日，第七届世界声博会暨科大讯飞全球1024开发者节在合肥奥体中心拉开帷幕。开幕式上，科大讯飞公开展示其多模态视觉交互技术和超拟人数字人能力，引发行业热潮。

　　讯飞智作超拟人数字人：一张照片即可定制自己的专属形象

　　大模型的加持，引领数字人行业的进一步发展。发布的超拟人数字人，不仅在口唇、表情、动作上更为灵活自然，在制作模式上，更是仅需一张照片即可完成形象的定制，进一步降低了数字人的应用门槛。

　　01

　　仅需一张照片，持续降低数字人应用门槛

　　当下，科大讯飞星火大模型正在各行业应用，其中，与数字人的结合是热门方向。在讯飞旗下一款AIGC内容创作平台讯飞智作上，我们可以看到有四百多个公版形象，从带有民族风味的文旅形象到端庄大气的大会主持，这些数字人被应用于各行各业。但当前定制数字人仍需较为繁琐的拍摄流程且对定制者本身的面部表情和动作表达有着非常高的要求。如何让更多的人使用个性化的数字形象，这也是科大讯飞虚拟人业务一直探索的方向。

　　在活动现场，科大讯飞研究院院长刘聪为大家展示了自己用一张照片生成的超拟人数字人。这种仅需上传一张照片的操作极大简化了数字人定制对于预设素材的要求，减少了用户的操作路径。这种能力的进步进一步降低数字人的使用门槛与成本，对于数字人应用各行业都具有重要意义。

　　讯飞智作超拟人数字人：一张照片即可定制自己的专属形象

　　02

　　情感贯穿的多模态交互，让情感表达极大提升

　　随着大模型技术赋能数字人飞速发展，当下诸多应用场景对定制数字人提出了更高的要求。

　　数字人的表情反馈开始被越来越多的人关注，那如何实现实时匹配语音内容和情感?讯飞智作给出答案——情感贯穿的多模态交互。

　　此前定制数字人需要进行拍摄数据采集，数字人的表情和动作大多依赖预设资源。基于此，讯飞超拟人数字人采用了情感贯穿的多模态交互。情感贯穿让数字人能够根据上下文实时调整表情。这样，数字人的表情不仅是口唇同步，还能够自然反映语境中的情绪波动，实现更贴近真人的情感表达。让数字人告别单一的面部表现，让其情感表达急速提升。

　　讯飞智作超拟人数字人：一张照片即可定制自己的专属形象

　　03

　　摆脱预设模板动作，让动作借助语义自然驱动

　　在此次1024开发者节上，超拟人数字人在肢体动作驱动方面也带来了技术创新，其肢体动作能够根据语音的节奏、语调和内容实时生成。通常情况下，传统的数字人动作驱动需要依赖预先录制的模板动作，在与语音匹配时调用此前的模版动作来同步数字人肢体，但这种方式在一定程度上会局限数字人肢体的更多表现。

　　讯飞智作超拟人数字人：一张照片即可定制自己的专属形象

　　此次讯飞的超拟人数字人基于多模扩散生成大模型，让生成式肢体动作突破动作预设模版。数字人的动作能够与语音内容自然匹配，这一突破极大提升了数字人在动态场景中的表现力，增强交互的拟人化程度。

　　04

　　中间表征压缩技术，提升多场景下实时交互能力

　　视频生成模型效率一直是业界持续探索的难题，在数字人不断加速落地多元场景下，数字人视频生成的实时性也决定了数字人技术能否在交互场景中的有效使用。如在银行场景中，数字人扮演网点营业员的工作任务要求其需要极高的实时交互能力，这不仅会影响业务处理效率还会对客户体验产生直接影响。

　　而这次的讯飞超拟人数字人采用了动作表征抽取技术，将语音和文本输入转化为紧凑的中间表征，将视频维度进行了有效压缩，从而大幅减少视频计算量，让数字人快速生成表情和动作，保障了数字人与用