2024年6月15日,元卓学堂邀请飞影数字人算法负责人李若冰,分享数字人最新技术和应用场景。李若冰担任飞影数字人合伙人及算法负责人,曾任职科大讯飞研究院、英语流利说算法部等,在ACL、NAACL、Interspeech等会议发表多篇论文。
本次活动介绍了数字人的发展现状,以及现阶段数字人的优势和不足,帮助教师提升个人数字素养,获得如何利用数字人技术解决现有教学局限的启发,如个性化教学、使用教师分身、虚拟助手进行课后辅导等,同时了解如何利用数字人进行远程教学或自媒体运营,打破地理和时间限制,使优质教育资源得以更广泛的传播。
一、数字人的发展现状
李若冰老师首先概述了数字人技术的发展,从最初的图片数字人到2D视频数字人,再到高精度建模数字人,技术不断进步,应用场景也越来越广泛。图片数字人通过算法将静态图片转化为动态动画,而2D视频数字人则利用视频素材实现嘴型同步。高精度建模数字人技术通过复杂的建模过程,实现了更为逼真和多角度的视觉效果,不过此技术成本也较高。
二、数字人的主要技术
李若冰老师接着介绍了数字人制作中的关键技术。其中,口型同步技术通过深度学习模型训练,能够实现音频与口型的精确匹配,主要涉及的技术是Wav2lip。创建高质量的数字人图像常会用到Diffusion方法。Temporal Attention机制则用于解决视频帧之间的连贯性问题,确保动画的流畅性。
三、如何快速制作一个数字人
在数字人快速制作环节,李若冰老师首先阐释了数字分身的概念,并演示了从图片的上传,到声音的复刻,再到通过文本或音频驱动数字人生成逼真的口型和表情的全过程。在此过程中,李老师特别强调了深度学习模型和Temporal Attention机制在保障数字人自然度及视频流畅连贯性上的关键作用。
四、数字人的应用场景
李若冰老师详细介绍了数字人的应用场景,特别是在教育领域的多种用途。数字人可以作为教师的虚拟助手,进行课程讲解和互动问答,提高学生的学习兴趣和参与度。此外,数字人也被用于知识付费内容的制作、直播带货以及个人品牌的打造等。
本次分享探讨了数字人在教育、商业以及个人IP建设中的广泛应用,着重强调了它在增强教学互动性、提升知识传播效率以及塑造个性化品牌等方面的巨大潜力。