Character.AI创新:AI角色实时视频互动解决方案

AI资讯2个月前发布
15 0

7月5日,AI聊天机器人平台Character.AI发布重要研究成果和视频演示,推出名为TalkingMachines的自回归扩散模型,这一创新技术显著提升了AI角色之间的互动真实感。

尽管该技术尚未在Character.AI平台上实际部署,但研究显示,用户只需提供一张图片和声音信号,TalkingMachines即可生成实时的视觉互动效果,实现类似FaceTime的通话体验。

TalkingMachines基于先进的Diffusion Transformer(DiT)技术,这种创新方法能够从随机噪声中逐步生成高质量图像,并不断优化直至达到理想状态。Character.AI团队成功将这一过程提速至实时效果,为用户带来流畅的互动体验。

Character.AI创新:AI角色实时视频互动解决方案

该模型整合了多项尖端技术,包括流匹配扩散(Flow-Matched Diffusion)音频驱动的交叉注意力(Audio-Driven Cross Attention)稀疏因果注意力(Sparse Causal Attention)不对称蒸馏(Asymmetric Distillation),这些技术共同作用,显著提升了AI角色的表现能力。

其中,流匹配扩散技术通过训练大量动作数据,涵盖细致的面部表情和夸张的手势,使AI角色的动作更加自然流畅。而音频驱动的交叉注意力技术,则让AI能够解析语音中的节奏、停顿和语调,并将其转化为精确的口型同步、点头和眨眼等微表情。

Character.AI创新:AI角色实时视频互动解决方案

稀疏因果注意力技术优化了视频帧的处理效率,而不对称蒸馏技术则实现了视频的实时生成,为用户提供接近真实FaceTime通话的沉浸式体验。

Character.AI创新:AI角色实时视频互动解决方案

Character.AI强调,这项研究不仅是面部动画技术的突破,更是向实时互动式音频视觉AI角色迈进的重要一步。该模型支持真实人类、动漫风格和3D虚拟形象等多种表现形式。

Character.AI创新:AI角色实时视频互动解决方案

参考地址

  • GitHub 项目页面

  • TalkingMachines: Real-Time Audio-Driven FaceTime-Style Video via Autoregressive Diffusion Models

© 版权声明

相关文章