Voila – 开源端到端语音大模型,实现低延迟语音对话
Voila是什么 Voila 是开源的端到端语音大模型,专为语音交互而设计。具备高保真、低延迟的实时流式音频处理能力,能直接处理语音输入并生成语音输出,为用户...
ReasonIR-8B – Meta AI 推出专为推理密集型检索任务设计的模型
ReasonIR-8B是什么 ReasonIR-8B 是 Meta AI 推出的专为推理密集型检索任务设计的模型。基于 LLaMA3.1-8B 训练,采用双编码器架构,将查询和文档分别编码为嵌...
ACE-Step – ACE Studio联合阶跃星辰开源的音乐生成基础模型
ACE-Step是什么 ACE-Step 是 ACE Studio 和 StepFun 联合推出的开源音乐生成基础模型,基于创新的架构设计实现高效、连贯且可控的音乐创作。ACE-Step结合扩散...
3DV-TON – 阿里达摩院联合浙大等推出的视频虚拟试穿框架
3DV-TON是什么 3DV-TON(Textured 3D-Guided Consistent Video Try-on via Diffusion Models)是阿里巴巴达摩院、湖畔实验室和浙江大学联合推出的基于扩散模...
Text2CAD – AI辅助设计平台,将文本描述设计要求转为高精度CAD模型
Text2CAD是什么 Text2CAD 是创新的在线平台,通过人工智能技术将自然语言描述快速转化为专业 CAD 模型。用户只需用简单的语言描述设计想法,如尺寸、形状和功...
Omni Reference – Midjourney V7推出的图像参考功能
Omni Reference是什么 Omni Reference 是 Midjourney 推出的全能参考功能,支持用户将特定的人物、物体或场景从参考图像中嵌入到生成的图像中。Omni Referenc...
Pixelfox – 免费AI图片编辑工具,支持AI背景移除、换脸、增强等功能
Pixelfox是什么 Pixelfox 是免费的在线图片编辑工具,基于AI技术简化图片编辑过程。Pixelfox 提供多种功能,如背景移除、对象移除、图片增强、AI 修复、换脸...
KeySync – 帝国理工联合弗罗茨瓦夫大学推出的口型同步框架
KeySync是什么 KeySync 是帝国理工学院和弗罗茨瓦夫大学推出的用在高分辨率口型同步框架,支持将输入音频与视频中的口型动作对齐。KeySync 基于两阶段框架实...
Cobra – 清华、港中文和腾讯开源的漫画线稿上色框架
Cobra是什么 Cobra(Efficient Line Art COlorization with BRoAder References)是清华大学、香港中文大学和腾讯ARC实验室推出的漫画线稿上色框架,专为高精...
T2I-R1 – 港中文联合上海AI Lab推出文生图模型
T2I-R1是什么 T2I-R1 是香港中文大学和上海AI Lab联合推出的新型文本生成图像模型。基于引入双层推理机制,语义级链式思维(CoT)和 Token 级 CoT,实现高层...