标签:[db:标签]

谷歌 Gemini 2.5 Flash 升级 AI 修图功能,多项表现优于 GPT-4o

8 月 27 日消息,科技媒体 The Decoder 昨日(8 月 26 日)发布博文,报道称谷歌 DeepMind 推出全新 Gemini 2.5 Flash 图像编辑模型,在 Gemini 应用中可根据...

一张图即可生成电影级数字人视频:阿里云通义万相 Wan2.2-S2V 视频生成模型宣布开源

8 月 26 日消息,今日晚间,阿里云宣布开源全新多模态视频生成模型通义万相 Wan2.2-S2V,仅需一张静态图片和一段音频,即可生成面部表情自然、口型一致、肢体...

英伟达发布 ConnectX-8 超级网卡:PCIe 6.0 接口,800 Gb/s 传输速度

8 月 26 日消息,英伟达今天发布了为 Blackwell 架构设计的 ConnectX-8 超级网卡,这张网卡的先进程度“远超传统网卡”,故被称为 SuperNIC“超级网卡”。据英伟...

《日经》《朝日》加入《读卖》行列:Perplexity AI 现遭日本三大媒体起诉

8 月 26 日消息,在《读卖新闻》本月上旬对 AI 搜索企业 Perplexity AI 发起版权诉讼后,另两家日本新闻巨头《日经新闻》《朝日新闻》当地时间今日也起诉了 P...

Same.New – AI全栈Web应用开发平台,支持网站UI克隆

Same.New是什么 Same.New 是创新的 AI 驱动全栈 Web 应用开发平台。通过简单的提示(如输入网站链接或描述)快速生成完整的 Web 应用代码,涵盖前端、后端和...

VibePPT – AI PPT制作工具,自动选择合适模板、布局

VibePPT是什么 VibePPT 是 AI 演示文稿制作工具,通过对话式交互,让用户能快速生成具有专业设计感的演示文稿。用户只需输入主题或内容,VibePPT能智能生成幻...

WhisperLiveKit – 开源AI语音识别工具,支持说话人识别

WhisperLiveKit是什么 WhisperLiveKit 是开源的实时语音识别工具,能将语音实时转录为文字,支持说话人识别。工具基于先进的技术如 SimulStreaming 和 Whispe...

SpatialLM 1.5 – 群核科技推出的空间语言模型

SpatialLM 1.5是什么 SpatialLM 1.5 是群核科技推出的强大的空间语言模型。模型基于大语言模型训练,能理解自然语言指令,输出包含空间结构、物体关系和物理...

SpatialGen – 群核科技开源的3D场景生成模型

SpatialGen是什么 SpatialGen 是群核科技开源的 3D 场景生成模型。模型基于扩散模型架构,支持根据文字描述、参考图像和 3D 空间布局,生成时空一致的多视角...

EchoMimicV3 – 蚂蚁集团推出的多模态数字人视频生成框架

EchoMimicV3是什么 EchoMimicV3是蚂蚁集团推出的高效多模态、多任务数字人视频生成框架。框架拥有13亿参数,基于任务混合和模态混合范式,结合新颖的训练与推...
1 3 4 5 6 7 126