标签:AI工具

Megrez-3B-Omni – 无问芯穹开源的端侧全模态理解模型

Megrez-3B-Omni是什么 Megrez-3B-Omni是无问芯穹推出的全球首个端侧全模态理解开源模型,能处理图像、音频和文本三种模态数据。Megrez-3B-Omni在多个主流测试...

ShowBiz AI – AI视频创作平台,从文案、分镜脚本、编辑的全流程AI赋能

ShowBiz AI是什么 ShowBiz AI 是当虹科技推出的专业级AI视频创作平台,基于BlackEye多模态视听大模型,专为视频创作而设计。ShowBiz AI具备文本转动画的能力...

YouMind – AI内容整理和创作平台,快速从网页、视频、播客等来源中提取信息

YouMind是什么 YouMind是AI驱动的内容整理和创作平台,支持用户从网页、视频、播客等多种来源中提取和保存信息,将信息转化为创意作品。YouMind基于Anthropic...

CosyVoice 2.0 – 阿里开源的语音生成大模型

CosyVoice 2.0是什么 CosyVoice 2.0 是阿里巴巴通义实验室推出的CosyVoice语音生成大模型升级版,模型用有限标量量化技术提高码本利用率,简化文本-语音语言...

Paperpal – AI英文论文写作工具,百万篇学术文献训练而成

Paperpal是什么 Paperpal是AI英文写作工具,集成了语言编辑、文本改写与生成、投稿检查等核心功能,基于经过数百万篇已发表学术文章训练的AI技术,提供实时、...

SnapGen – Snap联合港科大等机构推出的移动端文生图模型

SnapGen是什么 SnapGen是Snap Inc、香港科技大学、墨尔本大学等机构联合推出的文本到图像(T2I)扩散模型,能在移动设备上快速生成高分辨率(1024×1024像素)...

Freestyler – 西工大联合微软和香港大学推出的说唱乐生成模型

Freestyler是什么 Freestyler是西北工业大学计算机科学学院音频、语音与语言处理小组(ASLP@NPU)、微软及香港中文大学深圳研究院大数据研究所共同推出的说唱...

FreeScale – 无需微调的推理框架,提升扩散模型生成能力首次实现8K分辨率图像

FreeScale是什么 FreeScale是南洋理工大学、阿里巴巴集团和复旦大学推出无需微调的推理框架,提升预训练扩散模型生成高分辨率图像和视频的能力。FreeScale基...

k1 视觉思考模型 – kimi推出的 k1 系列强化学习模型

k1 视觉思考模型是什么 k1 视觉思考模型是kimi推出的k1系列强化学习AI模型,原生支持端到端图像理解和思维链技术,将能力扩展到数学之外的更多基础科学领域。...

PhonicMind – AI音乐处理平台,从任意歌曲中分离出人声,鼓,贝斯和其他乐器

PhonicMind是什么 PhonicMind是在线AI音乐处理平台,专注于从歌曲中提取和分离人声、乐器等音频元素。基于先进的AI技术,为用户提供精确的人声移除和音乐隔离...
1 206 207 208 209 210 400