AI工具

Moshi – 法国AI实验室Kyutai开发的实时音频多模态模型

Moshi是什么 Moshi是由法国的的人工智能研究实验室Kyutai推出的一款端到端实时音频多模态AI模型,拥有听、说、看的能力,并能模拟70种不同的情绪和风格进行交...

Fish Speech – 开源的高效文本到语音合成TTS工具

Fish Speech是什么 Fish Speech是一款由Fish Audio开源的文本到语音(TTS)工具,支持中文、英文和日文。通过约15万小时的多语种数据训练,实现了接近人类水...

FreeAskInternet – 免费开源的本地AI搜索引擎

FreeAskInternet是什么 FreeAskInternet是一个免费开源的本地AI搜索引擎,整合了GPT-3.5等先进的大型语言模型(LLM)和SearXNG元搜索引擎,为用户提供搜索和...

MimicMotion – 腾讯推出的AI人像动态视频生成框架

MimicMotion是什么 MimicMotion是腾讯的研究人员推出的一个高质量的人类动作视频生成框架,利用置信度感知的姿态引导技术,确保视频帧的高质量和时间上的平滑...

Gemma 2 – 谷歌DeepMind推出的新一代开源人工智能模型

Gemma 2是什么 Gemma 2是谷歌DeepMind推出的新一代开源人工智能模型,包含90亿和270亿参数版本。该模型以卓越的性能、高效的推理速度和广泛的硬件兼容性为特...

CriticGPT – OpenAI推出的识别GPT输出代码错误的模型

CriticGPT是什么 CriticGPT是OpenAI发布的一个新型人工智能模型,基于GPT-4构建,专门用于审查和识别大型语言模型(如ChatGPT)生成的代码中的错误。CriticGP...

MOFA-Video – 腾讯开源的可控性AI图生视频模型

MOFA-Video是什么 MOFA-Video是由腾讯AI实验室和东京大学的研究人员开源的一个可控性的图像生成视频的模型,该技术利用生成运动场适应器对图像进行动画处理以...

Toucan TTS – 免费开源的文本转语音工具,支持超7000种语言

Toucan TTS是什么 Toucan TTS是由德国斯图加特大学自然语言处理研究所(IMS)开发的文本到语音合成工具箱,支持超过7000种语言,包括多种方言和变体。Toucan ...

ExVideo – 阿里和华东师大推出的AI视频长度扩展调优技术

ExVideo是什么 ExVideo是由阿里巴巴和华东师大的研究人员推出的一种视频合成模型的后调优技术,能够扩展现有视频合成模型的时间尺度,以生成更长和帧数更多的...

Diffutoon – 阿里推出的AI将视频转卡通风格的框架

Diffutoon是什么 Diffutoon是由阿里巴巴和华东师大的研究人员推出的一个将视频转换为卡通动漫风格的AI框架,基于扩散模型的可编辑卡通着色技术,能够将真实感...
1 498 499 500 501 502 517