标签:AI工具

VideoGrain – 悉尼科技大学和浙大推出的视频编辑框架

VideoGrain是什么 VideoGrain 是悉尼科技大学和浙江大学推出的零样本多粒度视频编辑框架,能实现类别级、实例级和部件级的精细视频修改。VideoGrain基于调节...

a0.dev – AI开发平台,自然语言输入快速生成 React Native 代码

a0.dev是什么 a0.dev 是基于 AI 技术的开发平台,专注于快速生成 React Native 应用。a0.dev 基于自然语言输入,自动生成完整的 React Native 项目代码,包括...

All Voice Lab – AI语音创作平台,提供一站式智能语音解决方案

All Voice Lab是什么 All Voice Lab(趣丸千音)是全球领先的AI语音创作平台,提供一站式智能语音解决方案,基于趣丸科技与香港中文大学(深圳)联合研发的Ma...

Scribe – ElevenLabs 推出的高精度语音转文本模型

Scribe是什么 Scribe 是 ElevenLabs 推出的高精度语音转文本模型,专为多语言和复杂音频环境设计。支持99种语言,英语和意大利语的转录准确率分别达到96.7%和...

IndexTTS – B 站推出的文本转语音模型,支持拼音纠正汉字发音

IndexTTS是什么 IndexTTS 是 B 站推出的工业级可控文本转语音(TTS)系统。基于 XTTS 和 Tortoise 模型开发,结合了 GPT 风格的生成技术,能将文本高效转化为...

Phi-4-Mini – 微软推出专注于文本任务的小型语言模型

Phi-4-Mini是什么 Phi-4-Mini 是微软 Phi-4 系列中最新推出的专注于文本任务的小型语言模型,参数量为 38 亿。基于密集的解码器-only Transformer 架构,结合...

R1-Onevision – 开源多模态视觉推理模型,基于 Qwen2.5-VL 微调

R1-Onevision是什么 R1-Onevision 是开源的多模态大语言模型,专注于复杂视觉推理任务。基于 Qwen2.5-VL 微调而成,通过整合视觉和文本数据,能精准地进行多...

Phi-4-Multimodal – 微软最新推出的多模态语言模型

Phi-4-Multimodal是什么 Phi-4-Multimodal 是微软最新推出的多模态语言模型,拥有 56 亿参数,能将语音、视觉和文本处理集成到一个统一架构中。模型在多个基...

Profiling Data – DeepSeek开源训练和推理框架的性能分析数据

Profiling Data是什么 Profiling Data是DeepSeek开源的训练和推理框架的性能分析数据,基于PyTorch Profiler捕获的程序运行过程中的详细信息,用在分析和优化...

麦琪的花园 – AutoGame 推出的AI沙盒冒险游戏

麦琪的花园是什么 麦琪的花园是深圳奥拓盖母(AutoGame)开发的AI沙盒冒险游戏,是全球首款将AI技术与沙盒玩法深度融合的游戏。玩家在游戏中扮演一位退休的勇...
1 107 108 109 110 111 400