MiniCPM-V 4.5是什么
MiniCPM-V 4.5是面壁智能推出的端侧多模态模型,拥有8B参数。模型在图片、视频、OCR等多个领域表现卓越,尤其在高刷视频理解方面取得突破,能处理高刷新率视频并精准识别内容。模型支持混合推理模式,可平衡性能与响应速度。MiniCPM-V 4.5端侧部署友好,显存占用低,推理速度快,适合在车机、机器人等设备上应用,为端侧AI发展树立新标杆。

MiniCPM-V 4.5的主要功能
- 高刷视频理解:支持处理高刷新率的视频,精准识别快速变化的画面内容,例如在3秒的翻纸视频中识别出每张纸上快速变换的文字。
- 单图理解:在图片理解方面表现出色,能准确识别和分析图像中的物体、场景等信息,性能超越多个大型闭源模型。
- 复杂文档识别:能高效识别和解析复杂文档中的文字、表格等信息,包括手写文字和结构化表格提取。
- OCR功能:具备强大的光学字符识别能力,能准确识别图像中的文字内容,支持多种字体和排版。
- 混合推理模式:支持“长思考”与“短思考”模式,能进行深度分析,且支持快速响应,满足不同场景需求。
MiniCPM-V 4.5的技术原理
- 3D-Resampler高密度视频压缩:将模型结构从2D-Resampler拓展为3D-Resampler,对三维视频片段进行高密度压缩,实现在推理开销不变的情况下接收更多视频帧,达到96倍视觉压缩率,更好地理解动态过程。
© 版权声明
文章版权归作者所有,未经允许请勿转载。