6月27日,科技媒体NeoWin发布博文称,在去年I/O开发者大会上首次亮相后,谷歌正式推出了Gemma 3n端侧多模态模型。该模型能够在手机、平板和笔记本电脑等设备上本地运行,支持处理音频、文本、图片和视频等多种数据类型。
相较于5月发布的预览版本,此次推出的完整版Gemma 3n在性能表现方面有了显著提升,可在2GB内存的硬件设备上实现本地运行。特别是在编码能力和推理效率方面实现了优化升级。
据博文介绍,Gemma 3n提供两种规模版本:E2B和E4B。其中,E2B版本拥有50亿参数量,支持在内存为2GB以上的设备上运行;而E4B版本则包含80亿参数,适用于3GB以上内存的硬件环境。值得注意的是,通过架构上的创新设计,这两种规模的模型在内存占用方面分别相当于20亿和40亿参数模型的表现。
在技术架构层面,Gemma 3n采用了创新性的MatFormer结构,这种架构赋予了模型更强的计算灵活性。同时,该模型还引入了Per Layer Embeddings(PLE)技术以提升内存使用效率,并采用MobileNet-v5作为视觉编码器来优化性能表现。
关于MatFormer架构的特点,谷歌用一个形象的比喻进行了说明:就像俄罗斯套娃一样,较大的模型内部包含了一个较小但功能完整的子模型。这种设计使得单一模型能够根据不同任务需求以不同规模运行,从而实现了更高效的资源利用。
在具体应用能力方面,Gemma 3n展现了显著提升。特别是在多语言支持、数学计算、代码理解和推理分析等方面表现突出。目前该模型可支持140种语言的文本处理和35种语言的多模态理解。
从性能基准来看,E4B模型是首个参数量低于10亿却在LMArena测试中得分超过1300分的模型。这一成绩标志着端侧AI模型在性能与效率之间实现了更优平衡。
在音频处理方面,Gemma 3n新增了设备端语音转文本和实时翻译功能。通过采用专门设计的细致语音编码器,该模型能够更准确地捕捉和处理复杂声音信息。
视觉处理能力方面,Gemma 3n采用了全新的MobileNet-V5编码器。相比前代产品,这一编码器不仅运行速度更快、效率更高,还能在谷歌Pixel设备上实现60FPS的视频处理效果。