Gemma 3n是什么

Gemma 3n 是谷歌 I/O 开发者大会推出的端侧多模态 AI 模型。基于 Gemini Nano 架构,采用逐层嵌入技术,将内存占用压缩至 2-4B 参数模型水平。模型参数量分别为 5B 和 8B,内存占用仅相当于 2B 和 4B 模型。Gemma 3n 支持文本、图像、短视频和音频输入,可生成结构化文本输出。新增的音频处理能力,能实时转录语音、识别背景音或分析音频情感。可通过 Google AI Studio 直接在浏览器中使用。

Gemma 3n – 谷歌推出的端侧多模态AI模型插图

Gemma 3n的主要功能

  • 优化的端侧性能与效率:Gemma 3n 在移动设备上的响应速度比 Gemma 3 4B 提升约 1.5 倍,通过每层嵌入(PLE)、KVC 共享、高级激活量化等技术,实现了更小的内存占用。
  • 多模态输入支持:支持文本、图像、音频和视频的理解处理,能够处理复杂的多模态交互。
  • 隐私优先与离线可用:所有计算都在本地设备上完成,无需联网,数据不会离开设备,保障用户隐私。
  • 灵活的模型架构:基于 MatFormer 架构,内嵌一个先进的 2B 子模型,可根据需求动态切换性能和质量。
  • 多语言支持:支持超过 140 种语言,在日语、德语、韩语、西班牙语和法语等语言上有出色表现。
  • 32K 令牌上下文窗口:能处理长达 32,000 个单词或符号的输入,适合处理长文本。

Gemma 3n的技术原理

  • 基于 Gemini Nano 架构:Gemma 3n 继承了 Gemini Nano 的轻量化架构,专为移动设备优化。通过知识蒸馏和量化感知训练(QAT),在保持高性能的同时大幅降低资源需求。
  • 逐层嵌入技术:采用逐层嵌入(Per-Layer Embeddings,PLE)技术,显著降低了模型的内存需求。模型的原始参数量分别为 5B 和 8B,内存占用仅相当于 2B 和 4B 模型,只需 2GB 或 3GB 的动态内存即可运行。
  • 多模态融合:结合了 Gemini 2.0 的分词器和增强的数据混合,支持 140 多种语言的文本和视觉处理,覆盖全球用户需求。
  • 局部/全局层交错设计:采用 5:1 的局部/全局层交错机制,每 5 层局部层后接 1 层全局层,以局部层作为模型的第一层开始计算。有助于减少长上下文时 KV 缓存爆炸问题。

Gemma 3n的项目地址

  • 项目官网:https://deepmind.google/models/gemma/gemma-3n/

Gemma 3n的应用场景

  • 语音转录与情感分析:能实时转录语音、识别背景音或分析音频情感,适用于语音助手和无障碍应用。
  • 内容生成:支持在手机上生成图像描述、视频摘要或语音转录,适合内容创作者快速编辑短视频或社交媒体素材。
  • 学术任务定制:开发者可用 Gemma 3n 的微调功能,在 Colab 上为学术任务定制模型,如分析实验图像或转录讲座音频。
  • 低资源设备:专为低资源设备设计,仅需 2GB RAM 即可在手机、平板和笔记本电脑上流畅运行。
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。