蚂蚁多模态大模型研发实践

课程 ID: 19206

描述:
话题概述: 近年来多模态大模型从“插件式拼接”向原生全模态统一架构演进，实现文本、图像、音视频的实时、闭环、跨场景智能体化。蚂蚁集团自研的百灵多模态大模型（Ming）专注于原生全模态的理解与生成，实现文本、图像、音频、视频的统一表征与处理。在 Hugging Face、GitHub 及魔搭（ModelScope）上开源了 Ming 系列的权重和推理代码。Ming-lite-omni是开源领域首个对标Gemini的全模态模型，Ming-flash-omni-preview成为开源领域首个千亿级全模态模型演讲题纲: 1. 蚂蚁百灵大模型家族介绍，以及蚂蚁大模型技术栈和应用； 2. 蚂蚁多模大模型技术演进及开源； 3. 蚂蚁多模态大模型技术创新及应用；话题亮点： 1. 统一的全模态架构，Ming 系列模型采用了统一的 Transformer 架构，通过专用的编码器（Encoders）提取不同模态的 Token，并利用 Modality-specific Routers（模态特定路由）在 MoE 网络中流转，实现了理解（Perception）与生成（Generation）的端到端统一。 2. 全场景的语音生成，突破了传统 TTS 的局限，首次将语音、背景音和音乐融合在同一个生成流中。能够通过自然语言指令精细控制音色、语速、语调、情感甚至方言（如粤语、四川话、湖南话等）。 3. 引入了生成式分割（Generative Segmentation），不仅能支撑像素级理解，还能实现高一致性的图像编辑和 ID 保持。