课程 ID: 19206
描述:
话题概述:
近年来多模态大模型从“插件式拼接”向原生全模态统一架构演进,实现文本、图像、音视频的实时、闭环、跨场景智能体化。蚂蚁集团自研的百灵多模态大模型(Ming)专注于原生全模态的理解与生成,实现文本、图像、音频、视频的统一表征与处理。在 Hugging Face、GitHub 及魔搭(ModelScope)上开源了 Ming 系列的权重和推理代码。Ming-lite-omni是开源领域首个对标Gemini的全模态模型,Ming-flash-omni-preview成为开源领域首个千亿级全模态模型
演讲题纲:
1. 蚂蚁百灵大模型家族介绍,以及蚂蚁大模型技术栈和应用;
2. 蚂蚁多模大模型技术演进及开源;
3. 蚂蚁多模态大模型技术创新及应用;
话题亮点:
1. 统一的全模态架构,Ming 系列模型采用了统一的 Transformer 架构,通过专用的编码器(Encoders)提取不同模态的 Token,并利用 Modality-specific Routers(模态特定路由) 在 MoE 网络中流转,实现了理解(Perception)与生成(Generation)的端到端统一。
2. 全场景的语音生成,突破了传统 TTS 的局限,首次将语音、背景音和音乐融合在同一个生成流中。能够通过自然语言指令精细控制音色、语速、语调、情感甚至方言(如粤语、四川话、湖南话等)。
3. 引入了生成式分割(Generative Segmentation),不仅能支撑像素级理解,还能实现高一致性的图像编辑和 ID 保持。