多模态大模型落地快手广告:如何平衡精度与成本的MoM策略

课程 ID: 19281

描述:
话题概述: 以视频为载体,用户在快手平台分享自己的生活,广告主在平台推广自己的产品。视频素材表达力强,对用户更具吸引力,但如何将合适的广告素材推荐给合适的用户?如何让推荐系统读懂视频素材?团队基于多模态大模型,采用预处理+精准识别两阶段架构,基于创新性的MoM混合模型策略,去达成视频信息结构化提取的成本与准确率的平衡。在本次分享中,我们将详细介绍多模态素材识别过程中使用的预处理增强技术,包括预识别模型、RAG召回、联网检索等,以及多模型混合策略(MoM),摒弃单一模型架构,按任务动态路由——生成式任务用Dense模型,逻辑判别用Thinking模型抑制幻觉;简单样本走小模型、困难样本走大模型,并引入LoRA/SFT微调增强泛化,实现精度与成本的极致平衡。 演讲题纲: 一、背景介绍 二、效果优化的五个阶段 三、整体技术架构 四、MoM 混合模型策略 五、MoE 模型微调策略 六、建设成果 话题亮点: 1、“慧眼+外脑”预处理:利用小模型精准提取关键帧过滤噪音,解决ASR缺失难题;结合RAG检索增强与知识蒸馏,使7B小模型在核心字段准确率对标32B大模型,总体成本降低约60%。 2、MoM混合模型协作:摒弃单一模型架构,按任务动态路由——生成式任务用Dense模型,逻辑判别用Thinking模型抑制幻觉;简单样本走小模型、困难样本走大模型,并引入LoRA/SFT微调增强泛化,实现精度与成本的极致平衡。