课程 ID: 19281
描述:
话题概述:
以视频为载体,用户在快手平台分享自己的生活,广告主在平台推广自己的产品。视频素材表达力强,对用户更具吸引力,但如何将合适的广告素材推荐给合适的用户?如何让推荐系统读懂视频素材?团队基于多模态大模型,采用预处理+精准识别两阶段架构,基于创新性的MoM混合模型策略,去达成视频信息结构化提取的成本与准确率的平衡。在本次分享中,我们将详细介绍多模态素材识别过程中使用的预处理增强技术,包括预识别模型、RAG召回、联网检索等,以及多模型混合策略(MoM),摒弃单一模型架构,按任务动态路由——生成式任务用Dense模型,逻辑判别用Thinking模型抑制幻觉;简单样本走小模型、困难样本走大模型,并引入LoRA/SFT微调增强泛化,实现精度与成本的极致平衡。
演讲题纲:
一、背景介绍
二、效果优化的五个阶段
三、整体技术架构
四、MoM 混合模型策略
五、MoE 模型微调策略
六、建设成果
话题亮点:
1、“慧眼+外脑”预处理:利用小模型精准提取关键帧过滤噪音,解决ASR缺失难题;结合RAG检索增强与知识蒸馏,使7B小模型在核心字段准确率对标32B大模型,总体成本降低约60%。
2、MoM混合模型协作:摒弃单一模型架构,按任务动态路由——生成式任务用Dense模型,逻辑判别用Thinking模型抑制幻觉;简单样本走小模型、困难样本走大模型,并引入LoRA/SFT微调增强泛化,实现精度与成本的极致平衡。