Lakebase:基于 Milvus 构建 AI 原生数据平台的架构与实践

课程 ID: 19154

描述:
话题概述: 随着大模型和 AI Agent 的快速发展,数据基础设施正在经历新的演进。传统数据平台(Data Warehouse / Data Lake / Lakehouse)主要面向结构化数据和 BI 分析设计,而 AI 应用需要处理的是 embedding 向量、多模态数据(文本、图片、视频等)以及语义检索驱动的数据管道。在实际生产中,RAG、Agent 等 AI 系统不仅需要低延迟向量检索和复杂 metadata filtering,还需要对海量数据进行去重、聚类以及特征工程,以提升模型质量与检索效果。 本次分享将介绍 Lakebase —— 一个面向 AI 时代的数据平台架构,并重点分享 Milvus 在 AI 数据基础设施中的核心作用。Lakebase 通过融合向量数据库与 Lakehouse 架构,实现对 结构化数据、向量数据和多模态数据的统一管理,并支持数据去重、聚类与 feature engineering 等 AI 数据生产流程。该架构已在真实生产环境中落地,支持 亿级到十亿级 embedding 数据规模和低延迟语义检索,为 RAG、Agent 等 AI 应用提供稳定的数据基础设施。 演讲题纲: 1. 传统 Data Warehouse 与 Vector Database 的局限性 2. Lakebase:AI 原生数据平台架构 3. Vector Lakebase 的生产实践场景 4. AI 数据平台的未来演进 话题亮点: 1️⃣ 提出 AI 原生数据平台(AI-Native Data Platform)架构 分享如何从传统 Lakehouse 演进到同时支持向量、结构化数据和多模态数据的 AI 数据平台。 2️⃣ 向量数据库与 Lakehouse 架构的融合实践 介绍如何将向量检索能力与数据湖生态(如 Spark、Iceberg 等)结合,构建统一的数据基础设施。 3️⃣ 真实生产规模案例 分享支撑 亿级到十亿级 embedding 数据规模的 AI 应用实践,包括 RAG、AI Agent 和多模态检索场景。 4️⃣ 多模态 AI 数据架构设计经验 如何管理文本、图片、视频等多模态数据以及 embedding pipeline。