lance: 从数据湖到记忆湖

课程 ID: 19288

描述:
话题概述: 随着大模型、RAG 和 Agent 应用的深入演进,企业对数据基础设施的要求正在从传统数据湖转向 AI 原生的多模态数据湖。过去,文本、图片、视频、音频、Embedding、标注、特征和索引往往分散在对象存储、Parquet 表、向量数据库和各类离线脚本中,带来了数据重复、版本不可追溯、检索链路复杂、实验复现困难等问题。Lance 作为面向 AI/ML 工作负载设计的开放多模态 Lakehouse 格式,提供了高性能随机访问、原生向量索引、全文检索、零拷贝数据演进、对象存储支持和数据版本管理能力,正在成为构建 AI 多模态数据湖的重要标准方案之一。 本次分享将围绕“从数据湖到记忆湖”的实践展开,介绍我们如何基于 Lance/LanceDB 统一管理原始多模态数据、元数据、Embedding、索引和版本,并在同一套数据底座上支撑数据治理、混合检索、RAG 和 Agent 长期记忆等场景。分享内容将从 Lance 的技术背景、多模态数据湖架构设计、Embedding 与索引管理、版本回溯、以及 Agent Memory 的落地方式等方面展开,同时结合实践中遇到的数据同步、检索性能、数据演进和工程复杂度问题,讨论 Lance 在 Agent Infra 中逐步成为“记忆湖”基础组件的原因。目前该方案已在多模态数据管理和智能应用检索场景中完成验证,能够有效减少多系统同步成本,提升数据迭代、检索和复用效率,为后续构建可持久化、可检索、可演进的 Agent 记忆体系提供基础。 演讲题纲: 1. 为什么 AI 应用需要新的数据湖 从 RAG、Agent 和多模态模型的实际开发出发,说明传统“对象存储 + Parquet + 向量库 + 脚本”的组合为什么会带来数据复制、索引割裂和版本不可追溯的问题。 2. Lance 如何成为多模态数据湖底座 介绍 Lance 如何把文本、图片、视频、音频、Embedding、标注和元数据放在同一张表中,并通过随机访问、向量索引、全文检索和版本管理支撑 AI 数据管理。 3. 火山 Lance 数据湖的实践形态 介绍火山 lance 多模态数据湖的最佳实践,覆盖检索,训练以及各种多模态数据场景 4. 从AI 数据湖到 Agent 记忆湖 介绍 Agent 记忆如何沉淀为用户交互、工具调用、文档片段、多模态资产、Embedding 和反馈数据,并基于 Lance/LanceDB 实现长期记忆检索。 话题亮点: 1. 从 AI 多模态数据湖视角系统介绍 Lance,讲清楚它相比传统 Parquet、对象存储和独立向量库方案的核心优势。 2. 展示如何用 Lance/LanceDB 统一管理原始多模态数据、Embedding、元数据、索引和版本,减少多系统同步和数据重复建设成本。 3. 结合 RAG 与 Agent 场景,介绍“记忆湖”的架构思路:让长期记忆具备可持久化、可检索、可回溯、可演进的能力。 4. 分享 Lance 在 Agent Infra 中的实践路径,包括混合检索、版本管理、数据演进和多模态记忆管理等关键工程问题。