Harness Engineering：阿里集团 AI 代码评审大规模应用的实践分享

课程 ID: 19232

描述:
话题概述: 随着 AI 飞速发展，写代码已不再是瓶颈，如何让代码到生产环境的交付过程更快、更智能、更安全，成为新的核心挑战。自动化代码评审与缺陷修复，是其中无法绕过的关键课题。自 2024 年起，我们团队在阿里集团内部探索 AI 代码评审的实践。历经两年，该系统已成为数万工程师的日常研发工具，累计拦截数百万真实代码缺陷，有效 AI 评论占比超 70%，基于此，我们开源了 Open Code Review —— 用户只需配置模型端点，即可快速集成到自己的研发环境。同时，我们联合南京大学研发效能实验室，共同开源了业界首个多语言、具备代码仓库上下文感知能力的评测基准 AACR-Bench，汇聚 80+ 资深工程师多轮交叉标注，为行业提供更权威的 AI 评审质量评估标准。本次分享将深入介绍大模型驱动的代码评审系统设计、工程化落地、效果度量与持续优化的实践经验，期望为业界在 AI 赋能软件工程质量保障领域提供有价值的参考。演讲题纲: 1. 如何让软件从代码到生产环境的整个交付过程变得更快、更智能、更安全？ 2. AI 代码评审在阿里内部的现状 3. 面对众多挑战，我们解决了哪些问题 4. Open Code Review 的设计与思考 4. AACR-bench 的设计与思考 5. 展望未来话题亮点： 1. 业界领先的大规模垂直领域 Agent 工程实践：阿里集团是业界最早将 AI 代码评审大规模落地的企业之一，覆盖集团内数万名开发者，积累了在特定领域（CodeReview）大规模应用中总结出的工程设计与模型训练的经验，并将其开源到社区。 2. 科学严谨的效果度量体系与 Benchmark 开源：自建了包含 2000+ 人工交叉标注样本、覆盖多语言、多类型、具备仓库上下文感知的 CodeReview 评测基准，结合线上开发者真实反馈构建了离线 + 在线闭环度量体系。