课程 ID: 19232
描述:
话题概述:
随着 AI 飞速发展,写代码已不再是瓶颈,如何让代码到生产环境的交付过程更快、更智能、更安全,成为新的核心挑战。自动化代码评审与缺陷修复,是其中无法绕过的关键课题。
自 2024 年起,我们团队在阿里集团内部探索 AI 代码评审的实践。历经两年,该系统已成为数万工程师的日常研发工具,累计拦截数百万真实代码缺陷,有效 AI 评论占比超 70%,基于此,我们开源了 Open Code Review —— 用户只需配置模型端点,即可快速集成到自己的研发环境。同时,我们联合南京大学研发效能实验室,共同开源了业界首个多语言、具备代码仓库上下文感知能力的评测基准 AACR-Bench,汇聚 80+ 资深工程师多轮交叉标注,为行业提供更权威的 AI 评审质量评估标准。
本次分享将深入介绍大模型驱动的代码评审系统设计、工程化落地、效果度量与持续优化的实践经验,期望为业界在 AI 赋能软件工程质量保障领域提供有价值的参考。
演讲题纲:
1. 如何让软件从代码到生产环境的整个交付过程变得更快、更智能、更安全?
2. AI 代码评审在阿里内部的现状
3. 面对众多挑战,我们解决了哪些问题
4. Open Code Review 的设计与思考
4. AACR-bench 的设计与思考
5. 展望未来
话题亮点:
1. 业界领先的大规模垂直领域 Agent 工程实践:阿里集团是业界最早将 AI 代码评审大规模落地的企业之一,覆盖集团内数万名开发者,积累了在特定领域(CodeReview)大规模应用中总结出的工程设计与模型训练的经验,并将其开源到社区。
2. 科学严谨的效果度量体系与 Benchmark 开源:自建了包含 2000+ 人工交叉标注样本、覆盖多语言、多类型、具备仓库上下文感知的 CodeReview 评测基准,结合线上开发者真实反馈构建了离线 + 在线闭环度量体系。