日程 › Agentic AI 愿景与软件工厂 › 纪要

蚂蚁 Agentic AI 基建挑战和实践

余锋(褚霸)
蚂蚁集团超级计算部负责人、基础设施技术委员会主席
主题一 Agentic AI 愿景与软件工厂⏱ 10:00–10:10🎙 12 分钟现场录制
📊 信息图 · 一图读懂🎙 12 分钟 · 8 章节 · 9 关联实体
李春介绍自身从业经历后,阐述了 Infa 在 AI 时代面临的挑战,包括计算模式转变、基建约束、成本压力和监管压力等
成本压力:如 10 万张卡成本达 100 亿,支持用户规模的增加会带来巨大成本
个人背景与视角
从业经历:李春在阿里体系的 UF 工作 16 年,从业近 30 年,97
AI 时代计算模式变化
支付业务计算特点:蚂蚁支付业务单笔支付时间短,成本低,算力消耗少,过去采
Infa 面临的挑战
技术与经验冲突:过去的经验和做法在新的 AI 时代不成立,Infa 在
使用 AI 面临的问题
适配成本高
应对策略与工作重点
成本控制:将降低成本作为首要任务,因为涉及百亿、千亿级别的资金,成本降不

智能纪要 (第 1 段,4 分钟)

李春介绍自身从业经历后,阐述了 Infa 在 AI 时代面临的挑战,包括计算模式转变、基建约束、成本压力和监管压力等内容如下:

  • 个人背景与视角
      • 从业经历:李春在阿里体系的 UF 工作 16 年,从业近 30 年,97 年毕业。目前从 Infa 角度关注整体 AI 的发展。
      • 角色职责:身为蚂蚁超算计算人员及基础设施委员会主席,负责规划未来发展方向。
  • AI 时代计算模式变化
      • 支付业务计算特点:蚂蚁支付业务单笔支付时间短,成本低,算力消耗少,过去采用弹性计算容器将大算力切成小的以降低成本。
      • AI 时代计算模式:AI 时代将小的卡整合为机柜(超级节点),再组成超级集群并放置各种服务,与过去模式相反。
  • Infa 面临的挑战
      • 技术与经验冲突:过去的经验和做法在新的 AI 时代不成立,Infa 在 AI 发展中相对滞后。
      • 基建约束:蚂蚁业务对基建要求稳定,强调金融与可信,数据安全是生命线,支付不可靠会面临监管问题。
      • 成本压力:如 10 万张卡成本达 100 亿,支持用户规模的增加会带来巨大成本。
      • 监管压力:监管技术手段增强,从大厂挖人,对 Infa 形成较大压力。

章节速览

00:06AI时代蚂蚁基建挑战与Infa面临的压力
本章节中,李春介绍自己在阿里体系干了16年,从业近30年,将在10分钟内解释背“拖后腿”锅的原因。他指出蚂蚁支付算力成本低,AI时代做法与过去相反。同时提到蚂蚁基建受稳定、金融可信等约束,还要面对亿级用户成本高、监管技术手段强等挑战,如10万张卡成本达100亿。

智能纪要 (第 2 段,8 分钟)

音频主要探讨了使用 AI 后企业面临的诸多问题及应对策略,内容如下:

  • 使用 AI 面临的问题
      • 适配成本高
          • 国产适配复杂:从芯片到集群的完整过程耗时约一年,且国产环境下各环节适配割裂,需多支团队协作,涉及五六百个任务,导致时间和金钱成本大幅增加。
          • 算力电力制约:AI 的电力消耗是一大制约因素,不解决此问题会影响整体运作。
      • 架构演进困难
          • 架构延续性差:蚂蚁有 20 年历史,早期以通用 CPU 为主,后模型独立训练,但推理时 GPU 与 CPU 部署困难,导致通讯次数增多、成本加剧,架构不延续。
          • 基础设施压力大:GPU 主角的切换给基础设施演进带来巨大压力,如机房迁移需数年时间,期间成本高昂。
      • 支付链路问题:支付链路长,各环节易出问题,导致失败率增加,金融回款和补偿困难,如数据库曾花费 7 年解决最后一秒数据丢失问题。
      • 安全合规成本高
          • 监管成本增加:金融业务的安全合规是奢侈品,监管成本高,且无法单纯靠金钱解决,需完善后再上线。
          • 数据隐私限制:因监管要求,隐私数据高度隔离,大规模上线存在风险,需谨慎推进。
  • 应对策略与工作重点
      • 成本控制:将降低成本作为首要任务,因为涉及百亿、千亿级别的资金,成本降不下来工作无法开展。
      • 安全生产:借助英保完善安全生产工作,确保监管和 CEO 认可,避免因合规问题遭受重大损失。
      • 体系构建:从 CPU 时代以虚拟机或容器为单位构建系统,到 AI 时代以模型为单位,再到 agentic 时代以 agent 体系为单位构建系统和方法论,已进行约两年的 agentic 体系构建工作。

章节速览

00:00芯片国产化适配成本高及算力电力消耗问题
本章节说话人1提出三个关键问题。一是某问题若不解决事情无法开展;二是蚂蚁相关要国产化,从芯片到集群搭建需一年,过程复杂,涉及多团队协作,适配时间产生大量时间和金钱成本,加大单位token成本;三是AI算力的电力消耗是较大制约因素,不解决会很麻烦。
01:47蚂蚁架构演进难题及支付链路失败补偿问题
本章节主要讨论了蚂蚁架构的可演进问题。蚂蚁有20年历史,早期用通用CPU,后模型训练较独立,但推理时GPU与CPU部署遇难题,导致通讯次数增多、成本加剧、架构不延续。AI发展使GPU角色切换,给基础设施演进带来巨大压力。支付链路长易出问题,金融回款补偿复杂,如数据库需解决数据丢失补偿问题。
04:06金融业务安全合规成本高制约企业AI效率
本章节主要探讨了安全合规问题对企业效率的影响。安全合规在金融业务中成本极高,是一种“奢侈品”,监管成本也非常高,原本预计短时间完成的工作可能耗时很久。使用AI后企业效率并未提高,原因在于英法相关的合规问题绕不过去,这些问题是企业发展的最大约束。
05:18数据基建受监管,项目需完善细化再上线
本章节指出数据基建因监管要求,隐私数据高度隔离,若隐私数据外流可能会失去牌照。强调在英法方面,这不是钱能解决的问题,而是真实存在的难题。提出解决办法是将相关内容做完善、做细致后再上线,而非单纯靠花钱解决。
05:53服务一级用户大规模上线的挑战与策略
本章节主要讨论了服务一级用户时规模巨大的情况。做POC、写代码仅占事情的百分之二三十,剩下70%是大规模上线工作。大家对上线agent缺乏经验,且大规模上线不允许失败或出大问题,否则会面临监管。因此策略应是慢慢上线、灰度推进,同时要保证系统可靠运行,这是很大的负担。
06:47解决事情优先级:降成本与完善安全生产
本章节说话人1提出解决事情的优先级有三个。首要的是降低成本,因涉及百亿、千亿级别的资金,成本降不下来事情无法开展;其次是做好安全生产,需英保帮忙完善相关工作,以避免监管或CEO的问责,否则难以在市场立足。
07:24不同时代系统构建单位及两年agentic体系成果
本章节说话人1指出不同时代构建系统的单位不同,CPU时代以虚拟机或容器为单位,AI时代以模型为单位,agentic时代以agent的体系为单位构建整个体系和方法论。还表示团队做了约两年agentic体系,将其当成中间件按体系构建,最后因时间关系结束发言。

现场幻灯片 · 1 张

📷 参会者现场拍摄的演讲幻灯片 · 点击放大翻看(支持 ← → ↑ ↓ 键、滑动、自动播放 ▶)。为保护隐私,画面中的人脸已自动打码;按拍摄归集,个别可能串场。

本场涉及 · 知识库

以上为飞书妙记 AI 自动生成的纪要与章节摘要,可能存在识别误差,仅供参考。
← AI Dev 方法与实践全球智能体产业发展与亚信本土实践 →