AI 原生时代的云计算

本文介绍: 本文整理自2023年 12 月 20 日举办的「2023 百度云智大会·智算大会」主论坛，百度副总裁谢广军的主题演讲《AI 原生时代的云计算》。

本文整理自2023年 12 月 20 日举办的「2023 百度云智大会·智算大会」主论坛，百度副总裁谢广军的主题演讲《AI 原生时代的云计算》。
（视频回放链接：https://cloud.baidu.com/summit/aicomputing_2023/index.html）

大模型的到来，使得 AI 原生应用大量爆发。

这对云计算提出了全新的要求。我们需要性能更强、类型更丰富的计算产品，兼顾各类数据和应用要求的存储系统，满足全场景覆盖的服务交付方式，以及能够利用大模型提升业务效率的应用开发平台。

为了更好地满足 AI 原生应用爆发带来的挑战，我们重构了 AI 原生云。

这是百度智能云的 AI 原生云的全景图。

从下至上，包括了覆盖全国的数据中心，适用于各种场景的云基础设施，全栈融合的智算基础设施，以及在这些设施构建之上应用开发平台。

接下来，我将详细介绍这张全景图中的产品的最新进展。

后续的介绍内容，我将会按照通用计算、智能计算、数据库和大数据、分布式云、应用开发平台等 5 部分依次展开。

云计算服务最终都是围绕计算展开，云服务器是所有计算实现的重要载体。百度太行·计算今年全新推出了多款云服务器实例。

在通用算力方面，发布第 7 代云服务器实例 G7，支持新一代 Intel EMR 处理器，实例的计算和网络规格全面升级，综合性能对比上一代提高 10%。

在 AI 算力方面，发布 2 款国产 AI 算力实例。其中，新一代昆仑芯 R300 弹性裸金属，加强了显存规格与 AI 加速处理器互联通信性能，对比当前主流推理加速卡，在大模型推理场景综合性能可提升达 50%。基于升腾 910B 的弹性高性能计算实例，可支持单实例 3.2T 的高性能网络互联，在大模型训练场景提升可达 40%。

以上这 3 款云服务器实例，都支持第二代百度太行 DPU 网卡，可以提供更高规格的网络性能，支持通用、AI、存储以及百度自研 RDMA 等多协议引擎。

为了提升网络性能，应对不断发展的业务需求，百度智能云打造了新一代自研网关平台。我们将 X86 CPU、可编程交换芯片、FPGA 加速卡融合在一起，形成一个可扩展的异构融合网关。

基于新一代自研网关平台，负载均衡和内网服务连接等服务，在性能和质量上得到了极大的提升，实现了 T 级别流量转发能力，平均转发时延降低 20 倍以上，高负载时抖动降至 4us 以下，丢包率降至数亿分之一。

为了更好地提供服务体验，百度智能云通过服务网卡，使得百度网盘、百度地图等生态可以被 VPC 内的其他公有云服务直接访问，替代了过去需要走外网访问方式，大幅降低数据传输成本和处理效率。这套方案已经在生命科学、智能汽车等场景下广泛使用。

比如有一家来自基因测序行业的头部客户，将完成测序后的数据先存储在对象存储 BOS 中，然后一键同步至百度网盘提供给下游的客户快速下载。这不仅降低了云上的存储和带宽成本，还提升了他的客户的使用体验。

随着大数据和 AI 技术的成熟，企业对数据的使用越来越深入，上层的业务类型越来越多样，在接口上既需要文件的数据操作能力，又需要对象存储的扩展性和低成本。

传统存储是面向对象、文件、块等不同接口进行分别优化，各自提供技术底座支撑。这样带来的问题是产品之间的技术和能力不能共享和融合，维护和演进非常困难。

百度沧海·存储，结合自己在存储上 20 年的技术积累和沉淀，全新升级了统一技术底座。

技术底座的统一包括两个方面：

元数据存储统一到 TafDB，通过统一元数据底座，原生支持层级 namespace 和平坦 namespace，兼具对象和文件的能力。在大数据场景下，能够大幅提升性能。
统一数据底座 Aries，支持多种数据模型，适合不同的 I/O 模型的存储，同时可以支持灵活 EC 模型，最低 1.05 副本。

这套技术底座支持融合介质，包括 AEP/SCM/SSD/HDD/磁带等多层次存储介质，这样就可以灵活支持不同性能和成本要求的存储，让用户可以享受到性价比最高的存储。

在统一的技术底座上的基础上，对多种存储产品提供支持，包括百万亿级别对象存储、千亿高性能文件存储和最高单盘百万 IOPS 的块存储。

在这个统一技术底座的基础上，我们今天带来各项存储产品新能力的发布。

首先是对象存储 BOS，支持平坦 namespace 和层级 namespace 互迁，这意味着对象存储融合了文件目录操作能力，大数据场景可以降低目录操作时延超过 70%。

其次是块存储 CDS，增强型 SSD PL3 的百 us 级读写时延，可以满足时延敏感业务平稳运行。增强型 SSD PL2，做到了性能容量解耦，支持配置额外性能，性能密度提升最高 4 倍，小容量也可以有高性能。

然后是并行文件存储 PFS ，发布标准型 L2 ，起购容量降低 50%，扩容步长降低 80%，购买门槛大幅降低。同时，我们还发布了极速型 L2，支持单文件系统 8 PB 超大规模，TBps 吞吐，千万 IOPS、亚毫秒时延，满足大容量高性能的需求。

通过统一技术底座的打造，以及基于这个底座推出的各项存储产品，让我们有信心不断加速智能计算，释放数据价值。

结合百度太行在计算、网络，百度沧海在存储上面提供的各项能力，我们推出了高性能计算平台 CHPC。这是百度智能云为用户提供的一站式公有云 HPC 服务。

在资源使用层面，通过这套高性能计算平台，用户可以一键创建 HPC 计算环境，随着业务变化灵活使用云上资源。

在业务应用层面，用户可以一站式使用集成在 CHPC 中的各个行业应用，同时，结合已经集成在 VPC 内的百度网盘服务，实现了 HPC 源文件提交、上传、处理、结果回传、分发全链路数据打通。

在介绍完百度太行·计算和百度沧海·存储等在通用计算的最新进展后，我们继续介绍智能计算方向上的最新成果。

百度百舸源自百度集团在 AI 基础设施的 10 年技术积累和工程实践，致力于加速用户 AI 业务落地。

自 2021 年发布 1.0 以来，百度百舸持续完善和升级相关能力，现在已经服务了泛互联网、自动驾驶、生命科学等多个领域的大量客户。

今天我们全新发布百度百舸 3.0，它是专为大模型优化的基础设施。

我们知道大模型训练和推理，首先讲究的是快。在小模型单机单卡或者单机多卡，快就是一切。

但是遇上大模型，训练周期以月计，集群规模以千卡万卡计，光有快就不够了。在大模型的整个训练周期内会不断遇上设备故障、软件错误等问题，我们如何确保这些问题不会影响到任务的进行，并且确保在整个生命周期内，任务一直可以快速稳定运行呢？

在最新的百度百舸 3.0 中，我们在高效、稳定、易运维三个方面大幅升级了产品能力。

性能方面，我们推出专为大模型设计的训推加速工具、高性能通信库、大镜像分发加速等能力，RDMA 带宽有效性可达 95%，训练和推理场景的吞吐可以提高 30%~60% 。
稳定性方面，我们针对大模型训练规模大，计算时间长等特点，提供了集群故障检查工具和自动容错能力，并通过 Flash Checkpoint 功能大幅减少 Checkpoint 写入时间，降低故障恢复开销，使万卡级别任务有效训练时长达到 98% 以上。
易运维方面，百舸 3.0 结合了百度大规模 AI 算力集群的最佳实践，为用户提供丰富易用的运维和可观测工具，可以做到超大集群的有效运维，帮助用户高效的执行资源治理、故障定位恢复、任务性能调优等关键运维工作。

基于百舸可以为用户建设强大的异构算力平台，但是在大模型时代对算力是无穷尽的，这就需要我们整合全社会的 AI 算力资源，加快 AI 普惠的到来，支持好 AI 原生应用的爆发。

我们这次全新推出了智算网络平台。

在算力资源层面，实现了智算中心、超算中心、边缘节点等全域接入，将分散、异构的算力资源连接起来，形成了统一的算力网络资源池。
在算力调度层面，我们自主研发了「算力大脑」，实现算力的高效调度。它能够智能地分析各种算力资源的状态、性能和利用率，并根据实际情况进行动态的调度。这意味着我们可以轻松应对多元异构算力的复杂环境，实现跨域的智能调度。
在算力应用层面，通过算力网络平台我们能够为 AI 应用提供弹性供给、无处不在的计算服务，从而满足各种AI应用的需求。

我们期望在未来，尤其是需要大量资源的大模型应用，用户可以方便地获取 AI 算力资源，不用再担心算力不足的问题。

在介绍完 IaaS 层的进展后，我们接下来分享一下 PaaS 层数据库和大数据方向的进展。

云原生化是数据库的发展趋势，正在各个行业大规模商用。

为了加速云原生数据库的普及，云原生数据库 GaiaDB 自 2020 年发布 1.0 以来，不断进行升级，成为一款具备高性能、多层级高可用特点的云原生数据库产品。

通过一切异步的理念，使得 GaiaDB 在普通硬件也能有优异的表现。通过不断地进行产品升级，支持了跨 Region 和跨 AZ 的热活高可用。

随着云原生数据库在业务中使用场景的深入，复杂查询的场景越来越多。

在今天发布的 GaiaDB 4.0 中，有效地突破了复杂查询的性能瓶颈。GaiaDB 从 SQL 引擎、存储引擎、内部数据流等多个角度进行了深度重构。

在 SQL 引擎方向，GaiaDB 并行查询突破了单机计算瓶颈，实现跨机多核并行查询，面向混合负载和实时分析业务场景，性能提升 10 倍以上。
在存储引擎方向，GaiaDB 针对不同的应用负载，推出列存索引和列存引擎，为不同规模的数据查询进行加速。
在数据流优化方向，为了进一步提升性能，GaiaDB 在内核数据流上进行优化。通过共识协议优化、链路优化、自适应动态回放存储多版本等方法，GaiaDB 4.0 整体性能大幅提升 60%。

数据库是一个门槛比较高的行业，要培养一个专业的，有经验的 DBA 要花费很多时间和金钱的。

数据库智能驾驶舱利用最新的大模型能力，实现数据库自动化、智能化的洞察、评估和优化。同时，针对数据库常见问题提供了专业的问答能力，可以媲美专业的 DBA。智能驾驶舱内置的智能问答，所使用的知识库是百度 18 年的数据库知识库的积累，可以做到复杂问题 80% 以上的准确率。

除专业知识之外，智能驾驶舱提供大量自动化的优化能力。数据库故障洞察方面，相比传统的人工定位提升 80%。智能评估相比传统的方法提前 1 个月发现数据库的容量瓶颈。在 SQL 优化方面，也带来 40% 以上的提升。

大数据平台作为各类在线和离线业务的数据处理中心，核心是资源效能和计算效率。百度智能云大数据平台全面升级了计算引擎，支持高弹性、高性能数据计算，提升资源利用率和作业效率。

在新版本的数据湖管理与分析平台 EasyDAP 中，我们实现了从数据集成、开发到分析的全流程 Serverless，可以提供 Job 级弹性伸缩，从而带来资源利用率的大幅提升。与此同时，也免去了复杂的资源配置步骤，提升开发体验和效率。

在计算引擎方面，百度智能云自研的 BMR Spark 3.2，相比于社区版本 Vanilla Spark 3.2，性能平均提升 2 倍。在同样时间内减少 50% 的计算资源投入，或在等同资源下支持 2 倍作业量。

传统 BI 工具的数据分析，从连接数据源到生成符合需求的图表，一般需要 6 个步骤。但是，这仍有一定的使用门槛，一般面向专业数据分析师。

Sugar BI 推出的智能问数（SugarBot）功能，基于大模型进行数据分析交互重构。通过自然语言对话，可将上述分析步骤精简为 3 个，显著降低数据分析门槛，提升业务洞察效率。

借助 SugarBot，普通用户可以通过对话来实现大部分数据洞察，并可一键将生成的图表用于报表大屏。

在效率提升方面，对话模式（类 ChatGPT）的数据探索，可秒级获取可视化结果或业务结论，效率提升 5 倍。助手模式（类 Copilot）下的报表/大屏制作，效率提升 2 倍。

在能力方面，智能问数已支持 10 大主流分析能力。

此外，SugarBot 仍保留了 Sugar BI 的已有优势，可直连 30+ 类型的数据源，内置 150+ 可视化图表，并支持统计和预测的双重能力。

刚才提到的这些新服务，百度智能云不仅通过中心云的形式提供，也将通过分布式云的方式，交付给用户。

百度智能云一直大力建设分布式云，为用户交付各类形式的计算资源，做到让智算无处不在。

这其中就包括边缘计算节点 BEC，将公有云能力延伸至本地的本地计算集群 LCC，以及私有化交付全栈 AI 基础设施的专有云 ABC Stack。

在边缘计算节点 BEC 中，我们不断扩大节点覆盖范围，完善云边一体的能力，推动全部边缘计算节点的智能化升级。

在基础设施方面，我们建立起了覆盖广泛的边缘计算节点，并打造了全球统一的网络。

在通用边缘计算能力方面，我们提供了和中心云能力对齐的边缘 IaaS、边缘 PaaS 产品，无论客户身处何处，都能享受到一致的边缘计算产品体验。

在边缘智能能力方面，我们在边缘提供了功能完备的 AI 计算、AI 存储、AI 网络等产品。这使得在 AI 场景中，用户可以在中心训练，边缘推理，并通过云边一体的能力将两者打通，形成完整的业务模式，为客户提供了更高性价比的 AI 计算服务。

专有云 ABC Stack 的新版本，完整集成了千帆大模型平台，可以为用户提供本地部署的一站式大模型开发调优和训练平台，帮助企业构建专属行业大模型应用，提升创新生产效率。

同时，基于客户实际场景，我们也沉淀了数智化转型场景的最佳实践。

在传统 IDC 业务上云实践中，我们帮助某省广电客户实现业务 0 改造迁移上云：包括网络组网 0 改造，IP 地址 0 改造，防火墙安全策略 0 改造，大幅降低业务迁移上云成本，帮助广电媒体行业客户构建新一代 AIGC 云底座。

在容灾多活方案中，我们帮助某金融客户在 2023 年河北暴雨场景下，成功完成了灾备切换和应用高可用，保障了用户业务连续性。

本地计算集群 LCC，是兼具公有云延伸、本地化部署双重优势，具备混合云架构特性的公有云产品。

当前 LCC 可以支持最新一代的 CPU/GPU 实例，并且已经实现对百度百舸·AI 异构计算平台、高性能计算平台 CHPC 的兼容，提供完整的 AI&HPC 集群管理能力。

LCC 可以依照不同 IDC 形式提供多种部署方案：

基于百度自有 IDC，LCC 可构建公有云专属区域，形成云上合规区或独享 AI 集群，为新兴行业实现智能化升级赋能。
基于客户指定 IDC，LCC 可构建公有云延伸区域，为区域算力集群或产业基地提供强有力的架构支持，为传统行业数字化转型提供具备可信、弹性、易用特点的公有云路径。

在分别介绍完云基础设施和智算基础设施后，我们再来看看上层的应用平台

自 2014 年以来，百度智能云的智能视频云平台经历了四个大版本的升级迭代，包括了：以 CDN 资源层为基础，泛互联网场景为主的 1.0；构建全链路能力层，延伸至媒体行业的 2.0；再往上构建端到端的平台层，开拓传统行业的 3.0；再到今年我们全面场景化智能化重构，深入各类垂直行业的 4.0。

我们这次推出智能视频云平台 4.0 ，致力于提供一站式、智能化的音视频解决方案。

在资源层，为了应对各类场景下对延时和成本的不同要求，我们升级了云边端一体化架构，将点播/直播/实时通讯统一融合成一张网，以便资源复用、灵活调度、融合贯通。
在能力层，在多模态大模型的驱动下对能力进行了重构，例如：AIGC 智能集锦可以对视频进行自动识别并提取高光时刻；智感超清大模型使得去噪、去划痕、增强、超分等在一个任务里一次性搞定。同时我们将数字水印植入图片、视频文件中，高鲁棒性、高抗攻击率帮助 AIGC 内容做到可追溯。
在平台层，分别聚焦泛直播和泛安防场景，通过智能直播和智能视联网两大平台构建了一站式的解决方案。

智能直播平台聚焦体育赛事场景，提供了从智能摄像采集、直播录制到智能分析处理等端到端的解决方案，让每个普通人都能体验和超级体育明星一样的待遇。

我们经过一年多的落地打磨，本次将重点带来三个新能力：

统一接入：作为赛事直播 PaaS 平台，我们开放统一的接入规范，支持各类采集设备的接入。
智能解说：解说对于一场赛事直播的趣味性和观赏性是非常重要的。传统的人工解说，需要解说员到现场，成本高质量不可控。我们可以让主播随时随地接入开播，并通过多模态大模型，智能生成解说内容和语音。
精彩集锦：我们通过对各类体育运动进行数据采集和训练，支持了足篮排、垒球、冰球、马拉松、滑雪等运动的智能集锦生成。

当今，视频智能分析是各个政府单位在城市治理过程中依赖的关键手段之一。为了实现各个委办局的视频共建共享，更好提升城市综合治理，百度智能视联网平台 EVS 推出了视频融合赋能平台。

全面覆盖主流协议、支持 50 万路+级别的大规模视频汇聚，能够实现市域视频共建共用共享。
通过算法共管、算力共调，覆盖了 20+ 场景、80+ 种算法的资源智能融合。通过云边端算力资源智能调度，提升解析效率。
该平台灵活开放，支持赋能 20+ 委办局以及能源、交通、工业制造、新零售等领域使用，可以灵活对接第三方业务平台。通过推送多维事件统计，事件共治，实现了视频融合数据的综合赋能。