首页 > 实时讯息 >

百度金融智算云:为大模型时代金融行业构建“核心引擎”

0次浏览     发布时间:2025-06-04 17:13:00    

“金融行业异构算力管理面临技术平权、租户隔离、算力释放、异构管理四个核心命题。基于此,金融体系对智算集群有三大诉求:一是对金融类创新业务的快速支持,二是在总行核心业务上保证算力有效运行,三是有效利用总行、分行的统一算力,省本增效。”5月24日,在新金融联盟主办的“智算赋能金融服务智能化”内部研讨会上,百度智能云混合云部总经理杜海在主题发言中表示。

国家金融监督管理总局科技监管司相关负责人,中国银行原行长李礼辉做主题交流。邮储银行总工程师徐朝辉、交通银行金融科技部总经理刘雷、国家开发银行信息科技部总经理宋磊也做了主题发言。

会议由新金融联盟秘书长吴雨珊主持,中国金融四十人论坛提供学术支持。23家银行、理财子和保险公司的专家参会。会议实录详见:金融行业数智转型,如何突破算力瓶颈?以下为杜海发言全文。

百度金融智算云:为大模型时代金融行业构建“核心引擎”

文| 杜海

百度智能云混合云部总经理 杜海

金融行业异构算力管理面临四个核心命题

当前,算力行业发展非常迅速。在政策层面,不管是从国际形势还是供应链安全上,国产芯片已经成为必答题,虽然还存在一些问题,但从标准统一到各方面,国产芯片已经成为一个不可替代的选项。

在模型层面,大模型从传统单一的Dense模型向混合专家架构演进,尤其是混合专家模型底层和工程能力的结合能力,成为了目前大模型智算集群提效的核心能力。这也为更高的算力标准、更高的显存容量以及更快、更大的通信能力提了更高要求。

在芯片层面,传统GPGPU芯片难以满足大模型性能需求,未来专用的AI加速卡逐渐成为趋势,从成本到效率上也会更高。

基于发展趋势,我们看到金融行业对异构算力管理有四个方面的问题。

第一,技术平权。金融集团公司如何实现宝贵的算力资源在总行、分行、子公司安全共享,实现技术平权和算力普惠化。

第二,租户隔离。如何确保多租户的任务,在训练推理过程中,数据安全与风险隔离。

第三,算力释放。算力使用并不等于芯片本身的规格算力,如何通过并行策略、训推加速,释放国产芯片性能。

第四,异构管理,需构建支持多架构国产芯片的异构算力纳管体系,确保供应链安全。

需平衡“有限算力”和“无限创新”的矛盾

基于这四点,我们把智算集群金融体系诉求分成了三个大板块。

第一,金融类的创新业务“快”速支持。其诉求是如何快速支撑创新型业务,常见于分行的创新业务体系。

第二,在总行核心业务上,如何保证算力有效运行。这里体现了一个字:“稳”。

第三,对集团周边所有的生态公司,如何有效利用分行、总行的统一算力,“省”本增效,算网融合统一管理。

对此,我们把整个集群分成三部分:CPU云、训推一体云、训练云。训推一体云满足总行和分行“快”和“稳”的特点,集团共享云满足“省”的降本增效要求。

在整个智算集群架构分布上,金融智算云分成四层:

最底层是国产的GPU芯片层,包含昆仑芯、昇腾、海光等。

第三层是智算云底座,在GPU场景里需要做一轮升级,如何能更好支撑高效能网络,大规模网络部署、计算、存储三者之间通过类似RDMA的相关协议形成更高效率之间的数据通信,这是一个新的智算云底座层。

第二层是GPU算力平台,它主要通过智算云底座对底层架构理解,把底层架构能力透传到上层的任务分配调度里,对训练、推理任务,对其它AI整体任务部署,形成更有效管理。

最上一层是算网融合平台,把多点集群、多点异地异构集群通过算力网络进行统一管理,从算力感知再到算力调度,形成一个一体化的算力网络。

如何实现智算集群“快”“稳”“省”

从“快”的角度,我们的业务体系有一套方案,快速接入到智算能力中。大模型一体机能帮助业务快速使用模型能力。常见的包括基于昆仑芯的百度百舸一体机可以做到单机支持满血的671B模型,昇腾是双机以及其它方案。总体来说是以相对较低成本将智算能力提供给业务。

接下来有两层延伸能力,一层是一体机无缝平滑把业务推向一个更高规模、更高并行要求的能力。我们有一体机扩展方案,实现在业务不中断、数据安全情况下的能力拓展。

再往前走,需要从这个方案去进行相关组件初级拆分,把控制面、数据面和计算面做相应拆离,同时保证从单一一体机到小集群到大集群业务平滑稳定对外服务。

在这个基础上,如果需要进一步提升集群效率,可使用PD分离,更具体地把大模型运行过程中的核心能力、模块进行拆分。

此外,还需要全链路优化。买了芯片,即使芯片规格算力很高,也不等于芯片整体效率很高。这里需要做到平台层有主流模型预覆盖。对新模型,尤其主流模型可以减少适配成本,快速投入生产。基于常见的训练推理框架,实现对应加速提升能力。

在“稳”的方面,更多是保障集群在使用过程中,发生故障时能快速感知、定位,并且最大化做故障自愈,而不是通过工单或者人工手段提到后台再去进行相关算力节点下的操作。

这里有几个重要的点,比如怎么保证集群算力在线率,怎么保证故障快速感知。通过硬件软件以及其它工程化手段,保证最终进行大型任务训练时,它的万卡训练有效率——一个月30天,每天24小时,其中有多少时间能进行任务有效管理,排除掉所有故障,包括我们做Check point备份时间去掉,还要保证整个集群有效训练率。

在“省”的方面,更多是在集群能力上需要多租户管理。在GPU时代,它的核心要有AIHC层面多租户的切分,能基于异构平台把算力统一调度后,在AI任务层面做多租户的切分,保证集群既安全又能有效使用。

在多芯的混合管理以及基于多芯情况下,怎么提高集群整体分配率和利用率,如何进行异构管理,主要有两层:

首先要进行统一算力感知。例如,昇腾的基础算力能力和不同算子调度优化能力是多少,昆仑芯在跑这些任务时的算力感知能力是多少。如何形成统一异构视图,基于任务统一视图进行统一分配。不同芯片的通信接口一个统一,通信协议,昆仑芯、昇腾通信协议之间的统一管理以及接口封装。

还有一层比较难,即精度对齐。不同的异构卡在不同的算子精度实现策略上有比较大的差异,既有硬件差异,也有软件差异。如何在不同卡之间形成精度的有效对齐?这需要对芯片有非常深入的了解和实践,再进行封装和适配,才有可能实现。

除了在技术层面对多芯统一适配管理,还需要在上游任务调度效率上进行管理。很少有单一训练任务一跑跑30天、一口气用万卡资源,更多是数量众多的小型任务。如何通过任务队列对这些小任务进行有效编排,从而让集群整体利用率和任务分配率达到更高水平,是算力调度平台任务层面需要解决的核心要求。

我分享两个案例。当纳管集群数量达到更高规模时,集群的要求是非常大的。百度建的国产昆仑芯P800大型单一集群,从能源效率到机柜数量,再到存储容量与使用效率,这个集群我们做到了98%。

我们与头部城商行进行智算集群合作,从底层芯片层到基础环境,用的是信创的操作系统和数据库,再到算力统一感知,百度基础云平台+百度百舸GPU算力平台,加上百度智能云千帆大模型平台及支撑,从通用场景到智能客服等应用场景提升,做到了不同芯片混合管理、混合使用,通过异构平台在算力感知的情况下进行统一调度能力。

目前有一个比较流行的趋势,从单一服务器提供8卡组件,进一步往单一节点扩大化,把原来的单机8卡、4机32卡、8机64卡,变成单一机柜直接实现32、64卡的超节点方式来提供服务。在超节点内,把计算、存储和网络按照单一服务器的背板走线设计标准统一重新规划,从而至少在64卡内达到单一机型通信效率,并通过超节点间的快速扩展技术实现128、1024等更大规模集群能力。

金融算力发展的四个新趋势

在金融领域算力实施层面,我们看到几个新趋势。

第一,机构统筹建设。金融行业高度重视智算领域算力基础设施建设,需要进行整体系统化规划和统筹。

第二,关键技术攻关。为支撑好金融领域需求,在智算化、绿色化、一体化的技术关键层面, 我们希望能和金融领域龙头一起共创。

第三,标准化建设推进。当前标准还处于突破状态,比较分散,接下来需进一步推进标准化,尤其在模块、算力、体系预制化层面是重要方向。

第四,产业链生态协同。生态产业链如何能更有效协同。现在信创更多指的是CPU、GPU、操作系统、数据库等,再往后包含HBM显存、网络芯片等,这一整套体系如何更好进行全栈信创的服务也是一个趋势。

本文首发于微信公众号:新金融联盟NFA。文章内容属作者个人观点,不代表和讯网立场。投资者据此操作,风险请自担。

相关文章