上海人工智能实验室发布超大规模跨域混训技术方案
来源:新华财经
新华财经上海7月21日电 近日,上海人工智能实验室发布DeepLink超大规模跨域混训技术方案,支持千公里多智算中心跨域长稳混训千亿参数大模型,例如跨越1500公里连接上海和济南之间的智算中心,实现北京、上海与贵州等多地智算中心互联和大模型混训等。
上海人工智能实验室介绍,随着人工智能研究及产业应用深化,算力需求持续增长,但国内的智算中心存在建设分散、采购芯片代次差异大、算力资源碎片化等情况,难以灵活、低成本的获取大算力。
上海人工智能实验室攻克了大规模跨域异构集群调度、高性能通信协议整合、高可靠容错机制设计等技术难题,推出DeepLink超大规模跨域混训技术方案,以保障跨域智算集群的大模型长稳训练。
针对远距离跨域混训存在的数据同步和稳定性难题,这一技术方案采用“3D并行+PS”架构,将超大规模任务分发到各个智算中心,通过算法换通信的方式减轻网络负担,为数据传输提供更宽松的时间窗口,普通专线即可满足通信带宽的要求。同时,在异地训练中,确保即使某个智算中心的节点发生故障也不影响整体训练。
针对不同硬件显存容量和通信带宽参差不齐导致的异构混训效率低下难题,这一技术方案提出改进异构流水线并行策略,采用自研分布式并行框架动态调节不同硬件的任务量,解决异构芯片差异性带来的负载均衡和计算阻塞问题。联合团队基于现有通信协议构建适配层,成功突破了异构芯片互联效率低下的瓶颈。
目前,上海人工智能实验室DeepLink开放计算体系已深度集成至联通、电信、商汤、仪电等智算平台,实现“1个平台+N种芯片+X个地域”稳定运行。
郑重声明:用户在财富号/股吧/博客等社区发表的所有信息(包括但不限于文字、视频、音频、数据及图表)仅代表个人观点,与本网站立场无关,不对您构成任何投资建议,据此操作风险自担。请勿相信代客理财、免费荐股和炒股培训等宣传内容,远离非法证券活动。请勿添加发言用户的手机号码、公众号、微博、微信及QQ等信息,谨防上当受骗!
评论该主题
帖子不见了!怎么办?作者:您目前是匿名发表 登录 | 5秒注册 作者:,欢迎留言 退出发表新主题
郑重声明:用户在社区发表的所有资料、言论等仅代表个人观点,与本网站立场无关,不对您构成任何投资建议。用户应基于自己的独立判断,自行决定证券投资并承担相应风险。《东方财富社区管理规定》