中国电信AI研究院完成首个全国产化万卡万参大模型训练 - ENI文章 - ENI经济和信息化网

当前位置：首页 >文章发布 > 正文

中国电信AI研究院完成首个全国产化万卡万参大模型训练

来源：IT之家作者：佚名 2024-09-29 09:23:20

9月28日消息，“中国电信人工智能研究院”官方公众号今天宣布，中国电信人工智能研究院成功完成国内首个基于全国产化万卡集群训练的万亿参数大模型，并正式对外开源首个基于全国产化万卡集群和国产深度学习框架训练的千亿参数大模型——星辰语义大模型TeleChat2-115B。

官方表示，这项科研成果标志着国产大模型训练真正实现全国产化替代，正式进入全国产自主创新、安全可控的新阶段。

TeleChat2-115B基于中国电信自研的天翼云“息壤一体化智算服务平台”和人工智能公司“星海AI平台”训练完成。据介绍，其在保证训练精度的前提下利用多种优化手段提升模型训练效率和稳定性，实现了GPU同等算力计算效率超93%，模型有效训练时长占比超98%。

针对超大参数模型训练，TeleAI采用了大量小模型进行Scaling，进而验证不同模型结构的有效性。同时，在数据配比方面，基于小模型实验结果反馈，采用回归预测模型，得到较优数据配比。

在Post-Training(后训练)方面，TeleAI首先针对数学、代码和逻辑推理等内容合成了大量问答数据，用于SFT(监督式微调)第一阶段模型训练。

其次，其采用迭代式更新策略，使用模型对提示词数据进行指令复杂性提升与多样性扩充，通过模型合成和人工标注提升答案质量，并利用拒绝采样获取优质SFT数据及RM(奖励模型)代表性数据，用于SFT训练和DPO(偏好对齐)训练，以及模型效果迭代。

免责声明：本文系网络转载，版权归原作者所有。本文所用图片、文字如涉及作品版权问题，请联系删除！本文内容为原作者观点，并不代表本网站观点。

编辑：乔帅臣

关键词： AI 大模型中国电信

[已收藏] [关闭] [返回顶部]

e-show 一手

活动直播间 | CIO智行社

E-PRO

梅姐东莞永益食品电商总监

汉语言文学教育、计算机应用与开发双专业，21年工作经验，其中16年IT从业，12年电商从业，服务过美资、国企、民企三种企业，其中两家为上市...

唐龙原德勤信息安全专家

毕业于北京航空航天大学，软件硕士，曾就职于赛门铁克、中国惠普、IBM、中国平安、德勤等高级管理职位。专注在 IT 战略咨询、网络安全...