行业资讯更多

News丨人工智能与量子计算携手，量子机器学习未来潜力有多大

2024-01-15 17:04

AI大模型降本增效开箱即用？玩大模型和不玩大模型的都震惊了！

来源：世展网分类：行业资讯 2023-10-13 17:33 阅读：10704

第24届高交会半导体显示展CHINA HI-TECH FAIR

2022-11-16-11-20

展会结束

收录于话题

#聚焦名企

全球第一的开源AI大模型工具Colossal-AI来了！不会还有玩大模型的人不知道这个开源明星项目吧？

Colossal-AI系统发布仅一周就在最大开源社区GitHub人工智能方向登顶，后续多次再登热度第一。目前已与MLPerf、PyTorch、Lightning AI、Hugging Face、Facebook OPT等全球顶级AI生态深度融合，已获得GitHub星数近四万颗，遍布全球140多个国家和地区，位列全球总榜TOP500，AI 大模型工具赛道排名前列。

Colossal-AI GitHub星数推出这个开源低成本AI模型开发系统的正是即将亮相第25届高交会新一代信息技术展（简称IT展）的潞晨科技（展位号：1A66）。近期获得数亿元A轮融资，已在成立18个月内迅速连续完成三轮融资，投资方为创新工场、真格基金、蓝驰创投等。

— Colossal-AI凭什么“火”？—

众所周知，训练成本高、周期长，是当前大模型企业最需要克服的难题。一方面极其高昂的成本，令许多企业和开发者望而却步，一度被戏称“5000万美元才能入局”；另一方面，现有的硬件设备无法满足训练所需的大量计算资源和储存空间需求，制约着AI大模型的纵深发展。因此，我们迫切需要一个可扩展性的高效计算基础设施。

图中横坐标是时间，纵坐标为AI模型的参数量。过去六年大模型参数量每18个月增长了40倍，过去三年每18月增长了340倍，而硬件的计算增长速度大概每18个月增长1.7倍。

针对这一问题，潞晨科技打造了Colossal-AI系统，作为深度学习框架的内核，基于PyTorch，兼容主流AI框架与硬件系统及低端设备，可加速AI模型训练近百倍，显著缩短AI大模型训练/微调/部署的时间、降低训练的算力成本，减少学习和部署的人力成本，性能和同期开源社区活跃度全面超越相关国际巨头竞品。Colossal-AI系统让“解放AI生产力，助力大模型降本增效”有了具体可量化的注脚 ——使用最简单的PyTorch训练GPT-3，成本为1000万美金，英伟达经过优化后，用Megatron可将其成本减少至300万美金，而使用Colossal-AI后，成本可以降低到130万美金。

在性能上，Colossal-AI在同样的硬件上可以训练相比原生PyTorch上百倍大的模型，相对于 DeepSpeed 的3倍加速，即便是一个低端的服务器，也可以借助Colossal-AI完成相应的模型训练。例如LLaMA-2-70B的训练，在512张A100上，相比国际巨头方案，在Colossal-AI可将训练速度翻倍，节省一半底座大模型开发成本。

创始人尤洋打了一个形象的比喻，“如果说现在大模型是挖金子，英伟达是卖铲子的，那我们就是卖手套、卖衣服的，把挖金子的效率提到最高。”

— Colossal-AI 核心技术—

Colossal-AI是如何做到把AI大模型成本降低又不影响效果呢？简单来说，Colossal-AI系统从三个方面把AI模型训练部署的性能提到最高：

高效异构内存管理系统
自动N维并行技术，提升计算效率
低延时低成本推理系统

目前 AI 大模型训练的核心技术栈是并行计算。Colossal-AI的解决方案在兼容主流的数据并行、流水并行的基础上，创新地打造了2维/2.5维/3维张量并行方法，并提出了数据序列并行，将系统的并行维度拉升到6维；还提供了降低显存消耗的异构内存管理和大规模并行优化，整合起来提供一套自动并行的解决方案，使计算成本降低了一个数量级。

在内存优化方面，技术的核心在于最小化数据移动，即最小化 CPU、 GPU 之间的数据移动，最强化CPU和 NVMe之间的数据移动，从而将吞吐力速度提升到最高。

One More Thing

为了进一步提高AI大模型开发和部署效率，Colossal-AI已进一步升级为 Colossal-AI 云平台，以低代码/无代码的方式供用户在云端低成本进行大模型训练、微调和部署，快速将各种模型接入到个性化的应用中，真正做到了“开箱即用”。

目前Colossal-AI 云平台上已经预置了Stable diffusion, LLaMA-2等主流模型及解决方案，用户只需上传自己的数据即可进行微调，同时也可以把自己微调之后的模型部署成为API，以实惠的价格使用A10、A800、H800等GPU资源，无需自己维护算力集群以及各类基础设施。更多应用场景、不同领域、不同版本的模型、企业私有化平台部署等正不断迭代。服务案例01类ChatGPT语言模型开发及应用企业客服：帮助东南亚某互联网巨头核心业务，快速引入类ChatGPT能力，提升业务水平，助力企业降本增效。聊天机器人：助力某垂类知名互联网企业，高效构建类ChatGPT能力模型，具备多角色扮演、情感回应、幻想优化等能力。金融服务：为银行、券商结合私有化数据提供营销获客、风险控制等大模型私有化开发与部署。领域知识强化：为某中东客户低成本打造阿拉伯语专业知识领域模型；为能源、电力、建筑、生物医药等行业提供低成本专业知识模型。

常见的通过SFT、LoRA等方式微调，能有效注入基座模型的知识与能力十分有限，不能较好的满足高质量领域知识或垂类模型应用的构建的需求。

Colossal-AI成功仅用约8.5B token数据、15小时、数千元的训练成本，成功构建了性能卓越的中文LLaMA-2，在多个评测榜单性能优越。而市面上的大模型动辄使用几万亿token进行训练才有效果保证，成本高昂。将以上流程应用在任意领域进行知识迁移，即可低成本构建任意领域垂类基座大模型的轻量化流程。02大模型训练/推理系统加速与降本增效大模型预训练：为某世界500强企业构建高效千卡并行系统能力，打造千亿参数私有大模型，作为集团AI业务核心基础，显著降低Al大模型开发成本，提升智能化升级迭代更新能力。大模型系统优化：为某500强企业优化千亿参数大模型RLHF微调及低成本大模型推理能力，显著提升微调和推理速度，如PPO速度提升10倍，降低硬件资源消耗及成本。03计算机视觉图文生成：为某世界500强企业优化提升Stable Dlitusion推理、超分辨率推理速度近10倍。自动驾驶：为某500强企业的无人车路测提升点云分割3D检测等算法性能。智能零售：为某无人零售店服务商优化提升商品识别准确率及模型训练迭代速度。

04生物医药＆新兴芯片生物医药：为Intel、百图生科、华深智药等提供蛋白质预测模型优化，提升训练和推理速度均可达约10倍。Al芯片：为摩尔线程、天数智芯等算力芯片提供Colossal-Al大规模AI训练和推理系统优化能力。

展商介绍

北京潞晨科技有限公司(简称潞晨科技)致力于解放AI生产力，打造面向大模型时代的通用深度学习系统Colossal-AI ，高效促进AI大模型落地应用。核心成员来自美国加州伯克利、斯坦福、清华、北大、新加坡国立、南洋理工大学等世界一流高校，在国际顶级学术刊物或会议共发表论文近百篇，曾在谷歌、微软、NVIDIA、IBM、英特尔等头部科技公司任职。公司在高性能计算、人工智能、分布式系统方面已有十余年的技术积累，对核心技术、行业理解、产品落地等方面有卓越优势。潞晨科技创始人尤洋教授，是清华大学硕士，加州伯克利大学博士，新加坡国立大学计算机系的校长青年教授(Presidential Young Professor)。他曾创造ImageNet、BERT、AlphaFold、ViT训练速度的世界纪录，相关技术被广泛应用于谷歌、微软、英特尔、英伟达等科技巨头。他近三年以第一作者身份在NIPS、ICLR、Supercomputing、IPDPS、ICS等国际重要会议或期刊上发表论文十余篇，总计发表论文近百篇。他曾任职于谷歌、微软、英伟达、英特尔、IBM，在2021年被选入福布斯30岁以下精英榜 (亚洲)并获得IEEE-CS超算杰出新人奖。

新一代信息技术展火热招展中点击图片，直通展区详情↓↓↓