ChatGPT的出现使通用人工智能演进迭代方向清晰,要让大模型真正发挥生产力作用,接下来的关键是路径设计
【资料图】
文/谢丽容
7月6日,一个极其细分的行业大模型被外界关注。由中国商飞上海飞机设计研究院开发的三维超临界机翼流体仿真大模型“东方·翼风”,可以提升大飞机三维翼型设计速度1000倍,大大缩短商用大飞机研发周期。
此时,普通人对于ChatGPT的好奇和新鲜感逐步褪去,中国人工智能领域的新一轮迭代刚刚开始。众多涌入大模型赛道的团队和公司,需要考虑的是如何让大模型在产业和经济领域发挥真正的生产力作用。
仔细分层剖析商飞的“东方·翼风”大模型,它有两个必备要素:其一,大模型技术底盘,这不是商飞擅长的,由华为提供;其二,流体领域专家经验、数据,具体的设计思路,这是商飞擅长的。
科技公司和行业公司各司其职,技术演化成新生产力,推动产业和经济发展,这个逻辑在社会商业系统始终未变,人工智能领域,也将继续遵循这个逻辑。
基于对AIGC大模型长期演进方向的笃定,中美大型科技公司均在今年早些时候相继发布了各自的战略目标和策略。华为的定位和路径是什么?华为公司此前并未发布确定性定论。
华为轮值董事长胡厚崑7月6日在世界人工智能大会上给出了定论。他说,人工智能的发展,关键在于“走深向实”,华为的定位是赋能产业升级,服务好千行百业、服务好科学研究。
围绕这个定位,华为有两个路径:其一,算力领域,打造强有力的算力底座。其二,大模型领域,从通用大模型到行业大模型,真正让人工智能使能行业,助力科研。
简单理解,关键词是“基础”和“做实”,算力,定位是算力底座;大模型,目标是千行百业。
胡厚崑在这次演讲中公布了一组数字:面向大模型的创新,华为提供了全流程的使能平台,支撑科研机构和企业客户,原生孵化了20多个基础大模型,同时适配10多个业界主流的大模型,中国大模型中约一半由昇腾AI支撑。
这个成绩很是亮眼,但技术的尽头是商业,大模型的价值,最终要在千行百业的生产力提升上显现。今年3月,华为创始人任正非提到,人工智能软件平台公司对人类社会的直接贡献可能不到2%,98%都是对工业社会、农业社会的促进。因此,要关注应用,尤其是工业、农业社会的应用,模型的应用有时比模型本身还有前途。
大模型究竟为行业做什么?
行业大模型究竟可以在哪些领域贡献生产力,华为自研的盘古大模型两年多来的实践可供参考。
7月7日,华为常务董事、华为云CEO张平安在华为2023开发者大会上发布了盘古大模型3.0版本。盘古大模型2019年立项,第一代版本在2021年4月对外发布。
和ChatGPT通用大模型的属性不同,盘古大模型从立项之初就为行业而生,早期版本包括CV大模型、NLP大模型、科学计算大模型等。
盘古大模型3.0版本包括“5+N+X”三层架构,即基础模型、行业模型和场景模型,胡厚崑解释,最底层的基础模型,做好海量基础知识的学习,相当于“读万卷书”,打好基础;在此之上,针对不同的行业、不同的场景,进行专项知识和经验的训练,打造好用、易用的行业模型和场景模型,相当于“行万里路”。
盘古大模型现阶段目标是工业领域。胡厚崑透露了一组数据信息:自2021年发布以来,盘古大模型已经落地金融、制造、政务、煤矿、铁路等10多个行业,支撑400多个业务场景的AI应用落地。
工业不是一个泛指,科研和生产两大领域均要全面布局。
在科研领域,华为目前已经推出药物分子、气象和海浪等一系列大模型。胡厚崑尤其提到了盘古的气象大模型。盘古气象大模型1小时-7天的预测精度,超过欧美气象中心的表现,相关论文在国际期刊《Nature》杂志上发表。
气象预测是科研领域的一个重难点。以台风为例,全球每年大约会生成80个台风,其中影响西北太平洋和南海的大约有25个,平均有7个会登陆中国。2022年台风灾害造成的直接经济损失54.2亿元。
传统的气象预测采用HPC高性能计算机来计算,如果要预测一个台风未来十天的路径,需要在超级计算机上,利用超过3000个节点的超级计算机上花费数小时进行仿真。缺点是资源消耗大,预测耗时长,成本高。
盘古气象大模型是首个精度超过传统数值预报方法的AI气象预测方法。
从预测的精准度角度来看,它是一种3D高分辨率AI气象预报方法,空间分辨率上,水平精度是在0.25°×0.25°这样的精度上,大概对应的物理范围是28公里×28公里,高度上是将空间从海平面到高空分层13个等压层,会使得预报更精准;
从资源消耗来说,只需要单机单卡,10秒内就可完成一次气象预测;
从预测的频来说,传统预报是六个小时预测一次,盘古可以做到一个小时做一次预测。
去年8月,盘古气象大模型预测台风“马鞍”的轨迹和登陆时间,准确率达90%,远超行业平均水平。今年5月,华为盘古大模型提前五天预报出台风“玛娃”将在中国台湾岛东部海域转向路径。
盘古气象大模型的训练数据来源是过去40多年全球开放的气象数据,目前对外提供API接口,可提供天气预测、海浪预测、台风路径预测、寒潮/高温预报等多种气象预测。
7月6日,华为云盘古气象大模型研究成果在《Nature》正刊发表。这是中国科技公司十年来首篇作为唯一署名单位发表在《Nature》正刊上的论文。
在科研领域,盘古的药物分子大模型也有所进展。新药研发周期漫长众所周知。一款新药研发通常需要10年时间、花费10亿美金;盘古药物分子大模型的推进性表现在,可以将先导药物研发周期缩短至1个月,研发成本降低70%。
今年5月,西安交通大学第一附属医院刘冰教授基于华为云盘古药物分子大模型,研发出一款超级抗菌药Drug X。据介绍,Drug X有望成为全球近40年来首个新靶点、新类别的抗生素,改变病人面对“超级耐药菌”感染时无药可用的局面。
在工业生产领域,盘古矿山大模型的落地有一定代表性。
煤矿生产是一项复杂、危险性较高的工作,中国采矿业现状是,300米井下仍需大量人员现场作业,通过人工智能来实现“少人无人”的安全高效作业是煤矿智能化追求的重要目标。不过,这件事并不好做,人工智能在煤矿行业落地存在着场景需求多、矿山间复制难、场景落地难等现实问题。
场景多、落地难,导致此前的人工智能解决方案,多是针对某个或某几个特定的场景去特定解决。
通用基础大模型的优势在于“通用”和“自学习”。盘古矿山大模型只需导入海量无标注的矿山场景数据进行预训练,即可进行无监督自主学习,一个大模型可以覆盖煤矿的采、掘、机、运、通、洗选等业务流程下的1000多个细分场景的通用。
大模型的“通用”如何体现在煤矿场景里?可以用行业泛化性的特点来理解,比如,已经开发训练完成的场景算法模型应用到其他相似场景时,仅通过少量新场景数据加入训练,即可实现新场景快速复制部署。
如何理解大模型在具体煤矿里的“自学习”特性?煤矿场景非常多,异常场景无法穷举,盘古大模型会大量学习正常样本特征,在日常AI监控过程中自动识别异常样本,发现并确认异常场景。另外,构建半自动化机制,边端识别误报/未知异常样本,人工进行甄别后,样本数据用于重新训练升级模型,持续迭代,越用越好。
盘古矿山大模型目前在全国8个矿井规模使用。另一个新消息是,山东能源正在与华为云基于盘古大模型联合创新,覆盖7大业务系统,正在开发和实施首批21个应用场景。
无论是科研还是生产,大模型在千行百业中效率确定性和收益确定性正在被验证。
过去十几年,上一代AI算法已经在各行各业(通过大数据或充分的训练数据)开启生产力的变革,比如推荐算法和千人千面,工业领域的智能机械臂,交通领域的车辆自动巡航。
该阶段的大部分算法开展方向更多倾向于小模型,通过在某一特定领域的固定场景特定数据,训练出以服务于指定场景操作的辅助模型,以提高在对应场景下的生产效率。
将通用大模型训练的结果通过行业大模型的方式带到产业的科研和生产流程中去,意味着发展了大半个世纪的人工智能领域步入了广泛意义生产力提升的新时期。
做强算力底座
人工智能的发展,算力是基础。但在中国当前的情况下,算力在可获取性和成本方面,都面临着不小的挑战。胡厚崑在发言中提到,华为在人工智能领域的另一个重要目标,是做强算力底座,让算力不再成为人工智能发展的瓶颈。
中国信通院《中国算力白皮书(2022)》按照服务器算力总量估算(年服务器出货规模×当年服务器平均算力)称,全球算力规模美国占比34%,中国占比33%,欧洲占比14%,日本占比5%,其他国家或地区占比14%。
此外,硬件和软件将仍然是人工智能市场上的主角,市场调研机构IDC在今年5月公布的数据预测,2026年中国人工智能市场规模将达到269亿美元,其中硬件148.5亿美元,软件76.9亿美元,服务38.9亿美元。硬件、软件、服务的年复合增长率分别为15.1%、 32.0%、28.5%。
面对如此之大的市场,华为需要根据自身的基因和优势来综合排布。
在算力能力的建设方面,华为的关键词是“自研”和“开放”。在相对底层的计算效率研究方面,华为的打法是架构创新。多年投资基础研究,推出自主研发的达芬奇架构,用创新的处理器架构来匹配算力的增速。
最新的消息是,华为在计算节点层面推出了对等平构架构,突破传统的以CPU为中心的异构计算带来的性能瓶颈,从而提升整个计算的带宽、降低时延,节点性能得到30%的提升。
在算力至关重要的芯片处理器领域,华为也有自己的打法。2018年,基于自研的达芬奇架构,华为推出昇腾处理器,昇腾处理器和华为此前推出的鲲鹏处理器有所不同。在架构上,鲲鹏芯片采用的是ARM架构,而昇腾芯片采用的是自研的达芬奇架构;鲲鹏芯片主要支持高性能计算和大数据处理,而昇腾芯片主要支持深度学习推理和训练。
另外,鲲鹏芯片的性价比较高,适合大规模部署,而昇腾芯片的性能更高,可以满足更复杂的需求。
换句话说,昇腾处理器是对标目前大模型部署中炙手可热的英伟达A100的。两家公司的官方理论数据显示,理论值上,华为昇腾910芯片在理论性能和功耗上与英伟达主流的A100、H100可以基本相当,但在实际场景中,昇腾芯片相对稚嫩,还有不少可完善空间。
华为正在做的另一件事情是,围绕昇腾芯片打造昇腾AI集群,结合华为的基因特点,发挥云、计算、存储、网络、能源的综合优势。可以理解为把AI数据中心当成一台超级计算机来设计,使昇腾AI集群性能更高、更可靠。
华为目前在国内建设的规模最大的AI计算集群在深圳鹏城云脑II期,目前算力是1000P的规模,按照规划,到2024年三期的时候,规模会达到16000P的水平。
鹏城云脑II实现了全栈软硬件的自主可控,蝉联了多项全球AI性能榜单的冠军。“鹏城云脑Ⅱ”搭载了4096颗华为昇腾AI芯片,每颗芯片的算力与英伟达的A100相当,整机算力达到每秒100亿亿次AI运算,能为大模型训练提供强大的算力支持。目前,“鹏城云脑”约70%的机时对外开放服务,已支撑近千个国产AI大模型的训练。
中国工程院院士高文是鹏城实验室主任。高文在7月6日的世界人工智能大会上提到,美国的算力指数排名全球第一,比中国大概多了20%-30%的算力,GDP也比中国多20%-30%,“什么时候我们的算力超过了美国,GDP也有望超过美国。所以发展人工智能和经济没有匹配的算力是不可能的。”
在硬件方面,华为不直接对外销售处理器,优先支持合作伙伴发展整机。今年开始,华为在硬件方面进一步开放,推出了更多样化的模组和板卡,30多家硬件合作伙伴基于昇腾AI,推出了上百款人工智能硬件产品,以满足不同行业场景差异化的需求。
因此,可以理解华为的昇腾AI集群创新逻辑是,在各单点创新的基础上,充分发挥云、计算、存储、网络、能源的综合优势进行架构创新。据了解,目前,昇腾AI集群已支撑全国25个城市的人工智能计算中心建设,其中7个城市公共算力平台入选首批国家“新一代人工智能公共算力开放创新平台”。
7月6日,华为宣布昇腾AI集群全面升级,集群规模从最初的4000卡集群扩展至16000卡,是业界首个万卡AI集群,拥有更快的训练速度和30天以上的稳定训练周期,这是行业平均水平的10倍。
在中国,算力需求是多种多样的,华为的策略是面向政府、大型企业、中小企业分别提供不同的算力解决方案。
在城市算力基础设施方面,华为为各地政府打造人工智能计算中心,提供普惠的算力基础设施服务。据统计,全国已有25个城市,如上海、武汉、西安等,基于昇腾AI建设了人工智能计算中心。
另一方面,针对有自建人工智能算力中心诉求的大型企业,华为的打法是帮助它们构建独立的算力中心。当前,中国移动、科大讯飞、南方电网等企业均在规划和建设大规模的算力集群,华为是算力提供方之一。
中小企业对AI算力需求旺盛且分散。华为的策略是在华为云上提供AI算力服务,这些中小企业就可以快速敏捷地实现开发和应用AI,云上获取,随取随用。
人工智能产业在中国走过十年道路,技术周期更迭,至今仍未形成模式化的稳定格局。对于今天的华为来说,在人工智能领域,以大底盘的基础布局来切入市场比单点应用要更有效率得多,规模效应有待后期释放。始于2018年制裁,对华为整体布局打法的改变巨大,对中国人工智能产业的影响,或许比预期中的还要深远。