“算力风暴”是横亘于国内大模型发展路上的第一道坎,数据显示,过去四年,大模型参数量以年均400%复合增长,AI算力需求增长超过15万倍,远超摩尔定律。
“商汤人工智能计算中心几乎已经满负荷,正在扩建,上海电信等算力提供方也在建设国产算力集群,即将对外开放。”业内人士向《IT时报》记者表示。
继打造人工智能产业高地后,上海提出要建设具有国际影响力的大模型生态高地,从魔都到“模”都,要跨过算力坎。上海正在以全市之力解决算力短缺问题,政府牵头统筹、调度、共享算力资源,还对使用算力的大模型企业大规模发送“算力券”。
更多中小企业表示,数据和人才是大模型之争的核心资源,也是燃眉之急。经过近十年科创中心建设、五年人工智能高地建设,上海已经深谙创新之路。不久前发布的《上海市推动人工智能大模型创新发展若干措施(2023~2025年)》中提出十一条措施,不仅要共建共享语料数据资源,还要支持大模型人才落户。
“算力风暴”倒逼芯片国产化
上海建设自主可控算力网络
“算力很缺,毕竟做大模型预训练急需好用的大集群。”达观数据CEO陈运文向《IT时报》记者提到,为了训练曹植大模型,达观数据斥巨资自建中等规模的算力集群,但对小企业来说,如果无法承担高额算力成本,只能用别人开发好的大模型。
在上海,目前规模最大的算力中心应数商汤人工智能计算中心(AIDC),已经上架3万多块GPU,产生超过6000 PetaFLOPS算力,可支持20多个千亿参数规模的大模型同时训练。
然而,即使商汤早在2022年便已建成这座占地87亩的人工智能计算中心,但AIGC带来的大模型算力风暴席卷速度远超预期。如今,这一亚洲最大的智能计算中心正在扩建中。
但,选谁的芯片?
随着美国针对英伟达高端GPU先后发布两次禁令,中国企业已经意识到,只有支持国产GPU,走自主可控之路,才能在大模型之路上走得长远。
上海市经信委基础设施处处长潘焱在2023年11月举行的“算力网络与大模型”产业生态论坛上表示,除了保障算力供给与调度外,上海也在构建自主可控的算力网络建设。同一论坛上,上海电信副总工程师肖晴提到,上海电信已经在临港建设了数千卡国产算力集群,2024年争取推出万卡集群。
2023年4月,《IT时报》记者在参观商汤AIDC时发现,其芯片国产化已在进程中。
同样作为算力提供方,优刻得在内蒙古乌兰察布和上海青浦两大数据中心可提供超3000 PetaFLOPS的AI算力,也在布局国产算力,与沐曦、壁仞等国产芯片厂商联合测试。
优刻得副总裁刘杰曾在接受《IT时报》记者采访时表示,虽然在支持大模型训练上,国产芯片尚有一段距离需追赶,但在大模型推理上,国产芯片较有前景,未来预估大模型训练和推理的算力芯片需求是1:3至1:5,甚至更高。
最高补贴10%
上海大规模发放“算力券”
上海市区两级正在密集出台算力相关政策。据《IT时报》记者了解,上海政府对算力补贴的政策分为两大类,一是针对算力提供方,对纳入统筹管理的算力平台进行建设补贴;二是针对算力使用方,对使用算力的单位给予最高10%算力补贴,类似于“算力补贴券”。
2023年11月,上海制定了《上海市推动人工智能大模型创新发展若干措施(2023~2025年)》,被称为人工智能大模型发展十一条措施。其中,第三条提到的大模型智能算力加速计划,将对2024年底前在沪完成智能算力部署并纳入统筹、接受调度的算力建设主体,经评估给予适当额度的部署奖励;对租用纳入本市统筹调度的算力进行大模型研发的本市主体,经评估按算力集群规模和成果水平给予最高10%的租用补贴。建设市域极速智能算力承载网,实现市域智能算力中心间100Gb/S以上高速直连和毫秒级时延。
2023年12月,徐汇区开展人工智能大模型算力补贴项目,申报条件主要是设立在徐汇区的算力需求主体,上年度研发投入占主营业务收入5%以上,研发人员占项目研发团队总人数50%以上等等。
徐汇区科委主任张宁在“算力网络与大模型”生态产业论坛上重点提到几点,一是在徐汇西岸创建“模速空间”大模型生态社区;二是与算力供应商开展区域“智能算力加速计划”,加强市区算力统筹、探索自建算力服务;三是大模型算力补贴项目,确保大模型企业算力“够用、好用”。
上海市经信委也在落实“模速空间”的专项政策,协调上海电信等算力供应方,加速对“模速空间”的算力供给,对接入驻企业的算力需求,支持企业的模型开发与应用。
根据规划,到2025年,上海市数据中心算力将超过18000 PFLOPS,人工智能公共算力服务平台能级跃升,完善算力交易机制,实现跨地域算力智能调度,通过高效算力调度,推动算力供需均衡,带动产业发展作用显著增强。这是《上海市推进算力资源统一调度指导意见》提出的2025年计划,可见上海对解决算力困局的清晰目标。
谁掌握优质数据谁突围
上海共建共享数据资源
算力、算法、数据,被认为是大模型的竞争三要素。近期,研究机构Epoch AI指出,对数据需求急剧增加,以致可用于训练的高质量文本可能会在2026年耗尽。
“优质数据才是未来大模型的核心竞争力,谁掌握的优质数据多,谁能用得更好,谁就能突围,但中文教科书只有英文的十分之一。”达观数据CEO陈运文认为,知识密度高的文档资料才是大模型训练的优质数据,包括教科书、论文、报告等,而微信聊天记录、淘宝聊天记录等数据的有效性弱。目前,散落在出版社、图书馆等机构的优质数据,难以界定版权归属于作者、出版社还是其他机构,这将成为大模型发展的一大难点。
优刻得计算产品线总经理钟春山也认为,中文数据的短缺将阻碍大模型的发展,应加大数据共享。另外,政府可以多开放应用场景给大模型公司,场景用起来有三个好处:首先能形成反馈,对模型进行调整优化;其次能产生更多经济价值,让大模型真正深入产业;最后能帮助各行各业提高效率,解决信息不对称的问题等。
目前,全球70%的数据源仅停留在免费公开数据集的层面,上海数交所总经理汤奇峰也曾表示,大模型成长所需的高质量数据库仍存在供给不足、质量不高、多样性匮乏、标准欠缺等问题。
2023年7月6日世界人工智能大会开幕式上,上海宣布成立大模型语料数据联盟,由上海人工智能实验室联合中央广播电视总台、人民网、国家气象中心、中国科学技术信息研究所、上海报业集团、上海文广集团等10家单位联合发起。
2023年11月,联盟“朋友圈”扩容,12家新成员加入,同时,上海人工智能实验室联合人民网发起成立中国大模型语料数据联盟安全治理专委会,为的是推动大模型数据安全治理与隐私保护。
早在人工智能发展初期,上海已经在数据共享上开了许多先河。此次,上海市人工智能大模型发展十一条措施也提到,共建共享语料数据资源,包括组建大模型语料数据联盟、建立语料数据知识产权保护框架、依托上海数据交易所建立语料数据交易板块等。
AI工程师薪酬跃居首位
上海吸引大模型人才落户
AI Agent是大语言模型落地的最热应用场景之一,澜码科技是研发AI Agent等大模型应用的公司。“我们直接调用大模型,算力成本由大模型公司承担,类比云计算公司,我们调用云服务,按需付费,所以难点是如何挑选不同能力、不同价格的大模型。”澜码科技CEO周健解释道,算力对大模型下游企业来说,还不是最难的挑战。
对周健来说,最大的挑战是人,AI产品经理、AI需求分析师都十分稀缺。
咨询公司麦肯锡一份关于人工智能的报告显示,预计2030年中国对AI专业人员的需求将增至2022年的6倍,人才缺口将达到400万人。抢人大战让人工智能工程师的薪酬水涨船高,智联招聘2023年第四季度《中国企业招聘薪酬报告》显示,人工智能工程师的平均招聘月薪跃居职业榜首位,高达22788元。
早在2018年,上海就已开始筑巢引凤,上海市经信委主任张英曾介绍,从2018年至2022年,五年间,上海人工智能产业规模从1340亿元提升至3056亿元,产业人才从10万提升到23万。
如今则进一步落实吸引大模型人才的政策。上海市人工智能大模型发展十一条措施也提到,优先推荐大模型创新重点人才纳入国家和本市相关高层次人才计划,重点支持大模型相关紧缺技能人才落户等。
“上海的数字化建设水平、数字化人才储备,都是上海发展生成式人工智能的先天优势。”这是吸引周健留在上海创业的重要原因。
人工智能走到2.0时代,这句话在上海AI圈,已然具体可感知。金山办公WPS AI背后的大模型创业公司MiniMax,其联合创始人是前商汤科技副总裁、通用智能技术负责人闫俊杰。主攻AI Agent的澜码科技,其创始人兼CEO周健是依图10号员工。
在一波接一波的人工智能浪潮中,能留住人才,才是筑造高地的根本。
大模型企业到底最缺什么?多家上海大模型上下游企业告诉《IT时报》记者,当前最紧急的是缺算力,中期要解决的是缺人才,未来最重要的难题是缺数据。
上海,因为错过了互联网浪潮下诞生的BAT,多少年来被质疑不适合创业。但它用近10年的时间证明,上海适合创新。2015年,上海提出要建设具有全球影响力的科技创新中心,在创新上寻觅新疆域。
人工智能是上海走向科技创新中心的三驾马车之一,2022年,上海出台人工智能领域首部省级地方性法规《上海市促进人工智能产业发展条例》,正式提出把上海市建成具有国际影响力的人工智能高地。不仅为我国人工智能治理贡献了“上海方案”,也为上海接住大模型浪潮铺了路。
如今,上海市人工智能大模型发展十一条措施出台,政府在算力、人才、数据等方面全维度着力,可见魔都上海向“模”都的转型,是坚定而具体的。