AI大模型三要素:算力、算法、数据
算法、算力和数据是人工智能三大核心要素。AI算法持续突破创新,模型复杂度指数级提升,算法的不断突破创新也持续提升了算法模型的准确率和效率,各类加速方案快速发展,在各个细分领域应用落地,并不断衍生出新的变种,模型的持续丰富也使得场景的适应能力逐步提升。
1、算力
AI大模型所需要的计算量,大致上相当于参数量与数据量的乘积。大模型之所以“大”,就是因为参数众多和数据量庞大。过去5年,AI大模型的参数量几乎每年提升一个数量级,例如GPT-4参数量是GPT-3的16倍,达到1.6万亿个;而随着图像、音视频等多模态数据的引入,大模型的数据量也在飞速膨胀。这意味着想要玩转大模型,必须拥有大算力。
芯片决定算力,当前数据训练需要较高性能的芯片完成对整体模型神经网络的训练构建。OpenAI测算:2012年开始,全球AI训练所用的计算量平均每3.43个月便会翻一倍,远超摩尔定律。在肉眼可见的未来,算力不足将会是制约AI发展的最大因素。因此,芯片要做到性能过硬,只有制造出算力极强的高端芯片,才能满足智算时代的计算需求,让云好用,这是基础条件。
算力基础设施的投入阻挡了部分小公司的入局。应用层面只需调用整体大模型里的部分神经网络,故对芯片要求没有训练模型时那么高。
2、算法
三要素中,算法的研发难度相对较低,每家公司都有自己实现大模型的路径算法,且有众多开源项目可作为参考,中国公司最容易缩短甚至抹平差距。
3、数据
高质量的数据是助力AI训练与调优的关键,足够多、足够丰富的数据,是生成式AI大模型的根基。
OpenAI此前披露,为了AI像人类那样流畅交谈,研发人员给GPT-3.5提供多达45TB的文本语料,相当于472万套中国“四大名著”。这些语料的来源包括维基百科、网络文章、书籍期刊等,甚至还将代码开源平台Github纳入其中。
当前中文语料规模与质量上不如英文语料。根据 W3Techs,中文网站占全球网站数1.3%,英文网站占比 63.6%。除此以外,由于中国移动互联网发展较为成熟,大量中文数据资源被存于各家企业或机构里,较难共享。