一文读懂AI大模型发展历程

AI大模型是“大数据+大算力+强算法”结合的产物,凝聚了大数据内在精华的“隐式知识库”。包含了“预训练”和“大模型”两层含义,即模型在大规模数据集上完成了预训练后无需微调,或仅需要少量数据的微调,就能直接支撑各类应用。

AI大模型成为人工智能迈向通用智能的里程碑技术。AI大模型的落地应用使得AI的三要素由“数据、算法、算力”演变为“场景、产品、算力”。基于数据的互联网时代和基于算力的云计算时代之后,我们将进入基于大模型的AI时代。

AI大模型的发展历程

► 从参数规模上看,AI大模型先后经历了预训练模型、大规模预训练模型、超大规模预训练模型三个阶段,每年参数规模至少提升10倍,参数量实现了从亿级到百万亿级的突破。目前千亿级参数规模的大模型成为主流。

►从技术架构上看,Transformer架构是当前大模型领域主流的算法架构基础,由此形成了GPT和BERT两条主要的技术路线,其中BERT最有名的落地项目是谷歌的AlphaGo。在GPT3.0发布后,GPT逐渐成为大模型的主流路线。综合来看,当前几乎所有参数规模超过千亿的大型语言模型都采取GPT模式,如百度文心一言,阿里发布的通义千问等。

► 从模态支持上看,AI大模型可分为自然语言处理大模型,CV大模型、科学计算大模型等。AI大模型支持的模态更加多样,从支持文本、图片、图像、语音单一模态下的单一任务,逐渐发展为支持多种模态下的多种任务。

►从应用领域上看,大模型可分为通用大模型和行业大模型两种。通用大模型是具有强大泛化能力,可在不进行微调或少量微调的情况下完成多场景任务,相当于AI完成了“通识教育”,ChatGPT、华为的盘古都是通用大模型。行业大模型则是利用行业知识对大模型进行微调,让AI完成“专业教育”,以满足在能源、金融、制造、传媒等不同领域的需求,如金融领域的BloombergGPT、航天-百度文心等。

当前,AI大模型的发展正从以不同模态数据为基础过渡到与知识、可解释性、学习理论等方面相结合,呈现出全面发力、多点开花的新格局。

AI大模型发展阶段

AI大模型发展历经三个阶段,分别是萌芽期、沉淀期和爆发期。

►萌芽期(1950-2005):以CNN为代表的传统神经网络模型阶段。


1956年,从计算机专家约翰·麦卡锡提出“人工智能”概念开始,AI发展由最开始基于小规模专家知识逐步发展为基于机器学习。1980年,卷积神经网络的雏形CNN诞生。1998年,现代卷积神经网络的基本结构LeNet-5诞生,机器学习方法由早期基于浅层机器学习的模型,变为了基于深度学习的模型,为自然语言生成、计算机视觉等领域的深入研究奠定了基础,对后续深度学习框架的迭代及大模型发展具有开创性的意义。


►沉淀期(2006-2019):以Transformer为代表的全新神经网络模型阶段


2013年,自然语言处理模型 Word2Vec诞生,首次提出将单词转换为向量的“词向量模型”,以便计算机更好地理解和处理文本数据。2014年,被誉为21世纪最强大算法模型之一的GAN(对抗式生成网络)诞生,标志着深度学习进入了生成模型研究的新阶段。2017年,Google颠覆性地提出了基于自注意力机制的神经网络结构——Transformer架构,奠定了大模型预训练算法架构的基础。2018年,OpenAI和Google分别发布了GPT-1与BERT大模型,意味着预训练大模型成为自然语言处理领域的主流。在探索期,以Transformer为代表的全新神经网络架构,奠定了大模型的算法架构基础,使大模型技术的性能得到了显著提升。


►爆发期(2020-至今):以GPT为代表的预训练大模型阶段。

2020年,OpenAI公司推出了GPT-3,模型参数规模达到了1750亿,成为当时最大的语言模型,并且在零样本学习任务上实现了巨大性能提升。随后,更多策略如基于人类反馈的强化学习(RHLF)、代码预训练、指令微调等开始出现, 被用于进一步提高推理能力和任务泛化。2022年11月,搭载了GPT3.5的ChatGPT横空出世,凭借逼真的自然语言交互与多场景内容生成能力,迅速引爆互联网。2023年3月,最新发布的超大规模多模态预训练大模型——GPT-4,具备了多模态理解与多类型内容生成能力。在迅猛发展期,大数据、大算力和大算法完美结合,大幅提升了大模型的预训练和生成能力以及多模态多场景应用能力。如ChatGPT的巨大成功,就是在微软Azure强大的算力以及wiki等海量数据支持下,在Transformer架构基础上,坚持GPT模型及人类反馈的强化学习(RLHF)进行精调的策略下取得的。