一文读懂AI大模型发展历程

2023-11-05 09:23:12.0 IT智库定义内涵

AI大模型是“大数据+大算力+强算法”结合的产物，凝聚了大数据内在精华的“隐式知识库”。包含了“预训练”和“大模型”两层含义，即模型在大规模数据集上完成了预训练后无需微调，或仅需要少量数据的微调，就能直接支撑各类应用。

AI大模型成为人工智能迈向通用智能的里程碑技术。AI大模型的落地应用使得AI的三要素由“数据、算法、算力”演变为“场景、产品、算力”。基于数据的互联网时代和基于算力的云计算时代之后，我们将进入基于大模型的AI时代。

AI大模型的发展历程

► 从参数规模上看，AI大模型先后经历了预训练模型、大规模预训练模型、超大规模预训练模型三个阶段，每年参数规模至少提升10倍，参数量实现了从亿级到百万亿级的突破。目前千亿级参数规模的大模型成为主流。

►从技术架构上看，Transformer架构是当前大模型领域主流的算法架构基础，由此形成了GPT和BERT两条主要的技术路线，其中BERT最有名的落地项目是谷歌的AlphaGo。在GPT3.0发布后，GPT逐渐成为大模型的主流路线。综合来看，当前几乎所有参数规模超过千亿的大型语言模型都采取GPT模式，如百度文心一言，阿里发布的通义千问等。

► 从模态支持上看，AI大模型可分为自然语言处理大模型，CV大模型、科学计算大模型等。AI大模型支持的模态更加多样，从支持文本、图片、图像、语音单一模态下的单一任务，逐渐发展为支持多种模态下的多种任务。

►从应用领域上看，大模型可分为通用大模型和行业大模型两种。通用大模型是具有强大泛化能力，可在不进行微调或少量微调的情况下完成多场景任务，相当于AI完成了“通识教育”，ChatGPT、华为的盘古都是通用大模型。行业大模型则是利用行业知识对大模型进行微调，让AI完成“专业教育”，以满足在能源、金融、制造、传媒等不同领域的需求，如金融领域的BloombergGPT、航天-百度文心等。

当前，AI大模型的发展正从以不同模态数据为基础过渡到与知识、可解释性、学习理论等方面相结合，呈现出全面发力、多点开花的新格局。

AI大模型发展阶段

AI大模型发展历经三个阶段，分别是萌芽期、沉淀期和爆发期。

►萌芽期（1950-2005）：以CNN为代表的传统神经网络模型阶段。

1956年，从计算机专家约翰·麦卡锡提出“人工智能”概念开始，AI发展由最开始基于小规模专家知识逐步发展为基于机器学习。1980年，卷积神经网络的雏形CNN诞生。1998年，现代卷积神经网络的基本结构LeNet-5诞生，机器学习方法由早期基于浅层机器学习的模型，变为了基于深度学习的模型,为自然语言生成、计算机视觉等领域的深入研究奠定了基础，对后续深度学习框架的迭代及大模型发展具有开创性的意义。

►沉淀期（2006-2019）：以Transformer为代表的全新神经网络模型阶段。

2013年，自然语言处理模型 Word2Vec诞生，首次提出将单词转换为向量的“词向量模型”，以便计算机更好地理解和处理文本数据。2014年，被誉为21世纪最强大算法模型之一的GAN（对抗式生成网络）诞生，标志着深度学习进入了生成模型研究的新阶段。2017年，Google颠覆性地提出了基于自注意力机制的神经网络结构——Transformer架构，奠定了大模型预训练算法架构的基础。2018年，OpenAI和Google分别发布了GPT-1与BERT大模型，意味着预训练大模型成为自然语言处理领域的主流。在探索期，以Transformer为代表的全新神经网络架构，奠定了大模型的算法架构基础，使大模型技术的性能得到了显著提升。

►爆发期（2020-至今）：以GPT为代表的预训练大模型阶段。

2020年，OpenAI公司推出了GPT-3，模型参数规模达到了1750亿，成为当时最大的语言模型，并且在零样本学习任务上实现了巨大性能提升。随后，更多策略如基于人类反馈的强化学习（RHLF）、代码预训练、指令微调等开始出现, 被用于进一步提高推理能力和任务泛化。2022年11月，搭载了GPT3.5的ChatGPT横空出世，凭借逼真的自然语言交互与多场景内容生成能力，迅速引爆互联网。2023年3月，最新发布的超大规模多模态预训练大模型——GPT-4，具备了多模态理解与多类型内容生成能力。在迅猛发展期，大数据、大算力和大算法完美结合，大幅提升了大模型的预训练和生成能力以及多模态多场景应用能力。如ChatGPT的巨大成功,就是在微软Azure强大的算力以及wiki等海量数据支持下，在Transformer架构基础上，坚持GPT模型及人类反馈的强化学习（RLHF）进行精调的策略下取得的。