DeepSeek技术溯源及前沿探索
导读: 该报告由浙江大学朱强主讲,深入探讨了语言模型从基础理论到前沿应用的发展历程,重点剖析了Transformer、ChatGPT、DeepSeek等关键技术,展望了新一代智能体的发展方向。
1. 语言模型基础:语言模型旨在计算词序列成句的概率,其基本任务是编码,使计算机理解人类语言。从One - hot Encoding到Word Embedding,提升了表示效率和语义理解。技术演化历经基于统计的N - gram、神经网络的LSTM/GRU,到Transformer时代,Transformer的自注意力机制、多头注意力等创新,解决了传统模型的诸多局限,成为大模型的技术基座。
2. 大型语言模型发展脉络:预训练时代,BERT、GPT等模型借助自监督算法解决数据标注问题,推动语言模型发展。GPT - 3具有1750亿参数,展现出涌现能力,是语言模型的转折点。ChatGPT基于GPT - 3.5,通过基于人类反馈的强化学习(RLHF)进行指令微调,实现了从技术到产品的跨越,具备翔实回应、拒绝不当问题等能力,开启了人工智能的新时代。多模态模型进一步拓展了语言模型的能力边界,如GPT - 4v、GPT - 4o实现了跨模态交互和全模态前沿应用 。
3. DeepSeek技术解析:DeepSeek并非基于颠覆性基础理论创新,而是在算法、模型和系统层面进行协同工程创新。其V3基座模型采用混合专家模型,通过多头潜在注意力机制、FP8混合精度、DualPipe算法等优化,提升训练效率并降低显存占用。R1系列模型通过有监督微调、强化学习等步骤,赋予模型推理能力,并通过知识蒸馏压缩模型参数,提升低参数量模型性能,在受限资源下为通用人工智能探索开辟新路径,对大模型应用层、中间层和基础模型层产生全栈影响。
4. 新一代智能体展望:从LLM到Agent的发展,标志着智能体技术的重大进步。新一代智能体由Agent和LLM组成,LLM作为大脑,具备逻辑推理能力,能够进行任务规划、工具选择与调用,以及记忆管理。在时空智能领域,以“时空型GPT”为决策大脑的多智能体协同系统,可实现流程自组织、任务自执行和内容自生成,推动时空智能的自主化服务发展。
1. 语言模型基础:语言模型旨在计算词序列成句的概率,其基本任务是编码,使计算机理解人类语言。从One - hot Encoding到Word Embedding,提升了表示效率和语义理解。技术演化历经基于统计的N - gram、神经网络的LSTM/GRU,到Transformer时代,Transformer的自注意力机制、多头注意力等创新,解决了传统模型的诸多局限,成为大模型的技术基座。
2. 大型语言模型发展脉络:预训练时代,BERT、GPT等模型借助自监督算法解决数据标注问题,推动语言模型发展。GPT - 3具有1750亿参数,展现出涌现能力,是语言模型的转折点。ChatGPT基于GPT - 3.5,通过基于人类反馈的强化学习(RLHF)进行指令微调,实现了从技术到产品的跨越,具备翔实回应、拒绝不当问题等能力,开启了人工智能的新时代。多模态模型进一步拓展了语言模型的能力边界,如GPT - 4v、GPT - 4o实现了跨模态交互和全模态前沿应用 。
3. DeepSeek技术解析:DeepSeek并非基于颠覆性基础理论创新,而是在算法、模型和系统层面进行协同工程创新。其V3基座模型采用混合专家模型,通过多头潜在注意力机制、FP8混合精度、DualPipe算法等优化,提升训练效率并降低显存占用。R1系列模型通过有监督微调、强化学习等步骤,赋予模型推理能力,并通过知识蒸馏压缩模型参数,提升低参数量模型性能,在受限资源下为通用人工智能探索开辟新路径,对大模型应用层、中间层和基础模型层产生全栈影响。
4. 新一代智能体展望:从LLM到Agent的发展,标志着智能体技术的重大进步。新一代智能体由Agent和LLM组成,LLM作为大脑,具备逻辑推理能力,能够进行任务规划、工具选择与调用,以及记忆管理。在时空智能领域,以“时空型GPT”为决策大脑的多智能体协同系统,可实现流程自组织、任务自执行和内容自生成,推动时空智能的自主化服务发展。
温馨提示:本平台所有资料存储于知识星球平台,已加入的朋友可点击上方链接直接下载,未加入的朋友请扫描右侧二维码加入后方可下载。

免责声明:
来源: 浙江大学,互联互通社区推荐阅读,版权归作者所有。文章内容仅代表作者独立观点,不代表互联互通社区立场,转载目的在于传递更多信息。如涉及作品版权问题,请联系我们删除或做相关处理!