AI大模型技术解析-大模型背后的冷知识
AI大模型技术解析-大模型背后的冷知识
更新时间: 浏览次数: 258
想快速掌握大模型关键技术?本文从AI产品经理视角,深入浅出剖析Agent、MCP等术语,涵盖定义、原理、应用场景及相关概念关系,为你构建清晰知识体系,助你在大模型浪潮中把握技术核心,提升产品竞争力。
在大模型快速演进的今天,我们每天都能听到各种新词横飞—Agent、SFT、MCP、RAG、LoRA……仿佛不懂这些术语,就跟不上AI时代的脚步。然而,这些词语背后不仅仅是技术,更代表了AI应用的逻辑结构、训练范式和演进方向。
作者从一名AI产品经理视角来带你们了解并知道这些内容是做什么的。
Agent
定义:国内也叫做(智能体)是一个可以自主感知、思考、决策并行动的软件“角色”或系统,它能根据外界输入自主完成任务。
先说结论:Agent是一个具备目标导向、自主决策与实际执行能力的AI智能体,正是AI从“懂你说什么”到“能替你完成”的关键一跃。
通俗解释:你可以把Agent想象成你手机里的“聪明小助理”——比如Siri、ChatGPT、或自动回复机器人,但更智能、更有主见。
1.Agent原理
下面用一个通俗易懂、生活化的方式,详细解释Agent是什么、它怎么工作的、背后是怎么分析用户需求的。
环境/用户→[观察]→状态/记忆→[推理/规划]→[行动/调用工具]→[获得反馈]→循环
一句话:Agent是一个能“感知—思考—行动—再感知”的闭环系统。它在环境中接收信息(观察),根据目标与记忆做决策(推理/规划),调用工具执行动作(API/代码/机器人手臂等),再根据结果调整后续行为,直到完成任务或达到终止条件。
举个例子:
假设你跟它说:“我想订一张下周去北京的火车票。”
普通程序只能告诉你一些车次信息。
Agent会自动:
明白你要“订票”这个意图;
知道你的位置是“上海”,目的地是“北京”;
查询你喜欢的出发时间和座位类型(软卧/高铁/二等座);
登录订票系统;
自动帮你选好车次、填好乘客信息;
提醒你付款,甚至自动完成。
这就好像它“帮你办事”,不需要你一步步教它。
2.Agent的基本组成
Agent不只是一个程序,而是由多个“脑子+手脚”组成的智能体:
3.Agent是怎么“理解”你需求的?
背后靠的是大语言模型+多模态感知+推理引擎等AI技术,流程如下。
总结一句话:
Agent=能理解人类语言+自主思考+自动办事的“数字小助手”。
它不只是聊天,而是“有大脑、能干活”的AI小工人,可以应用于自动客服、个人助理、数据分析、企业流程等各种场景。
与相关概念的关系:
与Chatbot的区别:Chatbot多为“问答/对话”,Agent以完成目标为中心,能主动拆解任务、调用工具与记忆、与环境交互并闭环。
与RAG的关系:RAG是一种取数/补充上下文的技能。在Agent中,RAG常被当作一个工具:当缺知识或需查事实时调用检索再决策。
与MCP/工具协议:像MCP这类“模型与工具/资源之间的协议与标准”,本质是让Agent以统一方式发现并调用外部能力(文件、数据库、工作流、API),降低集成成本、提升可移植性。
与SFT(监督微调):SFT可把“遵循指令、使用工具、写结构化调用”的能力固化进模型,使Agent更稳更听话;也可对特定域(客服、法务、运维)做专精。
4.Agent特征
自主性(Autonomy):智能体能够在没有人类直接、实时干预的情况下独立运行和做决策。它的行为是基于自身的经验和感知,而不仅仅是执行预设的指令。
反应性(Reactivity):能够感知环境的变化并及时做出响应。例如,一个机器人在前进时,如果传感器检测到障碍物,它会立即停下或绕行。
主动性(Proactiveness):不仅仅是被动地对环境做出反应,还能主动地、有目标地发起行动,以达成既定目标。例如,一个投资交易智能体可能会主动分析市场趋势,并在它认为合适的时机执行买卖操作,而不是等待指令。
学习能力(Learning/Adaptability):这是智能体“智能”的核心体现。它能够从过去的经验中学习,不断调整和优化自己的行为策略,以在未来获得更好的性能。例如,一个下棋AI(如AlphaGo)通过数百万次的自我对弈来学习,不断提升棋艺。
目标导向(Goal-driven):智能体的所有行为都是为了实现一个或多个预设的目标。例如,恒温器的目标是保持室内温度在一个特定范围。
社交性(SocialAbility):在多智能体系统(Multi-AgentSystem)中,智能体能够通过某种通信语言与其他智能体进行交互、协作、协调或谈判,共同完成更复杂的任务
MCP
1.MCP是什么?——像安排外卖小哥送餐的详细步骤
MCP的特征:
MCP就像你是一个外卖平台的调度员,你要让AI(小哥)完成一项任务,比如送餐,你会怎么安排?
你不会只说一句“去送餐”,你得一步步告诉他:
先查订单:哪位顾客、什么地址、点了什么?
去商家取餐:到哪个店、什么时间去拿?
规划路线:怎么送最快?
联系客户:临时找不到门牌号怎么办?
送达并确认:顾客收货后拍照留底
这就是MCP:把大任务分成多个小步骤,AI按步骤完成,更准也更聪明。
2.API是什么?——像你点了一单外卖
API是ApplicationProgrammingInterface的缩写,意为“应用程序编程接口”。
本质上是:
一个系统或服务暴露出来的接口或通信协议,用于让其他程序调用其功能或数据。
常见类型包括:
RESTfulAPI(Web服务,如GET/user/info)
LLMAPI(调用大模型,如OpenAIAPI)
内部系统API(企业系统之间通信)
举例:
用API向OpenAI发请求调用GPT模型
使用第三方支付API实现微信/Stripe支付功能
使用天气API获取实时气象数据
你作为用户,只要点一点按钮:“我要点外卖”→这个请求就发给外卖平台。
平台收到后,会自动调用后台:
派单给骑手
通知商家做菜
更新配送进度
你发的这个请求,就是API:你调用了别人的服务,让对方帮你干活。
总结对比:像你管理外卖平台vs你自己点外卖
一句话总结:MCP是AI干活时的“分步骤计划书”,API是你去找别人帮忙的一张“请求单”。
MCP是Multi-ComponentPrompting的缩写,中文叫“多组件提示工程”或“多模组件提示”。它是一种用于构建复杂任务链的提示工程框架,广泛用于Agent系统、RAG系统或链式大模型执行环境中。
3.MCP和API的区别
通俗理解:
MCP是你如何组织思路和任务让大模型聪明地一步步完成。
API是你如何把这个模型的能力打包成服务供别人调用。
Transformer
Transformer是一种在自然语言处理和生成任务中广泛使用的神经网络架构,由Google于2017年提出。它彻底改变了机器学习对语言的建模方式,是GPT、BERT等主流模型的基础。
一句话总结:Transformer是一种完全基于注意力机制的模型架构,可以并行处理序列数据,用于文本理解和生成任务。
1.Transformer是什么?(通俗版)
Transformer是一种人工智能的大脑结构,专门用来处理语言。比如:
让ChatGPT能看懂你的问题
让翻译软件知道“你好吗”该翻成“Howareyou”
让AI写小说、生成文章、做总结……
类比:Transformer就像一个特别聪明的「翻译专家团队」
你可以把Transformer想象成一个团队,这个团队里每个成员负责理解一个词,但他们都会:
互相沟通(注意力机制)
商量每个词之间的关系(谁更重要)
一起得出结论(比如:整个句子的意思)
举个例子——假设你说:
“小明今天去学校”
这个句子进入Transformer后,它会像这样处理:
“小明”是谁?和“去”有关系。
“今天”是时间词,要和“去”搭配。
“学校”是目的地,和“去”关系最紧。
于是它会得出结论:这是一个人今天去了学校。
2.Transformer有什么厉害的地方?
通俗记忆法:Transformer=“每个词都能开会的团队”
不像传统方法一个人拍板,Transformer更像:
每个词都开会每个词都能说:“我觉得我和某个词关系很大!”最终得出最合理的理解结果
它是很多AI的核心引擎!
ChatGPT(聊天)
Google翻译
Midjourney(图像AI)
Suno(AI音乐)
BERT(搜索引擎理解你的问题)
背后其实都在用Transformer!
2.工作原理详解(逐层分析)
1)输入编码(InputEmbedding+PositionEncoding)
将词转换为向量(WordEmbedding)
加上位置编码(因为Transformer不具备RNN的时序性,需显式添加位置信息)
2)Encoder编码器部分
包含N个重复的子结构,每个子结构有:
a.多头自注意力机制(Multi-HeadSelf-Attention)
每个单词都可以关注其他单词的表示。
多头机制能从多个角度建模关系。
b.前馈神经网络(FeedForward)
对每个位置单独应用一个小型的两层全连接网络。
增强非线性建模能力。
c.残差连接+LayerNorm
保持梯度稳定,增强训练效果。
3)Decoder解码器部分
也包含N个子结构,与Encoder类似但多了一步:
a.掩码自注意力(MaskedMulti-HeadAttention)
防止看到未来词,用于生成任务。
b.Encoder-DecoderAttention
解码器可以访问Encoder输出,建立翻译/问答的对齐关系。
DiffusionModel
1.什么是DiffusionModel(扩散模型)?
DiffusionModel(扩散模型)是一种AI图像生成技术,现在很多爆火的AI图片(比如Midjourney、StableDiffusion、DALL·E)背后用的都是它。
通俗讲,它像是“在画布上不断擦除噪声,逐渐显现图像细节的过程”。
你可以把它想象成这样的过程:
一个比喻:照片修复术
想象你有一张清晰的照片;你故意往照片上涂很多杂乱的噪声,照片被弄糊了;然后,你训练一个AI模型,去一步一步地把噪声“清除”掉,直到恢复出原始图像;
最神奇的是:只要告诉它一句话(比如“一个在火星上弹吉他的猫”),它可以从纯噪声开始,一步步还原出这张从未存在的照片。这就是扩散模型的魔力。
工作原理详解(通俗版):
整个过程分为两个阶段:正向扩散(加噪声)和逆向扩散(去噪声)1.正向扩散(ForwardProcess)
从一张真实图片开始,不断加入随机噪声,最后变成一张“白噪声图”(像电视雪花那样)。
过程是有步骤的,比如1000步,每一步都让图像更模糊。
这个阶段其实不需要模型预测,是“已知”的过程。
2.逆向扩散(ReverseProcess)
模型的目标是:学习怎么从噪声中一步步还原出图像。
它是通过训练数据学到的,比如看了很多猫的图,就知道“从噪声中恢复出一只猫”的方法。
每一步,模型会预测“这张图中,哪里是噪声,哪里是内容”,然后一点点清除噪声,直到生成完整图片。
2.为什么它这么强?
多模态
多模态模型(MultimodalModel),通俗来讲就是一种“能看、能听、能说、能理解”的AI模型。下面我用非常简单的方式为你解释它的本质和工作方式。
1.什么是“模态”?
在人工智能里,模态(modality)就是信息的类型或感官通道,比如:
图像、视频→视觉模态
声音、语音→听觉模态
文本、语言→语言模态
传感器数据(GPS、雷达、热感等)→其他模态
所以,“多模态”就是同时处理多种信息源,而不是只理解文字。
2.多模态模型是干嘛的?
它能同时理解和融合多种信息形式,就像一个人可以一边看图,一边听声音,还能用语言表达和思考。
举个最简单的例子:
你发给它一张图片,问它:“图中人在干嘛?”
多模态模型能看懂图片,还能读懂你的问题,并用语言回答。
如果是传统语言模型(如早期的GPT-3),它只会处理文字,看不懂图片。
3.它是怎么工作的?(通俗流程)
1)感知阶段:
把图片转成“视觉特征”;
把声音转成“语音特征”;
把文字变成“语言特征”。
2)理解阶段:
把不同模态的特征统一转化成一样的向量格式;这样模型就可以在同一个“脑子”里理解各种输入。
3)生成阶段:
根据指令或上下文,选择输出方式:
回答文字;
生成图片;
合成语音等。
4.多模态模型能做什么?
代表性多模态模型有哪些?:
GPT-4o:OpenAI多模态模型,会看图、听音频、对话
Gemini(Google):文字、图片、音频、代码全能型
Claude3(Anthropic):支持长文本和图片理解
文心一言、通义千问:国内大厂也在搞
总结一句话:多模态模型就像是拥有“眼睛、耳朵和嘴巴”的AI,比只能“读文字”的模型更像人类,能理解复杂场景,也更适合真实世界的任务。
SFT
SFT是“SupervisedFine-Tuning”的缩写,中文一般翻译为有监督微调。它是训练大语言模型(比如GPT、LLaMA等)中的一个重要步骤。下面我用通俗的方式详细解释一下。
一句话解释:SFT就是“用人工标注的好样本来教AI怎么更聪明地回答问题”。
1.为什么需要SFT?
在训练语言模型的过程中,最开始它只是通过大量文本进行“无监督预训练”(比如看百科、论坛、新闻等),学会了“语言”的基本规则。
但这种模型可能会:
胡说八道
回答不符合人类期望
不太懂怎么礼貌表达
不知道哪些回答是“对的”
这时就需要SFT来“纠正它的行为”!
2.SFT是怎么做的?
SFT过程就像老师带学生写作文一样,步骤如下:
准备一批高质量的“标准答案”
比如用户问题:“如何炒西红柿鸡蛋?”
答案:“先把鸡蛋打散炒熟盛出,再炒番茄,最后一起翻炒,加盐出锅。”
这些数据是人工标注、精选的好内容。
用这些问答对微调模型
把模型原来“模模糊糊”的知识,通过这些具体例子“拉正”。
这就像老师给你一堆范文,指导你如何答题。
模型学到更符合人类习惯的表达方式和结构
比如更礼貌、更有逻辑、不跑题、内容更实用。
预训练
1.什么是模型预训练(Pretraining)?
一句话解释:就像我们上学要先打好基础知识一样,大模型在被真正用来解决具体任务前,也要先“上学”学点通用知识,这个阶段就叫“预训练”。
详细通俗解释:
把AI大模型想象成一个新员工,你想让他来写文章、写代码、回答问题、画图……但在他正式开始工作前,你总不能啥都不教就让他上岗吧?
所以,你会先给他安排一个“通识培训”:
给他看很多书籍、网页、百科全书,让他熟悉语言、常识、世界知识;
让他学会分辨什么是语法正确的句子,什么是胡言乱语;
教他如何“理解”一段话里说了啥。
这个通用培训阶段,就是“预训练”。
它的目标是让模型掌握语言规律、积累常识、形成通用的表达能力,为后续“专门任务”打下基础。
举个真实案例
模型名字:GPT
GPT就是通过预训练起家的。它的预训练方式是:
给它看互联网上的大量文本,比如维基百科、Reddit、书籍、新闻等;
给它一个句子的一部分,例如“世界上最高的山是___”,
让它猜出下一个词是“珠穆朗玛峰”。
它不断在这种“猜下一个词”的游戏中训练,逐步学会语言表达和世界常识。
最终结果:它不仅能写句子,还能写文章、写代码、做翻译,甚至回答各种问题。
类比案例:教小孩学语言
你教小孩说话,不是一下子就让他去答题,而是:
多听别人说话(输入);
尝试模仿说话(输出);
不断纠正他错的表达(学习反馈);
这就是“预训练”过程。
后面你才会让他去考语文(翻译)、数学(逻辑)、写作文(内容创作)这些“下游任务”。
总结一句话:模型预训练,就是AI在“上岗”前的大规模通识教育,教它语言规律和世界常识,为后续专门任务打基础。
质检和互检
质检=对模型输出结果进行“质量检查”,通常是由专人或者质检团队来做的。
举例说明:
假设你在做一个问答大模型,你让模型回答问题,比如:用户问:“月亮上有水吗?”
模型回答:“月亮上没有任何水或冰。”
这时候,质检员会检查这个回答是不是准确的、有没有语病、是否逻辑混乱或事实错误。
他们可能会从以下维度来打分或评判:
准确性(答得对不对)
流畅性(语句是否通顺自然)
逻辑性(有没有前后矛盾)
敏感性(有没有涉及违规内容)
是否“答非所问”
通常还会记录问题,反馈给模型训练团队或者数据标注团队。
1.大模型中的“互检”是啥意思?
互检=数据标注员或评估员之间互相检查对方的标注或判断是否合理。
举个例子:
你和你的同事小李都在给模型“标注数据”或“评估模型回答”。
比如你俩都在看下面这个模型回答:
用户问:“狗能不能吃巧克力?”模型回答:“可以适量吃一点。”
你觉得这个回答有误,打了“不合格”;但小李觉得“还行”,打了“合格”。
这时候你俩会互相检查对方的打分或评语是否合理,甚至提交给“第三人仲裁”,以保证数据标注一致、评估标准统一。
2.总结对比(适用于大模型数据工作)
上下文长度
用大白话说:“上下文长度”就是模型一次能带在脑子里看的“聊天记录/材料”的容量。超出这个容量,最前面的内容会被“挤掉”,它就记不清了。
1)快速类比
像一块白板:你不断写字,写满后再写,最早的内容就被擦掉了。
像购物车容量:能装这么多,再多就掉出来。
2)举例
你和模型聊项目,先说了目标、预算、时间,然后又连发一大段无关闲聊。如果总字数超过它的上下文长度,最早的“目标/预算/时间”可能被挤出,它后面答复就会忽略这些关键信息。
你丢一本很长的文档(比如几十页)让它总结:如果文档整体超过上下文长度,它只能看“放得下”的那一段,没看到的部分当然也就总结不到。
3)和“记忆/知识”不是一回事
上下文长度:一次对话里能带着看的临时输入上限。
模型知识:训练时学到的长期知识(不会因为当前对话长短改变)。
4)怎么避免“被挤掉”
分段提问:长材料切块问,每块都让它先“摘要+要点”。
重复关键约束:在新问题开头,再把核心要点复述一遍。
滚动摘要:让它把前文压缩成要点清单,再继续讨论。
用外部记忆(RAG/知识库):把大材料放在外部,按需检索片段再喂给它。
一句话总结:上下文长度=模型一次能“随身携带”的内容上限;装不下的早期内容会被顶掉,所以长对话里要学会提炼与分段。
GPT-3.5的上下文长度是4,096tokens
GPT-4是8,192到32,768tokens
GPT-4o是128,000tokens
量化
首先需要理解什么是「量化」?
把模糊的、连续的、难度量的东西,变成可用数字表示的东西。一句话:从“感觉”到“数字”。
1.在AI里的“量化”(模型量化)
把模型里原本用高精度小数(比如32位浮点数)的参数,压缩成更少的比特(如8位或4位整数)。目的:更省内存、更快推理,代价可能是精度略降。
比特数与可表示级数
8位(int8)→2⁸=256个等级
4位(int4)→2⁴=16个等级
直观例子
假设一个70亿参数的模型:
16位(2字节)存:约14GB
4位(0.5字节)存:约3.5GB体积直接缩小到四分之一左右,载入更快、显存压力小,但可能精度稍有损失。
小贴士:常见做法有训练后量化(PTQ)和量化感知训练(QAT);后者在训练中考虑量化影响,精度通常更稳。
模型参数
什么是“模型参数”?
把AI模型想成一台有很多很多小旋钮的机器。每个小旋钮就是一个“参数”,都记着一个数字。训练=不停拧这些旋钮,让机器更会“做题”。训练好之后,这些旋钮固定住,用来回答问题/生成内容。
1.单位是啥?
我们常用缩写来表示有多少个:
K=千(差不多一千个)
M=百万(一百万个)
B=十亿(一十亿个)
所以:
7B=70亿个小旋钮
128B=1,280亿个小旋钮
为啥大家老说“参数越多越强”?
旋钮越多,机器能记住/表达的细节越多,通常更聪明;但同时也会更占内存、更慢、更费电。就像功能越多的家电更笨重一样。
2.容易混淆的“B”
说模型规模时:B=十亿个参数(比如“7B模型”)
说文件大小时:B=字节(Byte)(比如“128B文件”=128字节)看上下文判断就行。
一句话总结:
模型参数=模型里的小旋钮数量
单位=个(用K/M/B表示数量级)
128B模型=1,280亿个参数
参数越多通常越强,但更占内存、跑得更慢
LoRA
1.LoRA是什么?
LoRA=Low-RankAdaptation(低秩适配)。在StableDiffusion/SDXL这类模型里,LoRA就像给“会画画的机器人”装可插拔的小外挂:不改机器人的核心(底模),只加几块很小的“插件参数”,就能学会一个新风格/角色/产品外观。
它怎么做到的?
底模里有很多大矩阵(权重)。LoRA把“要学的新东西”压缩成两个小矩阵A、B(秩r很小),只训练它们;用的时候把它们按一定强度“加回去”。结果:显存小、训练快、文件小(通常几MB~几十MB),还不破坏原模型。
2.它改哪里?
在图像模型里(以SD/SDXL为例),LoRA最常插在:
U-Net的Attention层:学到新风格、新纹理、新特征最有效
TextEncoder(如CLIP):让提示词更贴近某风格或专有名词(VAE很少插)
什么时候用LoRA?
学风格(赛博朋克、油画、水彩…)
学专属角色/艺人/IP(同一脸型服饰)
学产品外观(你的品牌手表/汽车/包)
一句话总结:LoRA=给底模加“可拔插的小插件”。只训练很少参数,就能把通用模型快速变成“懂你那一味儿”的专属画师。
日本30年期国债标售表现平平,全球长债抛售何时休? 华尔街见闻 日本30年期国债标售的投标覆盖比率为3.31,略低于12个月平均的3.38,基本符合12个月平均水平,为近期遭遇政府支出加剧冲击的全球债券市场提供了暂时喘息。但分析师警告这仅是战术性缓解而非趋势转变
推荐阅读
高校回应开设“导弹维修技术”专业


呷哺呷哺创始人回应3年亏8亿


花间一梦
2025-09-04 20:23:31
553


胡友平被授予苏州见义勇为模范称号


葡萄牙门将好牛


2名中企管理人员在菲律宾遭绑架遇害


台男子开车冲撞赖清德办公大楼


中欧班列“跑”出加速度


西南医院救治26周超早产儿


人口总数连降两年 今年能否迎拐点

