01
模型基础概念
大语言模型LLM · Large Language Model
用海量文本训练出来的 AI 模型,核心本事是预测下一个词。把这个本事用到极致,就能聊天、写代码、翻译、总结。我们平时说的「大模型」基本都指它。
像一个读遍了全网文章的人,你说半句,他能自然地把后半句接下去——只不过他接得又快又广。
参数 / 参数量Parameters
模型内部可调的「旋钮」数量,决定了模型有多大、多聪明。常用
B(Billion,十亿) 标记,比如 7B = 70 亿参数、70B = 700 亿。参数越多通常越强,但也越吃内存、跑得越慢。就像大脑里的神经连接数。连接越多,能记住和处理的东西越复杂,但「养」起来也越费劲。
权重Weights
就是那些参数训练完之后存下来的具体数值,是模型的「本体」。下载一个模型,本质上就是在下它的权重文件(常见格式
.safetensors)。开源权重 (open-weights) 指厂商把这些文件公开放出来让你下。如果模型结构是「菜谱」,权重就是「调好的精确用量」。拿到用量,你在自家厨房也能复刻这道菜。
预训练 / 微调Pretraining · Fine-tuning
预训练:用全网海量数据从头培养出一个「通才」,成本极高。微调:在通才基础上用小批专门数据「补课」,让它擅长某个具体任务(比如客服、医疗)。
SFT(监督微调)是最常见的一种微调方式。预训练 = 读完十二年义务教育的通识;微调 = 毕业后进某个行业岗前培训。
基座模型 vs 指令模型Base · Instruct / Chat
下载时常看到同名模型有
base 和 instruct(或 chat) 两个版本。Base 只会续写、不懂「听指令」;Instruct/Chat 经过对齐训练,能听懂你的要求并对话。日常聊天选 Instruct 版准没错。02
架构与原理
Transformer变换器架构
几乎所有现代大模型的底层架构(GPT 里的 T 就是它)。核心是注意力机制 (Attention):处理一句话时,让模型自动判断每个词该「重点关注」哪些其他词。
读「它跳上了沙发」时,你会自动把「它」和前文的「猫」联系起来——注意力机制干的就是这件事。
混合专家MoE · Mixture of Experts
一种省力的架构:模型里养着很多个「专家」子网络,但每次回答只唤醒其中一小部分。所以你会看到「总参数 196B、激活 11B」这种说法——块头大、实际干活时却很省。
像一家大医院有很多科室专家,你来看病只挂相关的两三个号,不用惊动全院所有医生。
Token / 上下文窗口Token · Context Window
Token(词元)是模型处理文本的最小单位,大致是「一个词或半个词」。上下文窗口指模型一次能「记住」的 token 上限,比如
256k 表示约 25 万 token。窗口越大,能塞进去的资料、对话越多,超出就会「忘掉」开头。上下文窗口像桌面大小:桌子越大,能同时摊开的文件越多;摆满了,旧文件就得先收走。
多模态Multimodal
指模型不止能处理文字,还能「看懂」图片、「听懂」音频甚至视频。比如能描述一张照片、识别语音情绪的模型,就是多模态的。
推理模型 / 思维链Reasoning · CoT (Chain of Thought)
思维链指模型在给答案前,先一步步「想」出推理过程,复杂问题更不容易答错。专门强化了这种能力的模型叫推理模型(常见名字带
R1、o 系列等)。解数学题时先写草稿再写答案,而不是张口就报结果。
03
本地运行 & 文件格式
GGUF模型文件格式
专为在个人电脑上跑大模型设计的打包格式,由
llama.cpp 项目推出。它把权重和必要信息装进一个文件,LM Studio、Ollama 这类工具拿来就能直接加载。它们只认 GGUF——没做成 GGUF 的模型,这些工具就用不了。像把家具拆装好打包成一个「宜家箱」,普通人在家就能轻松组起来,不用专业工具。
量化Quantization
把模型权重从高精度数字(如 16 位)压缩成低精度(如 4/5/8 位),大幅减小体积和内存占用,代价是精度略降(通常感知不强)。这是大模型能在家用电脑跑起来的关键。
| 标记 | 含义 | 取舍 |
|---|---|---|
Q4_K_M | 4 位量化 | 最常用,体积小、质量均衡 |
Q5_K_M | 5 位量化 | 质量更好,文件稍大 |
Q8_0 | 8 位量化 | 接近原版,文件最大 |
像把无损音乐压成 MP3:文件小了一大圈,大多数人听不出区别,发烧友才在意那点损失。
imatrix 重要性矩阵Importance Matrix
一种免费提升量化质量的技术。普通量化把所有权重一视同仁地压缩,而 imatrix 先用一批校准数据算出「哪些权重更关键」,量化时给关键权重多留精度、把损失集中到不重要的地方。它不增加文件体积,越是低位量化(Q2/Q3/Q4)效果越明显。文件名带
IQ4_XS、imatrix 或 -i1- 的就是它(I = importance)。同样的预算装修房子:与其每个房间都刷一样档次的漆,不如把好材料集中用在客厅这种最显眼的地方。
精度 / FP32 · FP16 · BF16Precision
指模型里每个数字用多少个比特(bit)来表示。位数越多越精确,但越占空间。
FP32(32位)是最完整的「全精度」;FP16/BF16(16位)是常见的「半精度」,质量几乎无损但体积减半,是大多数模型的原始发布精度,也是后续各种量化的起点。下载到带 BF16 的版本,意味着它没被压缩、最大最准、最吃内存。像照片分辨率:4000 万像素清晰但占空间,压到 1000 万像素肉眼几乎看不出差,文件却小很多。
FP88 位浮点
把数字压到 8 位浮点,体积约为 BF16 的一半,质量损失通常很小,是目前数据中心/高端显卡上很流行的高效格式。和前面 GGUF 里的
Q8 思路类似(都是 8 位左右),但 FP8 是浮点方案、主要面向 NVIDIA 较新的显卡硬件加速,常见于服务器和 API 部署。NVFP4NVIDIA 4 位浮点
NVIDIA 推出的 4 位浮点格式,专为现代 GPU 上的高性能推理设计。它把数字压到约 4 位,相比 FP16 内存占用约缩小 3.5 倍、相比 FP8 约省 1.8 倍,难得的是在较大模型上仍能保持接近 BF16 的精度。诀窍是分组+多级缩放(每 16 个数一组、配独立缩放因子)来减少误差。它随 NVIDIA Blackwell 架构 GPU 引入,主要在这类新显卡上才能发挥硬件加速。
同样是把行李压缩进小箱子,普通 4 位方案是硬塞容易压坏,NVFP4 像分门别类、每格单独抽真空,又小又不伤东西。
这些格式怎么选一图看懂
你在一个模型页面常会看到 BF16 / FP8 / NVFP4 / GGUF 几个下载版本并列(就像 Step-3.7-Flash 那样)。它们是同一个模型的不同精度/格式打包,按你的硬件和工具挑一个即可:
| 版本 | 大致位数 | 体积 | 适合 |
|---|---|---|---|
BF16/FP16 | 16 位 | 最大 | 原始全量版,多卡/做微调或再量化 |
FP8 | 8 位 | 约一半 | 较新 N 卡,质量几乎无损 |
NVFP4 | 约 4 位 | 很小 | Blackwell 新卡,省显存还保精度 |
GGUF | 2~8 位可选 | 可大可小 | 个人电脑,配 LM Studio / Ollama |
一句话:家里普通电脑想跑 → 选
GGUF;有高端 N 卡或在服务器上 → 看显卡支持选 FP8 或 NVFP4;要做二次开发/微调 → 拿 BF16 原版。LM Studio / Ollama本地运行工具
让你在自己电脑上下载、运行大模型的桌面/命令行工具,底层多用
llama.cpp。好处是免费、隐私(数据不出本机)、可离线;门槛是吃内存/显存,大模型对硬件要求高。显存 / 内存VRAM · RAM
能不能本地跑某模型,主要看显存(VRAM,显卡上的内存)或内存(RAM)够不够装下它。粗略经验:模型量化后文件多大,就大致需要多少 + 一点余量。装不下就会很慢甚至跑不动。
显存像工作台面积,模型像要摊开的图纸。台子不够大,图纸就铺不开。
Hugging Face模型托管平台
业内最大的开源模型「应用商店」,绝大多数开源模型权重(含 GGUF 版本)都放在这里下载。找模型、看说明、对比量化版本,第一站通常就是它。
04
认识 llama.cpp
llama.cpp 是什么本地推理引擎
一个用
C/C++ 写的开源推理引擎,目标是让大模型在普通设备上跑起来——不用昂贵显卡,纯 CPU 也行,手机、树莓派都能跑。它是整个本地大模型生态的「发动机」:GGUF 格式、量化方案、imatrix 这些前面讲过的东西,几乎都源自这个项目。它就像汽车的发动机。你平时开的是 LM Studio、Ollama 这些「整车」,但盖子掀开,里面装的多半是 llama.cpp 这台引擎。
为什么到处都提到它Why it matters
因为你接触的很多东西都是它定义的标准:GGUF 是它的模型格式、Q4_K_M / IQ4_XS 这些量化等级是它实现的、imatrix 也是它的功能。所以一个模型「能不能本地跑」,常常就等价于「有没有人把它适配进 llama.cpp / 做成 GGUF」。新架构的模型刚出时,往往要等 llama.cpp 支持后,本地工具才能用。
像 USB 标准——你未必直接和它打交道,但你买的充电器、U 盘能互通,全靠大家都遵守这个底层标准。
它自带的几个工具The CLI tools
llama.cpp 不止能跑模型,还附带一套命令行工具,名字你在教程里会经常撞见:
| 工具 | 作用 |
|---|---|
llama-cli | 命令行里直接和模型对话 |
llama-server | 开一个本地 API 服务,供别的程序调用 |
llama-quantize | 把模型量化成 Q4、Q5 等小体积版本 |
llama-imatrix | 计算 imatrix 重要性矩阵,提升量化质量 |
普通使用者一般用不到这些命令——LM Studio 这类带界面的工具已经把它们包好了。但如果你想自己动手量化模型,打交道的就是它们。
它和 LM Studio / Ollama 的关系谁是谁
三者不是竞争关系,而是上下游:
llama.cpp 是底层引擎,Ollama 和 LM Studio 在它之上套了更友好的外壳(图形界面、一键下载、模型管理)。直接用 llama.cpp 要敲命令、门槛高;用上层工具则开箱即用,代价是灵活度稍低。| 定位 | 适合谁 | |
|---|---|---|
llama.cpp | 底层引擎,命令行 | 开发者、想折腾的人 |
Ollama | 命令行包装,简洁 | 懂点命令、求省事 |
LM Studio | 图形界面,最友好 | 纯小白、点点鼠标 |
05
读懂模型的名字
先拆一个给你看Anatomy of a model name
模型名/文件名里其实塞满了信息。把下面这串逐段读懂,以后看任何模型名都不慌:
Qwen3-8B-Instruct-IQ4_XS-imatrix.gguf
- Qwen 系列/厂商 —— 通义千问家族
- 3 版本号 —— 第 3 代
- 8B 参数量 —— 80 亿参数
- Instruct 用途 —— 能听指令、可对话
- IQ4_XS 量化等级 —— 约 4 位、带 imatrix
- imatrix 量化技术 —— 用了重要性矩阵校准
- .gguf 文件格式 —— 给 LM Studio / Ollama 用
就像看汽车型号「Model 3 Long Range AWD」——每段分别告诉你车系、版本、续航、驱动方式。模型名同理。
命名片段速查表Cheat Sheet
按出现位置分组,遇到不认识的片段回来查:
| 片段 | 类别 | 含义 |
|---|---|---|
Llama Qwen Mistral DeepSeek | 系列/厂商 | 模型家族名,代表谁家、哪个系列 |
3 3.5 2.5 | 版本号 | 第几代,数字越大越新 |
8B 70B 0.5B | 参数量 | B=十亿,块头大小 |
A3B A22B | 激活参数 | MoE 模型实际干活的参数量,A=Active |
Instruct Chat IT | 用途版本 | 调过教、能听指令对话 |
Base | 用途版本 | 只会续写的原始版 |
Coder Math VL Vision | 专长 | 强化了编程/数学/看图,VL=Vision-Language |
R1 Thinking Reasoning | 推理型 | 带思维链的推理模型 |
Distill | 训练方式 | 蒸馏出来的版本 |
MoE | 架构 | 混合专家架构 |
Q4_K_M Q5_K_M Q8_0 | 量化等级 | 压缩精度,数字越大越接近原版 |
IQ4_XS IQ3_M | imatrix 量化 | 带重要性矩阵的量化,I=importance |
imatrix -i1- | 量化技术 | 用了 imatrix 校准 |
F16 FP16 BF16 F32 | 全/半精度 | 没量化的原始版,最大最准 |
FP8 NVFP4 | 浮点量化 | 压缩版精度格式,多需较新 N 卡 |
GGUF GPTQ AWQ EXL2 | 文件格式 | 不同量化/打包格式,对应不同运行工具 |
Uncensored abliterated | 内容调整 | 去除了部分内容限制的版本 |
-2507 这类数字 | 日期戳 | 发布/快照日期(如 2025 年 07 月) |
06
使用 & 交互
提示词 / 系统提示Prompt · System Prompt
提示词就是你给模型的指令/问题。系统提示是藏在背后的「角色设定」,规定模型整体的身份和行为。把提示词写好让效果更佳,叫提示工程 (Prompt Engineering)。
系统提示像演员拿到的角色剧本,提示词像导演现场喊的具体指令。
温度Temperature
控制回答「随机/发散程度」的旋钮。低温(如 0.2)更稳定、保守,适合写代码、做事实问答;高温(如 0.9)更有创意、爱发挥,适合写故事、头脑风暴。
top-p 是另一个类似作用的采样参数。幻觉Hallucination
模型一本正经地编造看似合理、实则错误或不存在的信息(假数据、假引用、假人名)。这是大模型的固有缺陷,重要信息一定要自己核实。
像一个不肯说「我不知道」的人,宁可编一个听起来很顺的答案也要接话。
RAG 检索增强Retrieval-Augmented Generation
让模型回答前先去外部资料库(文档、网页)里查一查,再基于查到的内容作答。能大幅减少幻觉、补上模型不知道的新知识,是企业知识库问答的主流做法。
闭卷考试靠记忆容易出错;RAG 等于改成开卷,先翻书再答题。
智能体 / 工具调用Agent · Tool Use / Function Calling
工具调用指模型能主动调用外部工具(搜索、计算器、代码、API)来完成它本身做不了的事。能自己规划、连续调用多个工具完成复杂任务的,就叫智能体 (Agent)。
普通模型像只会动嘴的顾问;Agent 像能自己打电话、查资料、动手办事的助理。
API接口调用
通过代码远程调用厂商托管的模型(无需本地硬件),按用量(通常按 token 数)计费。和本地运行相对:API 省硬件、更强,但数据要上传且要花钱。
07
训练 & 对齐
RLHF 人类反馈强化学习Reinforcement Learning from Human Feedback
让人给模型的多个回答打分排序,再用这些偏好「调教」模型,使它的输出更有用、安全、符合人类期待。这一步统称对齐 (Alignment),是把「会续写」变成「好用的助手」的关键。
像训练宠物:做对了给奖励,做得越来越合心意。
知识蒸馏Distillation
用一个大而强的「教师模型」去教一个小模型,让小模型用更小的体积学到接近大模型的能力。很多又小又好用的模型就是这么来的。
老师傅把多年经验提炼成口诀教给徒弟,徒弟不用重走一遍弯路。
开源 / 开放权重 / 许可证Open Source · License
开放权重指厂商公开模型文件供下载使用。但能不能商用、要不要署名,取决于许可证:
Apache 2.0、MIT 较宽松(基本随便用、可商用),有些协议则限制商用或要求条件。下载前看一眼协议很重要。跑分 / 评测榜Benchmark · Leaderboard · SOTA
用标准化题库给模型打分、排名,方便横向比较能力。
SOTA(State of the Art) 指「当前最强水平」。注意:跑分高 ≠ 实际好用,还可能存在「刷榜」,参考即可。没找到匹配的术语,换个关键词试试?