大模型术语图鉴

模型基础概念

大语言模型LLM · Large Language Model

用海量文本训练出来的 AI 模型，核心本事是预测下一个词。把这个本事用到极致，就能聊天、写代码、翻译、总结。我们平时说的「大模型」基本都指它。

像一个读遍了全网文章的人，你说半句，他能自然地把后半句接下去——只不过他接得又快又广。

参数 / 参数量Parameters

模型内部可调的「旋钮」数量，决定了模型有多大、多聪明。常用 B(Billion，十亿) 标记，比如 7B = 70 亿参数、70B = 700 亿。参数越多通常越强，但也越吃内存、跑得越慢。

就像大脑里的神经连接数。连接越多，能记住和处理的东西越复杂，但「养」起来也越费劲。

权重Weights

就是那些参数训练完之后存下来的具体数值，是模型的「本体」。下载一个模型，本质上就是在下它的权重文件（常见格式 .safetensors）。开源权重 (open-weights) 指厂商把这些文件公开放出来让你下。

如果模型结构是「菜谱」，权重就是「调好的精确用量」。拿到用量，你在自家厨房也能复刻这道菜。

预训练 / 微调Pretraining · Fine-tuning

预训练：用全网海量数据从头培养出一个「通才」，成本极高。微调：在通才基础上用小批专门数据「补课」，让它擅长某个具体任务（比如客服、医疗）。SFT（监督微调）是最常见的一种微调方式。

预训练 = 读完十二年义务教育的通识；微调 = 毕业后进某个行业岗前培训。

基座模型 vs 指令模型Base · Instruct / Chat

下载时常看到同名模型有 base 和 instruct(或 chat) 两个版本。Base 只会续写、不懂「听指令」；Instruct/Chat 经过对齐训练，能听懂你的要求并对话。日常聊天选 Instruct 版准没错。

架构与原理

Transformer变换器架构

几乎所有现代大模型的底层架构（GPT 里的 T 就是它）。核心是注意力机制 (Attention)：处理一句话时，让模型自动判断每个词该「重点关注」哪些其他词。

读「它跳上了沙发」时，你会自动把「它」和前文的「猫」联系起来——注意力机制干的就是这件事。

混合专家MoE · Mixture of Experts

一种省力的架构：模型里养着很多个「专家」子网络，但每次回答只唤醒其中一小部分。所以你会看到「总参数 196B、激活 11B」这种说法——块头大、实际干活时却很省。

像一家大医院有很多科室专家，你来看病只挂相关的两三个号，不用惊动全院所有医生。

Token / 上下文窗口Token · Context Window

Token（词元）是模型处理文本的最小单位，大致是「一个词或半个词」。上下文窗口指模型一次能「记住」的 token 上限，比如 256k 表示约 25 万 token。窗口越大，能塞进去的资料、对话越多，超出就会「忘掉」开头。

上下文窗口像桌面大小：桌子越大，能同时摊开的文件越多；摆满了，旧文件就得先收走。

多模态Multimodal

指模型不止能处理文字，还能「看懂」图片、「听懂」音频甚至视频。比如能描述一张照片、识别语音情绪的模型，就是多模态的。

推理模型 / 思维链Reasoning · CoT (Chain of Thought)

思维链指模型在给答案前，先一步步「想」出推理过程，复杂问题更不容易答错。专门强化了这种能力的模型叫推理模型（常见名字带 R1、o 系列等）。

解数学题时先写草稿再写答案，而不是张口就报结果。

本地运行 & 文件格式

GGUF模型文件格式

专为在个人电脑上跑大模型设计的打包格式，由 llama.cpp 项目推出。它把权重和必要信息装进一个文件，LM Studio、Ollama 这类工具拿来就能直接加载。它们只认 GGUF——没做成 GGUF 的模型，这些工具就用不了。

像把家具拆装好打包成一个「宜家箱」，普通人在家就能轻松组起来，不用专业工具。

量化Quantization

把模型权重从高精度数字（如 16 位）压缩成低精度（如 4/5/8 位），大幅减小体积和内存占用，代价是精度略降（通常感知不强）。这是大模型能在家用电脑跑起来的关键。

标记	含义	取舍
`Q4_K_M`	4 位量化	最常用，体积小、质量均衡
`Q5_K_M`	5 位量化	质量更好，文件稍大
`Q8_0`	8 位量化	接近原版，文件最大

像把无损音乐压成 MP3：文件小了一大圈，大多数人听不出区别，发烧友才在意那点损失。

imatrix 重要性矩阵Importance Matrix

一种免费提升量化质量的技术。普通量化把所有权重一视同仁地压缩，而 imatrix 先用一批校准数据算出「哪些权重更关键」，量化时给关键权重多留精度、把损失集中到不重要的地方。它不增加文件体积，越是低位量化(Q2/Q3/Q4)效果越明显。文件名带 IQ4_XS、imatrix 或 -i1- 的就是它（I = importance）。

同样的预算装修房子：与其每个房间都刷一样档次的漆，不如把好材料集中用在客厅这种最显眼的地方。

精度 / FP32 · FP16 · BF16Precision

指模型里每个数字用多少个比特(bit)来表示。位数越多越精确，但越占空间。FP32(32位)是最完整的「全精度」；FP16/BF16(16位)是常见的「半精度」，质量几乎无损但体积减半，是大多数模型的原始发布精度，也是后续各种量化的起点。下载到带 BF16 的版本，意味着它没被压缩、最大最准、最吃内存。

像照片分辨率：4000 万像素清晰但占空间，压到 1000 万像素肉眼几乎看不出差，文件却小很多。

FP88 位浮点

把数字压到 8 位浮点，体积约为 BF16 的一半，质量损失通常很小，是目前数据中心/高端显卡上很流行的高效格式。和前面 GGUF 里的 Q8 思路类似（都是 8 位左右），但 FP8 是浮点方案、主要面向 NVIDIA 较新的显卡硬件加速，常见于服务器和 API 部署。

NVFP4NVIDIA 4 位浮点

NVIDIA 推出的 4 位浮点格式，专为现代 GPU 上的高性能推理设计。它把数字压到约 4 位，相比 FP16 内存占用约缩小 3.5 倍、相比 FP8 约省 1.8 倍，难得的是在较大模型上仍能保持接近 BF16 的精度。诀窍是分组+多级缩放(每 16 个数一组、配独立缩放因子)来减少误差。它随 NVIDIA Blackwell 架构 GPU 引入，主要在这类新显卡上才能发挥硬件加速。

同样是把行李压缩进小箱子，普通 4 位方案是硬塞容易压坏，NVFP4 像分门别类、每格单独抽真空，又小又不伤东西。

这些格式怎么选一图看懂

你在一个模型页面常会看到 BF16 / FP8 / NVFP4 / GGUF 几个下载版本并列(就像 Step-3.7-Flash 那样)。它们是同一个模型的不同精度/格式打包，按你的硬件和工具挑一个即可：

版本	大致位数	体积	适合
`BF16`/`FP16`	16 位	最大	原始全量版，多卡/做微调或再量化
`FP8`	8 位	约一半	较新 N 卡，质量几乎无损
`NVFP4`	约 4 位	很小	Blackwell 新卡，省显存还保精度
`GGUF`	2~8 位可选	可大可小	个人电脑，配 LM Studio / Ollama

一句话：家里普通电脑想跑 → 选 GGUF；有高端 N 卡或在服务器上 → 看显卡支持选 FP8 或 NVFP4；要做二次开发/微调 → 拿 BF16 原版。

LM Studio / Ollama本地运行工具

让你在自己电脑上下载、运行大模型的桌面/命令行工具，底层多用 llama.cpp。好处是免费、隐私（数据不出本机）、可离线；门槛是吃内存/显存，大模型对硬件要求高。

显存 / 内存VRAM · RAM

能不能本地跑某模型，主要看显存(VRAM，显卡上的内存)或内存(RAM)够不够装下它。粗略经验：模型量化后文件多大，就大致需要多少 + 一点余量。装不下就会很慢甚至跑不动。

显存像工作台面积，模型像要摊开的图纸。台子不够大，图纸就铺不开。

Hugging Face模型托管平台

业内最大的开源模型「应用商店」，绝大多数开源模型权重（含 GGUF 版本）都放在这里下载。找模型、看说明、对比量化版本，第一站通常就是它。

认识 llama.cpp

llama.cpp 是什么本地推理引擎

一个用 C/C++ 写的开源推理引擎，目标是让大模型在普通设备上跑起来——不用昂贵显卡，纯 CPU 也行，手机、树莓派都能跑。它是整个本地大模型生态的「发动机」：GGUF 格式、量化方案、imatrix 这些前面讲过的东西，几乎都源自这个项目。

它就像汽车的发动机。你平时开的是 LM Studio、Ollama 这些「整车」，但盖子掀开，里面装的多半是 llama.cpp 这台引擎。

为什么到处都提到它Why it matters

因为你接触的很多东西都是它定义的标准：GGUF 是它的模型格式、Q4_K_M / IQ4_XS 这些量化等级是它实现的、imatrix 也是它的功能。所以一个模型「能不能本地跑」，常常就等价于「有没有人把它适配进 llama.cpp / 做成 GGUF」。新架构的模型刚出时，往往要等 llama.cpp 支持后，本地工具才能用。

像 USB 标准——你未必直接和它打交道，但你买的充电器、U 盘能互通，全靠大家都遵守这个底层标准。

它自带的几个工具The CLI tools

llama.cpp 不止能跑模型，还附带一套命令行工具，名字你在教程里会经常撞见：

工具	作用
`llama-cli`	命令行里直接和模型对话
`llama-server`	开一个本地 API 服务，供别的程序调用
`llama-quantize`	把模型量化成 Q4、Q5 等小体积版本
`llama-imatrix`	计算 imatrix 重要性矩阵，提升量化质量

普通使用者一般用不到这些命令——LM Studio 这类带界面的工具已经把它们包好了。但如果你想自己动手量化模型，打交道的就是它们。

它和 LM Studio / Ollama 的关系谁是谁

三者不是竞争关系，而是上下游：llama.cpp 是底层引擎，Ollama 和 LM Studio 在它之上套了更友好的外壳（图形界面、一键下载、模型管理）。直接用 llama.cpp 要敲命令、门槛高；用上层工具则开箱即用，代价是灵活度稍低。

	定位	适合谁
`llama.cpp`	底层引擎，命令行	开发者、想折腾的人
`Ollama`	命令行包装，简洁	懂点命令、求省事
`LM Studio`	图形界面，最友好	纯小白、点点鼠标

读懂模型的名字

先拆一个给你看Anatomy of a model name

模型名/文件名里其实塞满了信息。把下面这串逐段读懂，以后看任何模型名都不慌：

Qwen3-8B-Instruct-IQ4_XS-imatrix.gguf

Qwen 系列/厂商 —— 通义千问家族
3 版本号 —— 第 3 代
8B 参数量 —— 80 亿参数
Instruct 用途 —— 能听指令、可对话
IQ4_XS 量化等级 —— 约 4 位、带 imatrix
imatrix 量化技术 —— 用了重要性矩阵校准
.gguf 文件格式 —— 给 LM Studio / Ollama 用

就像看汽车型号「Model 3 Long Range AWD」——每段分别告诉你车系、版本、续航、驱动方式。模型名同理。

命名片段速查表Cheat Sheet

按出现位置分组，遇到不认识的片段回来查：

片段	类别	含义
`Llama` `Qwen` `Mistral` `DeepSeek`	系列/厂商	模型家族名，代表谁家、哪个系列
`3` `3.5` `2.5`	版本号	第几代，数字越大越新
`8B` `70B` `0.5B`	参数量	B=十亿，块头大小
`A3B` `A22B`	激活参数	MoE 模型实际干活的参数量，A=Active
`Instruct` `Chat` `IT`	用途版本	调过教、能听指令对话
`Base`	用途版本	只会续写的原始版
`Coder` `Math` `VL` `Vision`	专长	强化了编程/数学/看图，VL=Vision-Language
`R1` `Thinking` `Reasoning`	推理型	带思维链的推理模型
`Distill`	训练方式	蒸馏出来的版本
`MoE`	架构	混合专家架构
`Q4_K_M` `Q5_K_M` `Q8_0`	量化等级	压缩精度，数字越大越接近原版
`IQ4_XS` `IQ3_M`	imatrix 量化	带重要性矩阵的量化，I=importance
`imatrix` `-i1-`	量化技术	用了 imatrix 校准
`F16` `FP16` `BF16` `F32`	全/半精度	没量化的原始版，最大最准
`FP8` `NVFP4`	浮点量化	压缩版精度格式，多需较新 N 卡
`GGUF` `GPTQ` `AWQ` `EXL2`	文件格式	不同量化/打包格式，对应不同运行工具
`Uncensored` `abliterated`	内容调整	去除了部分内容限制的版本
`-2507` 这类数字	日期戳	发布/快照日期（如 2025 年 07 月）

使用 & 交互

提示词 / 系统提示Prompt · System Prompt

提示词就是你给模型的指令/问题。系统提示是藏在背后的「角色设定」，规定模型整体的身份和行为。把提示词写好让效果更佳，叫提示工程 (Prompt Engineering)。

系统提示像演员拿到的角色剧本，提示词像导演现场喊的具体指令。

温度Temperature

控制回答「随机/发散程度」的旋钮。低温(如 0.2)更稳定、保守，适合写代码、做事实问答；高温(如 0.9)更有创意、爱发挥，适合写故事、头脑风暴。top-p 是另一个类似作用的采样参数。

幻觉Hallucination

模型一本正经地编造看似合理、实则错误或不存在的信息（假数据、假引用、假人名）。这是大模型的固有缺陷，重要信息一定要自己核实。

像一个不肯说「我不知道」的人，宁可编一个听起来很顺的答案也要接话。

RAG 检索增强Retrieval-Augmented Generation

让模型回答前先去外部资料库（文档、网页）里查一查，再基于查到的内容作答。能大幅减少幻觉、补上模型不知道的新知识，是企业知识库问答的主流做法。

闭卷考试靠记忆容易出错；RAG 等于改成开卷，先翻书再答题。

智能体 / 工具调用Agent · Tool Use / Function Calling

工具调用指模型能主动调用外部工具（搜索、计算器、代码、API）来完成它本身做不了的事。能自己规划、连续调用多个工具完成复杂任务的，就叫智能体 (Agent)。

普通模型像只会动嘴的顾问；Agent 像能自己打电话、查资料、动手办事的助理。

API接口调用

通过代码远程调用厂商托管的模型（无需本地硬件），按用量（通常按 token 数）计费。和本地运行相对：API 省硬件、更强，但数据要上传且要花钱。

训练 & 对齐

RLHF 人类反馈强化学习Reinforcement Learning from Human Feedback

让人给模型的多个回答打分排序，再用这些偏好「调教」模型，使它的输出更有用、安全、符合人类期待。这一步统称对齐 (Alignment)，是把「会续写」变成「好用的助手」的关键。

像训练宠物：做对了给奖励，做得越来越合心意。

知识蒸馏Distillation

用一个大而强的「教师模型」去教一个小模型，让小模型用更小的体积学到接近大模型的能力。很多又小又好用的模型就是这么来的。

老师傅把多年经验提炼成口诀教给徒弟，徒弟不用重走一遍弯路。

开源 / 开放权重 / 许可证Open Source · License

开放权重指厂商公开模型文件供下载使用。但能不能商用、要不要署名，取决于许可证：Apache 2.0、MIT 较宽松（基本随便用、可商用），有些协议则限制商用或要求条件。下载前看一眼协议很重要。

跑分 / 评测榜Benchmark · Leaderboard · SOTA

用标准化题库给模型打分、排名，方便横向比较能力。SOTA(State of the Art) 指「当前最强水平」。注意：跑分高 ≠ 实际好用，还可能存在「刷榜」，参考即可。

没找到匹配的术语，换个关键词试试？