从零开始 · LLM 词典

大模型术语
图鉴

玩本地模型、刷 AI 新闻、逛 Hugging Face 时总会撞见一堆缩写和黑话。这里把它们按主题拢在一起,用大白话讲明白,再配个生活里的比方。看不懂某个词的时候,回来搜一下就行。

01

模型基础概念

大语言模型LLM · Large Language Model
用海量文本训练出来的 AI 模型,核心本事是预测下一个词。把这个本事用到极致,就能聊天、写代码、翻译、总结。我们平时说的「大模型」基本都指它。
像一个读遍了全网文章的人,你说半句,他能自然地把后半句接下去——只不过他接得又快又广。
参数 / 参数量Parameters
模型内部可调的「旋钮」数量,决定了模型有多大、多聪明。常用 B(Billion,十亿) 标记,比如 7B = 70 亿参数、70B = 700 亿。参数越多通常越强,但也越吃内存、跑得越慢。
就像大脑里的神经连接数。连接越多,能记住和处理的东西越复杂,但「养」起来也越费劲。
权重Weights
就是那些参数训练完之后存下来的具体数值,是模型的「本体」。下载一个模型,本质上就是在下它的权重文件(常见格式 .safetensors)。开源权重 (open-weights) 指厂商把这些文件公开放出来让你下。
如果模型结构是「菜谱」,权重就是「调好的精确用量」。拿到用量,你在自家厨房也能复刻这道菜。
预训练 / 微调Pretraining · Fine-tuning
预训练:用全网海量数据从头培养出一个「通才」,成本极高。微调:在通才基础上用小批专门数据「补课」,让它擅长某个具体任务(比如客服、医疗)。SFT(监督微调)是最常见的一种微调方式。
预训练 = 读完十二年义务教育的通识;微调 = 毕业后进某个行业岗前培训。
基座模型 vs 指令模型Base · Instruct / Chat
下载时常看到同名模型有 baseinstruct(或 chat) 两个版本。Base 只会续写、不懂「听指令」;Instruct/Chat 经过对齐训练,能听懂你的要求并对话。日常聊天选 Instruct 版准没错。
02

架构与原理

Transformer变换器架构
几乎所有现代大模型的底层架构(GPT 里的 T 就是它)。核心是注意力机制 (Attention):处理一句话时,让模型自动判断每个词该「重点关注」哪些其他词。
读「它跳上了沙发」时,你会自动把「它」和前文的「猫」联系起来——注意力机制干的就是这件事。
混合专家MoE · Mixture of Experts
一种省力的架构:模型里养着很多个「专家」子网络,但每次回答只唤醒其中一小部分。所以你会看到「总参数 196B、激活 11B」这种说法——块头大、实际干活时却很省。
像一家大医院有很多科室专家,你来看病只挂相关的两三个号,不用惊动全院所有医生。
Token / 上下文窗口Token · Context Window
Token(词元)是模型处理文本的最小单位,大致是「一个词或半个词」。上下文窗口指模型一次能「记住」的 token 上限,比如 256k 表示约 25 万 token。窗口越大,能塞进去的资料、对话越多,超出就会「忘掉」开头。
上下文窗口像桌面大小:桌子越大,能同时摊开的文件越多;摆满了,旧文件就得先收走。
多模态Multimodal
指模型不止能处理文字,还能「看懂」图片、「听懂」音频甚至视频。比如能描述一张照片、识别语音情绪的模型,就是多模态的。
推理模型 / 思维链Reasoning · CoT (Chain of Thought)
思维链指模型在给答案前,先一步步「想」出推理过程,复杂问题更不容易答错。专门强化了这种能力的模型叫推理模型(常见名字带 R1o 系列等)。
解数学题时先写草稿再写答案,而不是张口就报结果。
03

本地运行 & 文件格式

GGUF模型文件格式
专为在个人电脑上跑大模型设计的打包格式,由 llama.cpp 项目推出。它把权重和必要信息装进一个文件,LM Studio、Ollama 这类工具拿来就能直接加载。它们只认 GGUF——没做成 GGUF 的模型,这些工具就用不了。
像把家具拆装好打包成一个「宜家箱」,普通人在家就能轻松组起来,不用专业工具。
量化Quantization
把模型权重从高精度数字(如 16 位)压缩成低精度(如 4/5/8 位),大幅减小体积和内存占用,代价是精度略降(通常感知不强)。这是大模型能在家用电脑跑起来的关键。
标记含义取舍
Q4_K_M4 位量化最常用,体积小、质量均衡
Q5_K_M5 位量化质量更好,文件稍大
Q8_08 位量化接近原版,文件最大
像把无损音乐压成 MP3:文件小了一大圈,大多数人听不出区别,发烧友才在意那点损失。
imatrix 重要性矩阵Importance Matrix
一种免费提升量化质量的技术。普通量化把所有权重一视同仁地压缩,而 imatrix 先用一批校准数据算出「哪些权重更关键」,量化时给关键权重多留精度、把损失集中到不重要的地方。它不增加文件体积,越是低位量化(Q2/Q3/Q4)效果越明显。文件名带 IQ4_XSimatrix-i1- 的就是它(I = importance)。
同样的预算装修房子:与其每个房间都刷一样档次的漆,不如把好材料集中用在客厅这种最显眼的地方。
精度 / FP32 · FP16 · BF16Precision
指模型里每个数字用多少个比特(bit)来表示。位数越多越精确,但越占空间。FP32(32位)是最完整的「全精度」;FP16/BF16(16位)是常见的「半精度」,质量几乎无损但体积减半,是大多数模型的原始发布精度,也是后续各种量化的起点。下载到带 BF16 的版本,意味着它没被压缩、最大最准、最吃内存。
像照片分辨率:4000 万像素清晰但占空间,压到 1000 万像素肉眼几乎看不出差,文件却小很多。
FP88 位浮点
把数字压到 8 位浮点,体积约为 BF16 的一半,质量损失通常很小,是目前数据中心/高端显卡上很流行的高效格式。和前面 GGUF 里的 Q8 思路类似(都是 8 位左右),但 FP8 是浮点方案、主要面向 NVIDIA 较新的显卡硬件加速,常见于服务器和 API 部署。
NVFP4NVIDIA 4 位浮点
NVIDIA 推出的 4 位浮点格式,专为现代 GPU 上的高性能推理设计。它把数字压到约 4 位,相比 FP16 内存占用约缩小 3.5 倍、相比 FP8 约省 1.8 倍,难得的是在较大模型上仍能保持接近 BF16 的精度。诀窍是分组+多级缩放(每 16 个数一组、配独立缩放因子)来减少误差。它随 NVIDIA Blackwell 架构 GPU 引入,主要在这类新显卡上才能发挥硬件加速。
同样是把行李压缩进小箱子,普通 4 位方案是硬塞容易压坏,NVFP4 像分门别类、每格单独抽真空,又小又不伤东西。
这些格式怎么选一图看懂
你在一个模型页面常会看到 BF16 / FP8 / NVFP4 / GGUF 几个下载版本并列(就像 Step-3.7-Flash 那样)。它们是同一个模型的不同精度/格式打包,按你的硬件和工具挑一个即可:
版本大致位数体积适合
BF16/FP1616 位最大原始全量版,多卡/做微调或再量化
FP88 位约一半较新 N 卡,质量几乎无损
NVFP4约 4 位很小Blackwell 新卡,省显存还保精度
GGUF2~8 位可选可大可小个人电脑,配 LM Studio / Ollama
一句话:家里普通电脑想跑 → 选 GGUF;有高端 N 卡或在服务器上 → 看显卡支持选 FP8NVFP4;要做二次开发/微调 → 拿 BF16 原版。
LM Studio / Ollama本地运行工具
让你在自己电脑上下载、运行大模型的桌面/命令行工具,底层多用 llama.cpp。好处是免费、隐私(数据不出本机)、可离线;门槛是吃内存/显存,大模型对硬件要求高。
显存 / 内存VRAM · RAM
能不能本地跑某模型,主要看显存(VRAM,显卡上的内存)或内存(RAM)够不够装下它。粗略经验:模型量化后文件多大,就大致需要多少 + 一点余量。装不下就会很慢甚至跑不动。
显存像工作台面积,模型像要摊开的图纸。台子不够大,图纸就铺不开。
Hugging Face模型托管平台
业内最大的开源模型「应用商店」,绝大多数开源模型权重(含 GGUF 版本)都放在这里下载。找模型、看说明、对比量化版本,第一站通常就是它。
04

认识 llama.cpp

llama.cpp 是什么本地推理引擎
一个用 C/C++ 写的开源推理引擎,目标是让大模型在普通设备上跑起来——不用昂贵显卡,纯 CPU 也行,手机、树莓派都能跑。它是整个本地大模型生态的「发动机」:GGUF 格式、量化方案、imatrix 这些前面讲过的东西,几乎都源自这个项目。
它就像汽车的发动机。你平时开的是 LM Studio、Ollama 这些「整车」,但盖子掀开,里面装的多半是 llama.cpp 这台引擎。
为什么到处都提到它Why it matters
因为你接触的很多东西都是它定义的标准:GGUF 是它的模型格式、Q4_K_M / IQ4_XS 这些量化等级是它实现的、imatrix 也是它的功能。所以一个模型「能不能本地跑」,常常就等价于「有没有人把它适配进 llama.cpp / 做成 GGUF」。新架构的模型刚出时,往往要等 llama.cpp 支持后,本地工具才能用。
像 USB 标准——你未必直接和它打交道,但你买的充电器、U 盘能互通,全靠大家都遵守这个底层标准。
它自带的几个工具The CLI tools
llama.cpp 不止能跑模型,还附带一套命令行工具,名字你在教程里会经常撞见:
工具作用
llama-cli命令行里直接和模型对话
llama-server开一个本地 API 服务,供别的程序调用
llama-quantize把模型量化成 Q4、Q5 等小体积版本
llama-imatrix计算 imatrix 重要性矩阵,提升量化质量
普通使用者一般用不到这些命令——LM Studio 这类带界面的工具已经把它们包好了。但如果你想自己动手量化模型,打交道的就是它们。
它和 LM Studio / Ollama 的关系谁是谁
三者不是竞争关系,而是上下游llama.cpp 是底层引擎,OllamaLM Studio 在它之上套了更友好的外壳(图形界面、一键下载、模型管理)。直接用 llama.cpp 要敲命令、门槛高;用上层工具则开箱即用,代价是灵活度稍低。
定位适合谁
llama.cpp底层引擎,命令行开发者、想折腾的人
Ollama命令行包装,简洁懂点命令、求省事
LM Studio图形界面,最友好纯小白、点点鼠标
05

读懂模型的名字

先拆一个给你看Anatomy of a model name
模型名/文件名里其实塞满了信息。把下面这串逐段读懂,以后看任何模型名都不慌:
Qwen3-8B-Instruct-IQ4_XS-imatrix.gguf
  • Qwen 系列/厂商 —— 通义千问家族
  • 3 版本号 —— 第 3 代
  • 8B 参数量 —— 80 亿参数
  • Instruct 用途 —— 能听指令、可对话
  • IQ4_XS 量化等级 —— 约 4 位、带 imatrix
  • imatrix 量化技术 —— 用了重要性矩阵校准
  • .gguf 文件格式 —— 给 LM Studio / Ollama 用
就像看汽车型号「Model 3 Long Range AWD」——每段分别告诉你车系、版本、续航、驱动方式。模型名同理。
命名片段速查表Cheat Sheet
按出现位置分组,遇到不认识的片段回来查:
片段类别含义
Llama Qwen Mistral DeepSeek系列/厂商模型家族名,代表谁家、哪个系列
3 3.5 2.5版本号第几代,数字越大越新
8B 70B 0.5B参数量B=十亿,块头大小
A3B A22B激活参数MoE 模型实际干活的参数量,A=Active
Instruct Chat IT用途版本调过教、能听指令对话
Base用途版本只会续写的原始版
Coder Math VL Vision专长强化了编程/数学/看图,VL=Vision-Language
R1 Thinking Reasoning推理型带思维链的推理模型
Distill训练方式蒸馏出来的版本
MoE架构混合专家架构
Q4_K_M Q5_K_M Q8_0量化等级压缩精度,数字越大越接近原版
IQ4_XS IQ3_Mimatrix 量化带重要性矩阵的量化,I=importance
imatrix -i1-量化技术用了 imatrix 校准
F16 FP16 BF16 F32全/半精度没量化的原始版,最大最准
FP8 NVFP4浮点量化压缩版精度格式,多需较新 N 卡
GGUF GPTQ AWQ EXL2文件格式不同量化/打包格式,对应不同运行工具
Uncensored abliterated内容调整去除了部分内容限制的版本
-2507 这类数字日期戳发布/快照日期(如 2025 年 07 月)
06

使用 & 交互

提示词 / 系统提示Prompt · System Prompt
提示词就是你给模型的指令/问题。系统提示是藏在背后的「角色设定」,规定模型整体的身份和行为。把提示词写好让效果更佳,叫提示工程 (Prompt Engineering)
系统提示像演员拿到的角色剧本,提示词像导演现场喊的具体指令。
温度Temperature
控制回答「随机/发散程度」的旋钮。低温(如 0.2)更稳定、保守,适合写代码、做事实问答;高温(如 0.9)更有创意、爱发挥,适合写故事、头脑风暴。top-p 是另一个类似作用的采样参数。
幻觉Hallucination
模型一本正经地编造看似合理、实则错误或不存在的信息(假数据、假引用、假人名)。这是大模型的固有缺陷,重要信息一定要自己核实。
像一个不肯说「我不知道」的人,宁可编一个听起来很顺的答案也要接话。
RAG 检索增强Retrieval-Augmented Generation
让模型回答前先去外部资料库(文档、网页)里查一查,再基于查到的内容作答。能大幅减少幻觉、补上模型不知道的新知识,是企业知识库问答的主流做法。
闭卷考试靠记忆容易出错;RAG 等于改成开卷,先翻书再答题。
智能体 / 工具调用Agent · Tool Use / Function Calling
工具调用指模型能主动调用外部工具(搜索、计算器、代码、API)来完成它本身做不了的事。能自己规划、连续调用多个工具完成复杂任务的,就叫智能体 (Agent)
普通模型像只会动嘴的顾问;Agent 像能自己打电话、查资料、动手办事的助理。
API接口调用
通过代码远程调用厂商托管的模型(无需本地硬件),按用量(通常按 token 数)计费。和本地运行相对:API 省硬件、更强,但数据要上传且要花钱。
07

训练 & 对齐

RLHF 人类反馈强化学习Reinforcement Learning from Human Feedback
让人给模型的多个回答打分排序,再用这些偏好「调教」模型,使它的输出更有用、安全、符合人类期待。这一步统称对齐 (Alignment),是把「会续写」变成「好用的助手」的关键。
像训练宠物:做对了给奖励,做得越来越合心意。
知识蒸馏Distillation
用一个大而强的「教师模型」去教一个小模型,让小模型用更小的体积学到接近大模型的能力。很多又小又好用的模型就是这么来的。
老师傅把多年经验提炼成口诀教给徒弟,徒弟不用重走一遍弯路。
开源 / 开放权重 / 许可证Open Source · License
开放权重指厂商公开模型文件供下载使用。但能不能商用、要不要署名,取决于许可证Apache 2.0MIT 较宽松(基本随便用、可商用),有些协议则限制商用或要求条件。下载前看一眼协议很重要。
跑分 / 评测榜Benchmark · Leaderboard · SOTA
用标准化题库给模型打分、排名,方便横向比较能力。SOTA(State of the Art) 指「当前最强水平」。注意:跑分高 ≠ 实际好用,还可能存在「刷榜」,参考即可。
没找到匹配的术语,换个关键词试试?