Skip to content

大语言模型(LLM)

什么是大语言模型

大语言模型(Large Language Model,简称 LLM)是当前 AI 浪潮的核心技术。你可以把它理解为一个读过互联网上几乎所有文字的超级助手

它的工作原理简单来说就是:预测下一个词

当你问它"中国的首都是",它会根据训练数据中的海量知识,预测下一个最可能的词是"北京"。这个简单的机制,加上海量数据和超大规模的计算,产生了惊人的能力——不只是填空,还能推理、创作、分析、编程。

你不需要理解原理,只需要知道:它很强,但它本质上是在做概率预测,所以有时候会说错话。


三个必须知道的概念

1. Token(令牌)— AI 怎么收费的

AI 不是按字数收费的,是按 Token 收费的。Token 是模型处理文本的最小单位:

语言大约换算
英文1 Token ≈ 0.75 个英文单词
中文1 Token ≈ 0.5-1 个汉字

为什么你要知道这个? 因为你跟 AI 说话是要花钱的(用 API 时),Token 数决定了成本。

一次普通对话大约消耗 1,000-3,000 Token,按通义千问的价格算大约 ¥0.001-0.01。

2. 上下文窗口 — AI 能记住多少内容

上下文窗口(Context Window)就是 AI 一次对话能处理的最大文本量。

模型上下文窗口大约相当于
GPT-4o128K Token一本 10 万字的书
Claude Opus 4200K Token一本 15 万字的书
Kimi256K Token一本 20 万字的书
DeepSeek V3128K Token一本 10 万字的书

为什么你要知道这个? 如果你想让 AI 分析一份 100 页的报告,你需要模型的上下文窗口够大。窗口太小,AI 会"忘记"前面的内容。

3. 温度(Temperature)— 控制 AI 的创造性

温度AI 表现适合场景
低(0-0.3)保守、稳定、每次回答差不多客服回复、数据分析、翻译
中(0.5-0.7)平衡商业文案、报告
高(0.8-1.0)创造性强、每次不一样头脑风暴、创意写作

大多数 AI 工具的默认温度都是中等,不需要你手动调。但如果你用 API 或高级工具,知道这个参数可以让你控制输出质量。


主流大模型一览

国内模型(中国直接用)

模型公司价格最适合
豆包字节跳动免费日常文案、快速问答,中文最强之一
通义千问阿里云免费对话,API 极便宜综合能力强,开源可私有部署
Kimi月之暗面免费额度超长文档分析(256K Token)
文心一言百度免费联网搜索、日常使用
DeepSeek深度求索免费/极低价推理能力强,性价比极高

国际模型(需要翻墙)

模型公司价格最适合
GPT-4o / o3OpenAI$20/月综合最强,多模态,英文场景
Claude Opus 4Anthropic$20/月长文写作、代码、深度分析
Gemini 3.0 ProGoogle免费/付费联网搜索,与 Google 生态集成

怎么选?

如果你的业务主要面向中国市场,国内模型就够了——免费、中文好、无需翻墙。详细对比看 → AI工具实测


大模型能做什么

  • :文案、邮件、报告、方案、代码
  • :总结长文档、提取关键信息、翻译
  • 分析:数据分析、竞品分析、市场调研
  • 对话:客服回复、问题解答、头脑风暴
  • 多模态:看图写文案、生成图片(部分模型)
  • 调用工具:连接你的数据库、搜索引擎、业务系统(通过 SkillsMCP

大模型的局限性

必须了解的三个坑

  1. 会编东西(幻觉):AI 可能非常自信地说出完全不对的话。关键数据一定要核实。
  2. 知识有截止:模型的知识有截止日期,不知道最近发生的事(除非联网搜索)。
  3. 输入可能被读取:你输入给 AI 的内容,要假设平台可能读取。核心商业机密不要输入。

解决幻觉的最佳方法:让 AI 基于你的文档回答(RAG 知识库),而不是让它凭空回答。


想深入了解?

下一步

了解了大模型后,来看看如何更好地使用它——提示工程

微信交流:592146145