<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>大语言模型 on AI 学习笔记</title><link>https://GUkirito.github.io/tags/%E5%A4%A7%E8%AF%AD%E8%A8%80%E6%A8%A1%E5%9E%8B/</link><description>Recent content in 大语言模型 on AI 学习笔记</description><generator>Hugo</generator><language>zh-CN</language><lastBuildDate>Fri, 15 May 2026 00:00:00 +0000</lastBuildDate><atom:link href="https://GUkirito.github.io/tags/%E5%A4%A7%E8%AF%AD%E8%A8%80%E6%A8%A1%E5%9E%8B/index.xml" rel="self" type="application/rss+xml"/><item><title>什么是大语言模型？用大白话解释 LLM 的工作原理</title><link>https://GUkirito.github.io/2026-05-15-llm/</link><pubDate>Fri, 15 May 2026 00:00:00 +0000</pubDate><guid>https://GUkirito.github.io/2026-05-15-llm/</guid><description>&lt;p&gt;很多人听到&amp;quot;大语言模型&amp;quot;（Large Language Model，简称 LLM）就觉得高深莫测。
其实它的核心原理可以用一个简单的比喻来理解：&lt;strong&gt;它就像一个读过海量书籍、能根据上文预测下文的人。&lt;/strong&gt;&lt;/p&gt;
&lt;h2 id="一个简单的比喻"&gt;一个简单的比喻&lt;/h2&gt;
&lt;p&gt;想象你正在看一部悬疑小说，读到&amp;quot;凶手就是——&amp;ldquo;这句话。
你的大脑会自然地预测下一个词可能是&amp;quot;他&amp;rdquo;、&amp;ldquo;她&amp;quot;或者是人名。
大语言模型做的事情本质上也类似：给它一段文字，它预测下一个最可能出现的词。&lt;/p&gt;
&lt;p&gt;区别在于，LLM 是在数万亿个词上训练的。它读过几乎所有公开的书籍、文章、网页，
所以它的&amp;quot;预测能力&amp;quot;非常惊人——不仅知道下一个词是什么，还能理解整段话的含义。&lt;/p&gt;
&lt;h2 id="llm-的核心三要素"&gt;LLM 的核心三要素&lt;/h2&gt;
&lt;p&gt;要理解大语言模型，只需要抓住三个关键词：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;数据&lt;/strong&gt;：LLM 需要&amp;quot;喂养&amp;quot;海量文本数据。数据越多、质量越高，模型就越聪明。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;参数&lt;/strong&gt;：可以理解为模型的&amp;quot;脑细胞&amp;quot;数量。GPT-3 有 1750 亿个参数，GPT-4 据传超过 1 万亿。参数越多，模型能记住和理解的模式就越多。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;训练&lt;/strong&gt;：就是让模型反复&amp;quot;做题&amp;quot;的过程。给模型一段文字，让它预测下一个词，然后告诉它对错，不断调整参数，直到它&amp;quot;学明白&amp;rdquo;。&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id="transformerllm-的发动机"&gt;Transformer：LLM 的发动机&lt;/h2&gt;
&lt;p&gt;几乎所有现代大语言模型都基于一种叫 &lt;strong&gt;Transformer&lt;/strong&gt; 的架构（2017 年由 Google 提出）。
它的核心创新是一个叫&amp;quot;自注意力机制&amp;quot;（Self-Attention）的东西。&lt;/p&gt;
&lt;p&gt;通俗地讲，传统模型读一句话是一个词一个词读的，容易&amp;quot;读到后面忘了前面&amp;quot;。
而 Transformer 可以同时关注句子中所有词之间的关系。
比如读&amp;quot;小明把苹果给了小红，她很高兴&amp;quot;，Transformer 能知道&amp;quot;她&amp;quot;指的是小红，而不是苹果。&lt;/p&gt;
&lt;h2 id="llm-能做什么"&gt;LLM 能做什么？&lt;/h2&gt;
&lt;p&gt;随着规模的增大，大语言模型展现出了一些&amp;quot;涌现能力&amp;quot;——即训练数据中没有直接教过、但模型自己学会的能力：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;撰写文章、诗歌、代码&lt;/li&gt;
&lt;li&gt;翻译语言&lt;/li&gt;
&lt;li&gt;总结长文&lt;/li&gt;
&lt;li&gt;逻辑推理和数学解题&lt;/li&gt;
&lt;li&gt;多轮对话&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id="llm-的局限性"&gt;LLM 的局限性&lt;/h2&gt;
&lt;p&gt;了解 LLM 的不足同样重要：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;幻觉&lt;/strong&gt;：LLM 可能自信满满地说出错误信息，因为它只是在预测&amp;quot;听起来合理&amp;quot;的词，而不是查证事实。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;知识截止日期&lt;/strong&gt;：模型训练完成后，它的知识就冻结了。它不知道训练之后发生的事情。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;计算成本高&lt;/strong&gt;：训练和运行大模型需要大量电力和算力，这也是为什么这些模型通常以 API 形式提供。&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id="小结"&gt;小结&lt;/h2&gt;
&lt;p&gt;大语言模型本质上是一个超级强大的&amp;quot;文字预测器&amp;quot;。
当这个预测器足够大、读的东西足够多之后，它就展现出了类似人类的理解和生成能力。
它不是魔法，而是数学 + 数据 + 算力的产物。&lt;/p&gt;
&lt;p&gt;理解了这一点，你就迈出了学习 AI 的第一步。&lt;/p&gt;</description></item></channel></rss>