<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>AI 基础概念 on AI 学习笔记</title><link>https://GUkirito.github.io/series/ai-%E5%9F%BA%E7%A1%80%E6%A6%82%E5%BF%B5/</link><description>Recent content in AI 基础概念 on AI 学习笔记</description><generator>Hugo</generator><language>zh-CN</language><lastBuildDate>Sat, 16 May 2026 00:00:00 +0000</lastBuildDate><atom:link href="https://GUkirito.github.io/series/ai-%E5%9F%BA%E7%A1%80%E6%A6%82%E5%BF%B5/index.xml" rel="self" type="application/rss+xml"/><item><title>Agent（智能体）</title><link>https://GUkirito.github.io/2026-05-16-agent%E6%99%BA%E8%83%BD%E4%BD%93/</link><pubDate>Sat, 16 May 2026 00:00:00 +0000</pubDate><guid>https://GUkirito.github.io/2026-05-16-agent%E6%99%BA%E8%83%BD%E4%BD%93/</guid><description>&lt;p&gt;在AI领域，&lt;strong&gt;Agent（智能体）&lt;/strong&gt; 可以理解为 &lt;strong&gt;“会自己动脑、动手去完成目标的数字实体”&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;结合之前的比喻：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;大模型只是那位 &lt;strong&gt;“说书人”&lt;/strong&gt;（只会根据上文续写下文，不主动行动）。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Agent&lt;/strong&gt; 则给这位说书人装上了 &lt;strong&gt;“眼睛、手脚和任务清单”&lt;/strong&gt;。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;具体来说，Agent 包含以下几个核心能力：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;&lt;strong&gt;自主规划&lt;/strong&gt;：不只被动接话，而是能把一个复杂目标（比如“帮我订下周三去北京的机票”）拆解成步骤——先查日期、再比价、再跳转支付。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;感知环境&lt;/strong&gt;：能接收来自外部的反馈（比如网页提示“座位已满”，它能看到并调整计划）。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;调用工具&lt;/strong&gt;：可以主动使用搜索引擎、计算器、API、操作软件等，而不只是输出文字。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;执行动作&lt;/strong&gt;：最终在现实或数字世界里产生影响——比如真正点下“确认下单”按钮。&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;&lt;strong&gt;简单区分&lt;/strong&gt;：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;大模型 = 大脑（只会说话推理）&lt;/li&gt;
&lt;li&gt;Agent = 大脑 + 手 + 眼 + 目标驱动&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;典型例子：AutoGPT、能自动发邮件的AI助理、在游戏里自己打怪升级的AI角色。可以说，&lt;strong&gt;Agent 让 AI 从“说到”变成了“做到”&lt;/strong&gt;。&lt;/p&gt;</description></item><item><title>Skill（技能）</title><link>https://GUkirito.github.io/2026-05-16-skill%E6%8A%80%E8%83%BD/</link><pubDate>Sat, 16 May 2026 00:00:00 +0000</pubDate><guid>https://GUkirito.github.io/2026-05-16-skill%E6%8A%80%E8%83%BD/</guid><description>&lt;p&gt;延续之前的比喻：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;大模型&lt;/strong&gt; = 会思考、会说话的大脑（说书人）。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Agent&lt;/strong&gt; = 大脑 + 眼睛（感知）+ 手脚（行动）+ 任务清单（规划）。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Skill&lt;/strong&gt; = 给Agent配备的 &lt;strong&gt;“专项技能证书”&lt;/strong&gt;，比如“会用电钻”“会说法语”“会查股票”。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;具体来说&lt;/strong&gt;：一个Skill就是一段预先编写好的、让Agent能完成特定动作的代码或流程。例如：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;“发送邮件”技能 → Agent调用它就能自动填写收件人、主题、正文并点击发送。&lt;/li&gt;
&lt;li&gt;“计算器”技能 → Agent遇到数学运算时，不靠大模型瞎猜，而是精确计算。&lt;/li&gt;
&lt;li&gt;“查询天气”技能 → Agent调用天气API并解析结果。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;为什么需要Skill？&lt;/strong&gt;&lt;br&gt;
大模型虽然聪明，但不会实际操作外部系统，也可能出现幻觉。Skill 就像给Agent &lt;strong&gt;“外挂的机械手臂”&lt;/strong&gt;，让它能&lt;strong&gt;真正做事情&lt;/strong&gt;——而且Skill可以随时添加、更新、复用，就像给机器人换螺丝刀头一样。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;与Tool的区别&lt;/strong&gt;：&lt;br&gt;
这两个词经常混用，但细微差别是：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;Tool&lt;/strong&gt; 通常更通用（比如“搜索引擎”是一个工具）。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Skill&lt;/strong&gt; 更偏向封装好的、面向任务的能力（比如“帮我在Slack上发消息”是一个技能）。&lt;br&gt;
很多框架（如LangChain、Semantic Kernel）中，Skill 本质上就是调用一系列Tool的流程或模板。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;一句话总结&lt;/strong&gt;：&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;大脑（大模型）决定“做什么”，Agent决定“怎么安排”，而&lt;strong&gt;Skill就是让安排落地的‘手和关节’&lt;/strong&gt; —— 缺了它，Agent只会说不会做。&lt;/p&gt;
&lt;/blockquote&gt;</description></item><item><title>什么是大语言模型？用大白话解释 LLM 的工作原理</title><link>https://GUkirito.github.io/2026-05-15-llm/</link><pubDate>Fri, 15 May 2026 00:00:00 +0000</pubDate><guid>https://GUkirito.github.io/2026-05-15-llm/</guid><description>&lt;p&gt;很多人听到&amp;quot;大语言模型&amp;quot;（Large Language Model，简称 LLM）就觉得高深莫测。
其实它的核心原理可以用一个简单的比喻来理解：&lt;strong&gt;它就像一个读过海量书籍、能根据上文预测下文的人。&lt;/strong&gt;&lt;/p&gt;
&lt;h2 id="一个简单的比喻"&gt;一个简单的比喻&lt;/h2&gt;
&lt;p&gt;想象你正在看一部悬疑小说，读到&amp;quot;凶手就是——&amp;ldquo;这句话。
你的大脑会自然地预测下一个词可能是&amp;quot;他&amp;rdquo;、&amp;ldquo;她&amp;quot;或者是人名。
大语言模型做的事情本质上也类似：给它一段文字，它预测下一个最可能出现的词。&lt;/p&gt;
&lt;p&gt;区别在于，LLM 是在数万亿个词上训练的。它读过几乎所有公开的书籍、文章、网页，
所以它的&amp;quot;预测能力&amp;quot;非常惊人——不仅知道下一个词是什么，还能理解整段话的含义。&lt;/p&gt;
&lt;h2 id="llm-的核心三要素"&gt;LLM 的核心三要素&lt;/h2&gt;
&lt;p&gt;要理解大语言模型，只需要抓住三个关键词：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;数据&lt;/strong&gt;：LLM 需要&amp;quot;喂养&amp;quot;海量文本数据。数据越多、质量越高，模型就越聪明。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;参数&lt;/strong&gt;：可以理解为模型的&amp;quot;脑细胞&amp;quot;数量。GPT-3 有 1750 亿个参数，GPT-4 据传超过 1 万亿。参数越多，模型能记住和理解的模式就越多。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;训练&lt;/strong&gt;：就是让模型反复&amp;quot;做题&amp;quot;的过程。给模型一段文字，让它预测下一个词，然后告诉它对错，不断调整参数，直到它&amp;quot;学明白&amp;rdquo;。&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id="transformerllm-的发动机"&gt;Transformer：LLM 的发动机&lt;/h2&gt;
&lt;p&gt;几乎所有现代大语言模型都基于一种叫 &lt;strong&gt;Transformer&lt;/strong&gt; 的架构（2017 年由 Google 提出）。
它的核心创新是一个叫&amp;quot;自注意力机制&amp;quot;（Self-Attention）的东西。&lt;/p&gt;
&lt;p&gt;通俗地讲，传统模型读一句话是一个词一个词读的，容易&amp;quot;读到后面忘了前面&amp;quot;。
而 Transformer 可以同时关注句子中所有词之间的关系。
比如读&amp;quot;小明把苹果给了小红，她很高兴&amp;quot;，Transformer 能知道&amp;quot;她&amp;quot;指的是小红，而不是苹果。&lt;/p&gt;
&lt;h2 id="llm-能做什么"&gt;LLM 能做什么？&lt;/h2&gt;
&lt;p&gt;随着规模的增大，大语言模型展现出了一些&amp;quot;涌现能力&amp;quot;——即训练数据中没有直接教过、但模型自己学会的能力：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;撰写文章、诗歌、代码&lt;/li&gt;
&lt;li&gt;翻译语言&lt;/li&gt;
&lt;li&gt;总结长文&lt;/li&gt;
&lt;li&gt;逻辑推理和数学解题&lt;/li&gt;
&lt;li&gt;多轮对话&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id="llm-的局限性"&gt;LLM 的局限性&lt;/h2&gt;
&lt;p&gt;了解 LLM 的不足同样重要：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;幻觉&lt;/strong&gt;：LLM 可能自信满满地说出错误信息，因为它只是在预测&amp;quot;听起来合理&amp;quot;的词，而不是查证事实。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;知识截止日期&lt;/strong&gt;：模型训练完成后，它的知识就冻结了。它不知道训练之后发生的事情。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;计算成本高&lt;/strong&gt;：训练和运行大模型需要大量电力和算力，这也是为什么这些模型通常以 API 形式提供。&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id="小结"&gt;小结&lt;/h2&gt;
&lt;p&gt;大语言模型本质上是一个超级强大的&amp;quot;文字预测器&amp;quot;。
当这个预测器足够大、读的东西足够多之后，它就展现出了类似人类的理解和生成能力。
它不是魔法，而是数学 + 数据 + 算力的产物。&lt;/p&gt;
&lt;p&gt;理解了这一点，你就迈出了学习 AI 的第一步。&lt;/p&gt;</description></item><item><title>Prompt（提示词）入门：怎么跟 AI 说话它才懂你</title><link>https://GUkirito.github.io/2026-05-14-prompt/</link><pubDate>Thu, 14 May 2026 00:00:00 +0000</pubDate><guid>https://GUkirito.github.io/2026-05-14-prompt/</guid><description>&lt;p&gt;用好 AI 的第一步是学会提问。同一个 AI 工具，不同的人用，效果可能天差地别——差别就在&amp;quot;提示词&amp;quot;（Prompt）上。&lt;/p&gt;
&lt;h2 id="什么是-prompt"&gt;什么是 Prompt？&lt;/h2&gt;
&lt;p&gt;Prompt 就是你输入给 AI 的那段话。它可以是一个问题、一个指令、一段上下文，或者以上三者的组合。AI 根据你的 Prompt 来决定怎么回答。&lt;/p&gt;
&lt;p&gt;可以这样理解：AI 就像一个知识渊博但有点&amp;quot;老实&amp;quot;的助理。你说&amp;quot;帮我写点东西&amp;quot;，它可能随便写几句；但如果你说&amp;quot;帮我写一封 200 字的英文商务邮件，语气专业但友好&amp;quot;，效果就完全不一样了。&lt;/p&gt;
&lt;h2 id="三个实用技巧"&gt;三个实用技巧&lt;/h2&gt;
&lt;h3 id="技巧一给角色role"&gt;技巧一：给角色（Role）&lt;/h3&gt;
&lt;p&gt;告诉 AI 它现在是谁。这会改变它回答的风格和深度。&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;❌ 差的 Prompt：解释一下黑洞。
✅ 好的 Prompt：你是一位天体物理学教授，请用生动的方式向高中生解释什么是黑洞。&lt;/p&gt;
&lt;/blockquote&gt;
&lt;h3 id="技巧二给结构structure"&gt;技巧二：给结构（Structure）&lt;/h3&gt;
&lt;p&gt;明确告诉 AI 你想要的输出格式。&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;❌ 差的 Prompt：写一篇关于健身的文章。
✅ 好的 Prompt：写一篇关于健身的文章，结构如下：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;开头用一个数据吸引注意&lt;/li&gt;
&lt;li&gt;列出 3 个常见的健身误区&lt;/li&gt;
&lt;li&gt;每个误区给出科学解释&lt;/li&gt;
&lt;li&gt;结尾给出可执行的建议&lt;/li&gt;
&lt;/ol&gt;
&lt;/blockquote&gt;
&lt;h3 id="技巧三给示例example"&gt;技巧三：给示例（Example）&lt;/h3&gt;
&lt;p&gt;给 AI 一两个范例，它就能模仿你的风格。这叫 Few-shot Prompting。&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;请将以下句子翻译成英文，风格参考示例：&lt;/p&gt;
&lt;p&gt;示例：
输入：今天天气真好 → 输出：What a lovely day!
输入：我有点累了 → 输出：I&amp;rsquo;m feeling a bit worn out.&lt;/p&gt;
&lt;p&gt;输入：这部电影太精彩了 →&lt;/p&gt;
&lt;/blockquote&gt;
&lt;h2 id="常见误区"&gt;常见误区&lt;/h2&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;误区一：Prompt 越长越好&lt;/strong&gt;——不是的。清晰比长度重要。有时候一句话说清楚就够了。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;误区二：AI 一次就能出完美结果&lt;/strong&gt;——往往需要多轮对话，逐步修正。把它当成协作伙伴。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;误区三：用英文写 Prompt 一定更好&lt;/strong&gt;——对中文用户来说，用中文写 Prompt 一样能得到好结果。关键在表达清晰。&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id="小结"&gt;小结&lt;/h2&gt;
&lt;p&gt;写好 Prompt 的本质是&amp;quot;把话说清楚&amp;quot;。给角色、给结构、给示例，这三招掌握好，你就能从&amp;quot;随便问问&amp;quot;升级到&amp;quot;精准对话&amp;quot;。认真写好 Prompt，是对 AI 最大的尊重。&lt;/p&gt;</description></item><item><title>Embedding（嵌入）是什么？为什么它是 AI 理解和检索的基石</title><link>https://GUkirito.github.io/2026-05-13-embedding/</link><pubDate>Wed, 13 May 2026 00:00:00 +0000</pubDate><guid>https://GUkirito.github.io/2026-05-13-embedding/</guid><description>&lt;p&gt;如果你用过 ChatGPT 的&amp;quot;知识库&amp;quot;功能，或者听说过&amp;quot;语义搜索&amp;quot;，那你已经间接接触过 Embedding 了。它是现代 AI 最基础也最重要的概念之一。&lt;/p&gt;
&lt;h2 id="一句话解释"&gt;一句话解释&lt;/h2&gt;
&lt;p&gt;Embedding（嵌入）就是把一段文字、一张图、一段音频变成一串数字，这串数字代表它的&amp;quot;语义&amp;quot;——意思相近的东西，数字也相近。&lt;/p&gt;
&lt;h2 id="一个直观的比喻"&gt;一个直观的比喻&lt;/h2&gt;
&lt;p&gt;想象一张巨大的地图。地图上每个城市有一个坐标（经纬度）。北京和天津的坐标很近，北京和纽约的坐标很远。&lt;strong&gt;Embedding 就是给每个词、每个句子、每篇文章分配一个&amp;quot;语义坐标&amp;quot;。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;比如：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&amp;ldquo;猫&amp;quot;和&amp;quot;狗&amp;quot;的 Embedding 向量很接近（都是宠物）。&lt;/li&gt;
&lt;li&gt;&amp;ldquo;猫&amp;quot;和&amp;quot;汽车&amp;quot;的 Embedding 向量就离得很远。&lt;/li&gt;
&lt;li&gt;&amp;ldquo;王&amp;rdquo;-&amp;ldquo;男&amp;rdquo;+&amp;ldquo;女&amp;rdquo;≈&amp;ldquo;后&amp;rdquo;——向量的数学运算甚至能表达语义关系！&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id="embedding-有什么用"&gt;Embedding 有什么用？&lt;/h2&gt;
&lt;p&gt;Embedding 是现代 AI 基础设施的核心组件，主要应用场景包括：&lt;/p&gt;
&lt;h3 id="1-语义搜索"&gt;1. 语义搜索&lt;/h3&gt;
&lt;p&gt;传统搜索只能匹配关键词。你搜&amp;quot;怎么减肥&amp;rdquo;，它只找包含&amp;quot;减肥&amp;quot;这个词的文档。而语义搜索用 Embedding，你搜&amp;quot;怎么减肥&amp;rdquo;，它也能找到&amp;quot;快速瘦身的方法&amp;quot;——因为两者的向量很接近。&lt;/p&gt;
&lt;h3 id="2-rag检索增强生成"&gt;2. RAG（检索增强生成）&lt;/h3&gt;
&lt;p&gt;这是当前最火的大模型应用模式。简单说就是：先把你的文档转换成 Embedding 存起来，用户提问时，找到最相关的文档片段，一起喂给大模型。这样大模型就能基于你的文档回答问题了。&lt;/p&gt;
&lt;h3 id="3-推荐系统"&gt;3. 推荐系统&lt;/h3&gt;
&lt;p&gt;把用户和内容都映射到同一个 Embedding 空间。用户向量附近的内容，就是他可能感兴趣的。&lt;/p&gt;
&lt;h3 id="4-分类和聚类"&gt;4. 分类和聚类&lt;/h3&gt;
&lt;p&gt;Embedding 向量可以直接用来做分类（垃圾邮件检测）或聚类（自动把相似新闻归为一组）。&lt;/p&gt;
&lt;h2 id="常用的-embedding-模型"&gt;常用的 Embedding 模型&lt;/h2&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;OpenAI text-embedding-3-small / large&lt;/strong&gt;：当前最常用的云端 Embedding 服务，价格便宜效果好。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;BGE（BAAI General Embedding）&lt;/strong&gt;：智源研究院开源的 Embedding 模型，中文效果很好。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Sentence-BERT&lt;/strong&gt;：经典的开源方案，适合句子级别的语义表示。&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id="小结"&gt;小结&lt;/h2&gt;
&lt;p&gt;Embedding 是把&amp;quot;语义&amp;quot;变成&amp;quot;数学&amp;quot;的桥梁。它让计算机能够&amp;quot;理解&amp;quot;内容的含义，而不仅仅是匹配表面的文字。理解了 Embedding，你就理解了为什么大模型能够做搜索、做推荐、做知识库问答。&lt;/p&gt;</description></item></channel></rss>