AI 基础概念 on AI 学习笔记

Agent（智能体）

Sat, 16 May 2026 00:00:00 +0000

在AI领域，Agent（智能体） 可以理解为 “会自己动脑、动手去完成目标的数字实体”。

结合之前的比喻：

大模型只是那位 “说书人”（只会根据上文续写下文，不主动行动）。
Agent 则给这位说书人装上了 “眼睛、手脚和任务清单”。

具体来说，Agent 包含以下几个核心能力：

自主规划：不只被动接话，而是能把一个复杂目标（比如“帮我订下周三去北京的机票”）拆解成步骤——先查日期、再比价、再跳转支付。
感知环境：能接收来自外部的反馈（比如网页提示“座位已满”，它能看到并调整计划）。
调用工具：可以主动使用搜索引擎、计算器、API、操作软件等，而不只是输出文字。
执行动作：最终在现实或数字世界里产生影响——比如真正点下“确认下单”按钮。

简单区分：

大模型 = 大脑（只会说话推理）
Agent = 大脑 + 手 + 眼 + 目标驱动

典型例子：AutoGPT、能自动发邮件的AI助理、在游戏里自己打怪升级的AI角色。可以说，Agent 让 AI 从“说到”变成了“做到”。

Skill（技能）

Sat, 16 May 2026 00:00:00 +0000

延续之前的比喻：

大模型 = 会思考、会说话的大脑（说书人）。
Agent = 大脑 + 眼睛（感知）+ 手脚（行动）+ 任务清单（规划）。
Skill = 给Agent配备的 “专项技能证书”，比如“会用电钻”“会说法语”“会查股票”。

具体来说：一个Skill就是一段预先编写好的、让Agent能完成特定动作的代码或流程。例如：

“发送邮件”技能 → Agent调用它就能自动填写收件人、主题、正文并点击发送。
“计算器”技能 → Agent遇到数学运算时，不靠大模型瞎猜，而是精确计算。
“查询天气”技能 → Agent调用天气API并解析结果。

为什么需要Skill？
大模型虽然聪明，但不会实际操作外部系统，也可能出现幻觉。Skill 就像给Agent “外挂的机械手臂”，让它能真正做事情——而且Skill可以随时添加、更新、复用，就像给机器人换螺丝刀头一样。

与Tool的区别：
这两个词经常混用，但细微差别是：

Tool 通常更通用（比如“搜索引擎”是一个工具）。
Skill 更偏向封装好的、面向任务的能力（比如“帮我在Slack上发消息”是一个技能）。
很多框架（如LangChain、Semantic Kernel）中，Skill 本质上就是调用一系列Tool的流程或模板。

一句话总结：

大脑（大模型）决定“做什么”，Agent决定“怎么安排”，而Skill就是让安排落地的‘手和关节’ —— 缺了它，Agent只会说不会做。

什么是大语言模型？用大白话解释 LLM 的工作原理

Fri, 15 May 2026 00:00:00 +0000

很多人听到"大语言模型"（Large Language Model，简称 LLM）就觉得高深莫测。其实它的核心原理可以用一个简单的比喻来理解：它就像一个读过海量书籍、能根据上文预测下文的人。

一个简单的比喻

想象你正在看一部悬疑小说，读到"凶手就是——“这句话。你的大脑会自然地预测下一个词可能是"他”、“她"或者是人名。大语言模型做的事情本质上也类似：给它一段文字，它预测下一个最可能出现的词。

区别在于，LLM 是在数万亿个词上训练的。它读过几乎所有公开的书籍、文章、网页，所以它的"预测能力"非常惊人——不仅知道下一个词是什么，还能理解整段话的含义。

LLM 的核心三要素

要理解大语言模型，只需要抓住三个关键词：

数据：LLM 需要"喂养"海量文本数据。数据越多、质量越高，模型就越聪明。
参数：可以理解为模型的"脑细胞"数量。GPT-3 有 1750 亿个参数，GPT-4 据传超过 1 万亿。参数越多，模型能记住和理解的模式就越多。
训练：就是让模型反复"做题"的过程。给模型一段文字，让它预测下一个词，然后告诉它对错，不断调整参数，直到它"学明白”。

Transformer：LLM 的发动机

几乎所有现代大语言模型都基于一种叫 Transformer 的架构（2017 年由 Google 提出）。它的核心创新是一个叫"自注意力机制"（Self-Attention）的东西。

通俗地讲，传统模型读一句话是一个词一个词读的，容易"读到后面忘了前面"。而 Transformer 可以同时关注句子中所有词之间的关系。比如读"小明把苹果给了小红，她很高兴"，Transformer 能知道"她"指的是小红，而不是苹果。

LLM 能做什么？

随着规模的增大，大语言模型展现出了一些"涌现能力"——即训练数据中没有直接教过、但模型自己学会的能力：

撰写文章、诗歌、代码
翻译语言
总结长文
逻辑推理和数学解题
多轮对话

LLM 的局限性

了解 LLM 的不足同样重要：

幻觉：LLM 可能自信满满地说出错误信息，因为它只是在预测"听起来合理"的词，而不是查证事实。
知识截止日期：模型训练完成后，它的知识就冻结了。它不知道训练之后发生的事情。
计算成本高：训练和运行大模型需要大量电力和算力，这也是为什么这些模型通常以 API 形式提供。

小结

大语言模型本质上是一个超级强大的"文字预测器"。当这个预测器足够大、读的东西足够多之后，它就展现出了类似人类的理解和生成能力。它不是魔法，而是数学 + 数据 + 算力的产物。

理解了这一点，你就迈出了学习 AI 的第一步。

Prompt（提示词）入门：怎么跟 AI 说话它才懂你

Thu, 14 May 2026 00:00:00 +0000

用好 AI 的第一步是学会提问。同一个 AI 工具，不同的人用，效果可能天差地别——差别就在"提示词"（Prompt）上。

什么是 Prompt？

Prompt 就是你输入给 AI 的那段话。它可以是一个问题、一个指令、一段上下文，或者以上三者的组合。AI 根据你的 Prompt 来决定怎么回答。

可以这样理解：AI 就像一个知识渊博但有点"老实"的助理。你说"帮我写点东西"，它可能随便写几句；但如果你说"帮我写一封 200 字的英文商务邮件，语气专业但友好"，效果就完全不一样了。

三个实用技巧

技巧一：给角色（Role）

告诉 AI 它现在是谁。这会改变它回答的风格和深度。

❌ 差的 Prompt：解释一下黑洞。 ✅ 好的 Prompt：你是一位天体物理学教授，请用生动的方式向高中生解释什么是黑洞。

技巧二：给结构（Structure）

明确告诉 AI 你想要的输出格式。

❌ 差的 Prompt：写一篇关于健身的文章。 ✅ 好的 Prompt：写一篇关于健身的文章，结构如下：

开头用一个数据吸引注意

列出 3 个常见的健身误区

每个误区给出科学解释

结尾给出可执行的建议

技巧三：给示例（Example）

给 AI 一两个范例，它就能模仿你的风格。这叫 Few-shot Prompting。

请将以下句子翻译成英文，风格参考示例：

示例：输入：今天天气真好 → 输出：What a lovely day! 输入：我有点累了 → 输出：I’m feeling a bit worn out.

输入：这部电影太精彩了 →

常见误区

误区一：Prompt 越长越好——不是的。清晰比长度重要。有时候一句话说清楚就够了。
误区二：AI 一次就能出完美结果——往往需要多轮对话，逐步修正。把它当成协作伙伴。
误区三：用英文写 Prompt 一定更好——对中文用户来说，用中文写 Prompt 一样能得到好结果。关键在表达清晰。

小结

写好 Prompt 的本质是"把话说清楚"。给角色、给结构、给示例，这三招掌握好，你就能从"随便问问"升级到"精准对话"。认真写好 Prompt，是对 AI 最大的尊重。

Embedding（嵌入）是什么？为什么它是 AI 理解和检索的基石

Wed, 13 May 2026 00:00:00 +0000

如果你用过 ChatGPT 的"知识库"功能，或者听说过"语义搜索"，那你已经间接接触过 Embedding 了。它是现代 AI 最基础也最重要的概念之一。

一句话解释

Embedding（嵌入）就是把一段文字、一张图、一段音频变成一串数字，这串数字代表它的"语义"——意思相近的东西，数字也相近。

一个直观的比喻

想象一张巨大的地图。地图上每个城市有一个坐标（经纬度）。北京和天津的坐标很近，北京和纽约的坐标很远。Embedding 就是给每个词、每个句子、每篇文章分配一个"语义坐标"。

比如：

“猫"和"狗"的 Embedding 向量很接近（都是宠物）。
“猫"和"汽车"的 Embedding 向量就离得很远。
“王”-“男”+“女”≈“后”——向量的数学运算甚至能表达语义关系！

Embedding 有什么用？

Embedding 是现代 AI 基础设施的核心组件，主要应用场景包括：

1. 语义搜索

传统搜索只能匹配关键词。你搜"怎么减肥”，它只找包含"减肥"这个词的文档。而语义搜索用 Embedding，你搜"怎么减肥”，它也能找到"快速瘦身的方法"——因为两者的向量很接近。

2. RAG（检索增强生成）

这是当前最火的大模型应用模式。简单说就是：先把你的文档转换成 Embedding 存起来，用户提问时，找到最相关的文档片段，一起喂给大模型。这样大模型就能基于你的文档回答问题了。

3. 推荐系统

把用户和内容都映射到同一个 Embedding 空间。用户向量附近的内容，就是他可能感兴趣的。

4. 分类和聚类

Embedding 向量可以直接用来做分类（垃圾邮件检测）或聚类（自动把相似新闻归为一组）。

常用的 Embedding 模型

OpenAI text-embedding-3-small / large：当前最常用的云端 Embedding 服务，价格便宜效果好。
BGE（BAAI General Embedding）：智源研究院开源的 Embedding 模型，中文效果很好。
Sentence-BERT：经典的开源方案，适合句子级别的语义表示。

小结

Embedding 是把"语义"变成"数学"的桥梁。它让计算机能够"理解"内容的含义，而不仅仅是匹配表面的文字。理解了 Embedding，你就理解了为什么大模型能够做搜索、做推荐、做知识库问答。