<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>Embedding on AI 学习笔记</title><link>https://GUkirito.github.io/tags/embedding/</link><description>Recent content in Embedding on AI 学习笔记</description><generator>Hugo</generator><language>zh-CN</language><lastBuildDate>Wed, 13 May 2026 00:00:00 +0000</lastBuildDate><atom:link href="https://GUkirito.github.io/tags/embedding/index.xml" rel="self" type="application/rss+xml"/><item><title>Embedding（嵌入）是什么？为什么它是 AI 理解和检索的基石</title><link>https://GUkirito.github.io/2026-05-13-embedding/</link><pubDate>Wed, 13 May 2026 00:00:00 +0000</pubDate><guid>https://GUkirito.github.io/2026-05-13-embedding/</guid><description>&lt;p&gt;如果你用过 ChatGPT 的&amp;quot;知识库&amp;quot;功能，或者听说过&amp;quot;语义搜索&amp;quot;，那你已经间接接触过 Embedding 了。它是现代 AI 最基础也最重要的概念之一。&lt;/p&gt;
&lt;h2 id="一句话解释"&gt;一句话解释&lt;/h2&gt;
&lt;p&gt;Embedding（嵌入）就是把一段文字、一张图、一段音频变成一串数字，这串数字代表它的&amp;quot;语义&amp;quot;——意思相近的东西，数字也相近。&lt;/p&gt;
&lt;h2 id="一个直观的比喻"&gt;一个直观的比喻&lt;/h2&gt;
&lt;p&gt;想象一张巨大的地图。地图上每个城市有一个坐标（经纬度）。北京和天津的坐标很近，北京和纽约的坐标很远。&lt;strong&gt;Embedding 就是给每个词、每个句子、每篇文章分配一个&amp;quot;语义坐标&amp;quot;。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;比如：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&amp;ldquo;猫&amp;quot;和&amp;quot;狗&amp;quot;的 Embedding 向量很接近（都是宠物）。&lt;/li&gt;
&lt;li&gt;&amp;ldquo;猫&amp;quot;和&amp;quot;汽车&amp;quot;的 Embedding 向量就离得很远。&lt;/li&gt;
&lt;li&gt;&amp;ldquo;王&amp;rdquo;-&amp;ldquo;男&amp;rdquo;+&amp;ldquo;女&amp;rdquo;≈&amp;ldquo;后&amp;rdquo;——向量的数学运算甚至能表达语义关系！&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id="embedding-有什么用"&gt;Embedding 有什么用？&lt;/h2&gt;
&lt;p&gt;Embedding 是现代 AI 基础设施的核心组件，主要应用场景包括：&lt;/p&gt;
&lt;h3 id="1-语义搜索"&gt;1. 语义搜索&lt;/h3&gt;
&lt;p&gt;传统搜索只能匹配关键词。你搜&amp;quot;怎么减肥&amp;rdquo;，它只找包含&amp;quot;减肥&amp;quot;这个词的文档。而语义搜索用 Embedding，你搜&amp;quot;怎么减肥&amp;rdquo;，它也能找到&amp;quot;快速瘦身的方法&amp;quot;——因为两者的向量很接近。&lt;/p&gt;
&lt;h3 id="2-rag检索增强生成"&gt;2. RAG（检索增强生成）&lt;/h3&gt;
&lt;p&gt;这是当前最火的大模型应用模式。简单说就是：先把你的文档转换成 Embedding 存起来，用户提问时，找到最相关的文档片段，一起喂给大模型。这样大模型就能基于你的文档回答问题了。&lt;/p&gt;
&lt;h3 id="3-推荐系统"&gt;3. 推荐系统&lt;/h3&gt;
&lt;p&gt;把用户和内容都映射到同一个 Embedding 空间。用户向量附近的内容，就是他可能感兴趣的。&lt;/p&gt;
&lt;h3 id="4-分类和聚类"&gt;4. 分类和聚类&lt;/h3&gt;
&lt;p&gt;Embedding 向量可以直接用来做分类（垃圾邮件检测）或聚类（自动把相似新闻归为一组）。&lt;/p&gt;
&lt;h2 id="常用的-embedding-模型"&gt;常用的 Embedding 模型&lt;/h2&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;OpenAI text-embedding-3-small / large&lt;/strong&gt;：当前最常用的云端 Embedding 服务，价格便宜效果好。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;BGE（BAAI General Embedding）&lt;/strong&gt;：智源研究院开源的 Embedding 模型，中文效果很好。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Sentence-BERT&lt;/strong&gt;：经典的开源方案，适合句子级别的语义表示。&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id="小结"&gt;小结&lt;/h2&gt;
&lt;p&gt;Embedding 是把&amp;quot;语义&amp;quot;变成&amp;quot;数学&amp;quot;的桥梁。它让计算机能够&amp;quot;理解&amp;quot;内容的含义，而不仅仅是匹配表面的文字。理解了 Embedding，你就理解了为什么大模型能够做搜索、做推荐、做知识库问答。&lt;/p&gt;</description></item></channel></rss>