简单来说，向量表示就是用一串数字（即向量）来代表任何事物，比如一个词、一句话、一张图片、一段声音，甚至一个用户或一部电影

星博讯 AI基础认知 2026-04-09 1

核心思想：从“符号”到“数值”

在传统计算机中,信息是符号化的。

简单来说，向量表示就是用一串数字（即向量）来代表任何事物，比如一个词、一句话、一张图片、一段声音，甚至一个用户或一部电影-第1张图片-星博讯网络科技知识-SEO优化技巧|AI知识科普|互联网行业干货大全

向量表示的精髓在于,将这些符号映射到一个高维的、连续的数值空间（向量空间） 中，这个映射过程的目标是：让向量的几何关系（如距离、方向）反映原始对象的语义关系。

核心类比：地图坐标 想象一下，世界上所有的城市（对象）都可以用经纬度（二维向量）表示。

我们可以看到：

向量表示就是为“词”、“句子”、“图片”等所有对象，寻找这样一张高维的“语义地图”。

可计算性：计算机擅长处理数字和数值运算，一旦对象变成了向量，我们就可以进行相似度计算（如余弦相似度）、聚类、分类、加减运算等。
捕捉语义关系：好的向量表示能让语义相似的物体在向量空间中位置接近。
- “猫” 和 “狗” 的向量距离应该比 “猫” 和 “汽车” 近得多。
- 著名的例子：“国王”的向量 - “男人”的向量 + “女人”的向量 ≈ “女王”的向量，这说明向量空间捕获了“性别”和“王室”的关系。
解决维度灾难与稀疏性：传统的 One-hot 编码（见下文）维度极高且稀疏（几乎全是0），计算效率低，且无法表达任何关系，向量表示将其压缩为相对低维、稠密的向量。
作为通用接口：几乎所有的深度学习模型（如神经网络）的输入和中间层，处理的都是向量，向量表示是将原始数据输入模型的“桥梁”。

Embedding 特指通过学习得到的、低维的、稠密的向量表示，它有两个关键属性：

“Embedding”这个词形象地描述了将对象“嵌入”到一个连续的向量空间的过程。

One-hot Encoding（独热编码）：
- 基础方法：假设词汇表有1万个词，每个词用一个长度为1万维的向量表示，只有该词对应位置是1，其余全是0。
- 缺点：维度高、稀疏、无法表示任何语义关系（任意两个词的向量点积都为0）。
Word2Vec / GloVe / FastText：
- 经典词嵌入技术，通过在大规模语料上训练，为每个词生成一个稠密向量（如300维）。
- 核心思想：一个词的语义由其上下文决定。“相似的词出现在相似的上下文中”。
- “银行” 和 “金融” 的向量会很接近，因为它们的上下文（如“存款”、“贷款”、“市场”）相似。
上下文相关的词向量（如BERT, ELMo）：
- 更先进的技术,同一个词在不同语境下有不同的向量表示。
- “苹果手机” 中的 “苹果” 和 “我想吃苹果” 中的 “苹果”，会得到两个不同的向量，前者更接近科技公司，后者更接近水果。
句子/文档向量：
- 对整个句子或段落生成一个向量表示,方法包括：
  - 对词向量取平均。
  - 使用 RNN/LSTM/Transformer 等序列模型编码。
  - 专门模型如 Sentence-BERT，能高效生成语义化的句子向量。

余弦相似度：最常用的方法，衡量两个向量在方向上的差异，忽略长度，值域为[-1, 1]，1表示方向完全相同。 相似度 = (A·B) / (||A|| * ||B||)
欧氏距离：衡量空间中两点间的直线距离，距离越小越相似。 距离 = sqrt( sum( (A_i - B_i)^2 ) )
内积：常用于推荐系统，直接表示用户向量和物品向量的匹配程度。