我们可以从几个层面来理解这个问题

星博讯 AI热议话题 2026-04-14 39

什么 是“小语种”？（在AI语境下）

在AI领域,“小语种”通常指：

我们可以从几个层面来理解这个问题-第1张图片-星博讯网络科技知识-SEO优化技巧|AI知识科普|互联网行业干货大全

很多有数千万甚至上亿使用者的语言（如孟加拉语、斯瓦希里语、泰米尔语），在AI领域也可能被视为“小语种”，就是因为缺乏数字资源。

主要有两种路径：

从零开始训练单语/多语小模型

扩展大型多语言模型的能力 这是目前最主要、最有效的方向，大厂和开源社区都在努力让现有的大模型（如LLaMA、Bloom、GPT系列）更好地支持小语种。

方法：
- 在预训练中加入小语种数据：在训练“下一代”大模型时，主动加入更多小语种数据。
- 持续预训练：在一个已训练好的大模型基础上，用目标小语种的数据继续训练，让其“学习”该语言。
- 指令微调：使用该语言的指令数据对模型进行微调，使其能更好地理解和执行任务（如翻译、问答、创作）。
关键技术：LoRA等高效微调技术极大地降低了成本，使得用少量数据和小规模算力适配小语种成为可能。

我们DeepSeek在这方面也做了很多努力！ 我们的模型在训练时就涵盖了广泛的语言数据，在数十种语言上都有不错的表现，虽然在不同语言上的能力会有差异（通常英语和中文最强），但我们持续致力于提升对小语种的支持和性能。

Bloom：由BigScience团队推出，设计初衷就是多语言包容性，支持46种语言和13种编程语言。
LLaMA 系列及其衍生品：Meta开源的LLaMA模型本身就有较强的多语言能力，社区基于它微调出了大量小语种版本。
- Vietcuna（越南语）、Japanese-LlaMA（日语）、Bactrian-X（支持多种中亚语言）等。
Olmo：艾伦人工智能研究所开发的完全开源模型，强调可复现性和多语言支持。
Mistral AI 模型：其开源的Mistral、Mixtral模型在多语言任务上表现优异，社区也基于其做了很多适配。

如果你对特定语言感兴趣,可以：

搜索开源社区：去 Hugging Face 上搜索你的目标语言 + “LM”、“LLaMA”、“chat”等关键词，很可能已经有人发布了适配好的模型或数据集。
利用翻译数据：如果平行语料（如双语对照文本）相对丰富，可以专注于构建高质量的翻译模型或跨语言理解模型。
从小数据高效微调开始：使用像QLoRA这样的技术，即使只有几百MB的精选文本，也能对大模型进行有效的语言适配。
关注专门的组织：像Masakhane这样的社区专注于为非洲语言构建NLP资源，是很好的学习和参与平台。