分词(Tokenization)
- 将连续文本切分为独立的词或子词单元,英文通常以空格和标点分割,而中文等无空格语言需借助分词算法(如最大匹配、基于统计的模型)。
词性标注(Part-of-Speech Tagging)
- 为每个词语标注语法类别(如名词、动词、形容词),辅助分析句法结构。
句法分析(Parsing)
- 分析句子语法结构,包括:
- 成分句法分析:识别短语结构(如NP、VP)。
- 依存句法分析:刻画词语间的依赖关系(如主谓宾)。
命名实体识别(Named Entity Recognition, NER)
- 识别文本中特定类型的实体,如人名、地点、时间、组织机构等。
语义角色标注(Semantic Role Labeling, SRL)
- 标注句子中谓词(动词等)与相关成分的语义关系(如施事、受事、时间、地点)。
词义消歧(Word Sense Disambiguation, WSD)
- 根据上下文确定多义词的具体含义,苹果”指水果还是公司。
情感分析(Sentiment Analysis)
- 判断文本的情感倾向(正面、负面、中性),常用于评论分析和舆情监控。
文本分类(Text Classification)
- 将文本划分到预定义类别,如新闻分类、垃圾邮件过滤。
信息抽取(Information Extraction, IE)
- 从非结构化文本中提取结构化信息,如实体、关系、事件。
机器翻译(Machine Translation, MT)
- 自动将一种语言翻译成另一种语言,早期基于规则和统计,如今主要依赖神经网络。
文本生成(Text Generation)
- 根据输入生成连贯文本,包括摘要生成、对话系统、故事创作等。
问答系统(Question Answering, QA)
- 根据问题从文档或知识库中检索或生成答案,分为开放域和封闭域问答。
文本相似度计算(Text Similarity)
- 衡量两段文本的语义相似度,常用方法有余弦相似度、基于词向量或预训练模型的嵌入表示。
语言模型(Language Model, LM)
- 对文本序列的概率分布建模,用于预测下一个词或生成文本,预训练语言模型(如BERT、GPT、T5)已成为现代NLP的基石,通过微调可应用于多种下游任务。
文本表示(Text Representation)
- 将文本转换为计算机可处理的数值向量,包括:
- 离散表示:独热编码、词袋模型。
- 分布式表示:词向量(Word2Vec、GloVe)、上下文相关表示(ELMo、BERT)。
这些技术共同构成了NLP的基础,随着深度学习的发展,尤其是预训练模型的普及,NLP在各领域的应用不断深化,推动着人机交互、智能客服、内容分析等场景的进步。

版权声明:除非特别标注,否则均为本站原创文章,转载时请以链接形式注明文章出处。