【自然语言处理】P3 spaCy 与 NLTK（分词、词形还原与词干提取）以及 Porter 和 Snowball

本文介绍: Python实现从句子分词的基本操作，两个库：spaCy 与 NLTK，以及进行词形还原和词干提取

在自然语言处理（NLP）中，文本分词是将文本拆分为单词或词组的过程，这是理解文本含义和结构的基础。Python中两个流行库——spaCy和NLTK（Natural Language Toolkit），都提供了分词功能。下面将详细介绍如何使用这两个库进行文本分词等操作。

准备工作

spaCy

如果没有安装 spaCy 库，请安装：

# 安装spaCy库
pip install spacy

安装好 spaCy 库后，下载语言模型：

# 安装语言模型数据包（案例为下载英文包）
python -m spacy download en_core_web_sm

常用的语言模型还包含：中文模型（zh_core_web_sm）
更多语言模型请见：https://spacy.io/models

完成库的安装以及英文包的下载。

NLTK

首先安装 NLTK 库：

# 安装 NTLK 库
pip install nltk

下载语言模型：

import nltk

nltk.download('stopwords')
nltk.download('averaged_perceptron_tagger')
nltk.download('punkt')

完成 NLTK 库的安装以及包的下载。

文本分词

spaCy

首先展示使用库 spaCy 进行分词：

import spacy

# 加载英文语料库
nlp = spacy.load('en_core_web_sm')
text = "Natural Language Processing is a subfield of linguistics, computer science and artificial intelligence"
# 进行分词操作
doc = nlp(text)

result = []
for token in doc:
    result.append(token)

print(result)

NLTK

展示使用库 NLTK 进行分词：

from nltk.tokenize import word_tokenize

text = "Natural Language Processing is a subfield of linguistics, computer science and artificial intelligence"
# 进行分词操作
tokens = word_tokenize(text)

result = []
for token in tokens:
    result.append(token)

print(result)

词形还原

词形还原是一项重要的文本预处理技术，旨在去除词形变化，返回单词的基本形式。这有助于统一词汇在不同语境中的表现形式，使得后续的语言分析更加准确。同样，我们将尝试使用 spaCy 以及 NLTK 库实现词形还原操作。

spaCy

首先展示通过 spaCy 的 doc[0].lemma_ 进行词形还原：

import spacy

nlp = spacy.load('en_core_web_sm')

# 获取词形还原结果
def get_lemmatization(word_list):
    lemmatized_list = []
    for word in word_list:
        doc = nlp(word)
        lemmatized_word = doc[0].lemma_
        lemmatized_list.append(lemmatized_word)
    return lemmatized_list


if __name__ == '__main__':
    test_word_list = ["men", "computers", "ate", "running", "fancier"]
    result_word_list = get_lemmatization(test_word_list)
    print(result_word_list)

NLTK

然后展示通过 NLTK 库的 WordNetLemmatizer 函数进行词形还原：

import nltk
from nltk.stem import WordNetLemmatizer

# nltk.download("wordnet")
# nltk.download("averaged_perceptron_tagger")

lemmatizer = WordNetLemmatizer()

test_word_list = ["men", "computers", "ate", "running", "fancier"]
result = [lemmatizer.lemmatize(word) for word in test_word_list]

print(result)

对比使用 spaCy 的分词结果以及使用 NLTK 词形还原结果为：

# spaCy:
['man', 'computer', 'eat', 'run', 'fancy']
# NLTK:
['men', 'computer', 'ate', 'running', 'fancier']

对比来看，明显 spaCy 的词形还原效果更好一些；

当然，除了 spaCy 以及 NLTK 可以进行词形还原外，还有另外一些方法，比如 Porter 和 Snowball stemmers 的词干提取法，请见下个部分。

词干提取

词干提取是一种简单形式的词形还原。它涉及使用手工制作的规则来剥去单词的词尾，将其简化成一种叫做词干的常见形式。

Porter

Porter Stemmer 是一个简单的词干提取算法，它通过一系列规则来减少单词到其词干形式。这个算法包括以下几个步骤：

删除单词末尾的辅音字母序列，直到剩下至少两个字符。
如果单词以元音字母结尾，删除这个元音字母。
如果单词长度大于2，且以元音字母开头，则将第一个辅音字母移到词干的开头。

Porter stemmer 示例代码如下：

from nltk.stem import PorterStemmer

# 创建 PorterStemmer 实例
stemmer = PorterStemmer()

test_word_list = ["running", "jumped", "eating", "playing"]
stemmed_words = [stemmer.stem(word) for word in test_word_list]

print(stemmed_words)

Snowball stemmers

Snowball Stemmer 是一个更复杂的词干提取算法，它是 Porter Stemmer 的改进版本，支持多种语言。Snowball Stemmer 采用了 Porter Stemmer 的基本思想，并添加了更多的规则和改进，以提高提取的准确性。

Snowball stemmers 示例代码如下：

from nltk.stem import SnowballStemmer

# 选择语言，创建实例
stemmer = SnowballStemmer("english")

test_word_list = ["running", "jumped", "eating", "playing"]
stemmed_words = [stemmer.stem(word) for word in test_word_list]

print(stemmed_words)

在选择词干提取或词形还原的方法时，需要根据具体需求来决定。词干提取通常用于简化单词，而词形还原则是更加注重保持单词的意义。

建议如果主要目标是简化单词以减少词汇量或提高文本分析的效率，词干提取更加适合；
而如果主要目标是更精确的词义分析，那么词形还原可能是更好的选择。

发布：2024/2/2
版本：第一版
如有任何疑问，请联系我，谢谢！

原文地址:https://blog.csdn.net/weixin_43098506/article/details/135977172

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。

如若转载，请注明出处：http://www.7code.cn/show_66981.html

如若内容造成侵权/违法违规/事实不符，请联系代码007邮箱：suwngjj01@126.com进行投诉反馈，一经查实，立即删除！

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

spacy 分词文本

目录

准备工作

spaCy

NLTK

文本分词

spaCy

NLTK

词形还原

spaCy

NLTK

词干提取

Porter

Snowball stemmers

发表回复取消回复

目录

准备工作

spaCy

NLTK

文本分词

spaCy

NLTK

词形还原

spaCy

NLTK

词干提取

Porter

Snowball stemmers

相关文章

发表回复 取消回复

发表回复取消回复