如何使用Python的sklearn CountVectorizer？

　　发布于2023-04-24　阅读（0）

扫一扫，手机访问

简介

CountVectorizer官方文档。

将一个文档集合向量化为为一个计数矩阵。

如果不提供一个先验字典，不使用分析器做某种特征选择，那么特征的数量将等于通过分析数据发现的词汇量。

数据预处理

两种方法：1.可以不分词直接投入模型；2.可以先将中文文本进行分词。

两种方法产生的词汇会非常不同。在后面会具体给出示范。

import jieba
import re
from sklearn.feature_extraction.text import CountVectorizer
#原始数据
text = ['很少在公众场合手机外放',
        '大部分人都还是很认真去学习的',
        '他们会用行动来',
        '无论你现在有多颓废，振作起来',
        '只需要一点点地改变',
        '你的外在和内在都能焕然一新']
#提取中文
text = [' '.join(re.findall('[\u4e00-\u9fa5]+',tt,re.S)) for tt in text]
#分词
text = [' '.join(jieba.lcut(tt)) for tt in text]
text

如何使用Python的sklearn CountVectorizer？

构建模型

训练模型

#构建模型
vectorizer = CountVectorizer()
#训练模型
X = vectorizer.fit_transform(text)

所有词汇：model.get_feature_names()

#所有文档汇集后生成的词汇
feature_names = vectorizer.get_feature_names()
print(feature_names)

不分词生成的词汇

如何使用Python的sklearn CountVectorizer？

分词后生成的词汇

如何使用Python的sklearn CountVectorizer？

计数矩阵：X.toarray()

#每个文档相对词汇量出现次数形成的矩阵
matrix = X.toarray()
print(matrix)

如何使用Python的sklearn CountVectorizer？

#计数矩阵转化为DataFrame
df = pd.DataFrame(matrix, columns=feature_names)
df

如何使用Python的sklearn CountVectorizer？

词汇索引：model.vocabulary_

print(vectorizer.vocabulary_)

如何使用Python的sklearn CountVectorizer？

本文转载于：https://www.yisu.com/zixun/775626.html 如有侵犯，请联系admin@zhengruan.com删除

上一篇：Java常用的算法有哪些

下一篇：如何解决Windows 11中出现的“找不到此主题中的文件之一”错误？

产品推荐

售后无忧
立即购买>

DAEMON Tools Lite 10【序列号终身授权 + 中文版 + Win】

￥150.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Ultra 5【序列号终身授权 + 中文版 + Win】

￥198.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Pro 8【序列号终身授权 + 中文版 + Win】

￥189.00
office旗舰店
售后无忧
立即购买>

CorelDRAW X8 简体中文【标准版 + Win】

￥1788.00
office旗舰店

正版软件

使用PHP实现分页功能，提升网站加载速度

PHP实现数据分页，让网站加载速度更快，需要具体代码示例随着互联网的快速发展和用户需求的不断增加，网站的数据量通常都会变得非常大，大量数据的加载会导致网页加载速度变慢，影响用户体验。为了解决这一问题，数据分页成为了一种常见的解决方案。数据分页可以将大量数据分割成多个页面加载，从而减少单个页面的数据量，提高网站的加载速度。在PHP中实现数据分页非常常见且简单，

8分钟前 PHP 数据分页加速加载 0
正版软件

分析Golang动态库机制的优缺点

在当今快节奏的软件开发环境中，不同的编程语言都在不断演进和发展，以满足不同类型的应用需求。Golang作为一种快速高效的静态编程语言，其被广泛应用于云计算、网络编程、微服务等领域。除了其强大的标准库和并发模型外，Golang还提供了一种灵活的动态库机制，使得开发人员可以更好地组织和管理代码，提高了软件的可维护性和可扩展性。动态库机制介绍Golang的动态库机

18分钟前 Golang 动态库机制优势及限制 0
正版软件

PHPDoc的魔力：自动生成文档的利器

PHPDoc是一种文档注释标准，用于为php代码生成全面、易于理解的文档。它充当注释的特殊语法，可解析为可读的文档，从而提高代码可读性和可维护性。PHPDoc简介PHPDoc允许开发者使用特殊注释语法，在代码中添加描述性元数据。这些元数据包括：函数、类和属性的描述参数和返回值类型异常信息用法示例PHPDoc注释语法PHPDoc注释使用以/**开始的注释块。此注释块包含特殊标记，用于指定不同的元数据类型。常用PHPDoc标记@param：指定参数的类型和描述@return：指定返回值的类型和描述@throw

33分钟前 PHPDoc 文档生成注释代码可读性 0
$解决tornado中gen.Return(\$ 正版软件

解决tornado中gen.Return(\"hello\")的问题

报错的原因在python中，Tornado是一个基于事件循环的网络框架。它使用了协程来处理并发，gen.Return("hello")是一种用于在协程中返回值的方法。在使用Tornado的异步功能时，使用gen.Return()可以在协程中返回值。如何解决在Tornado中，使用yield和gen.Return()来返回值。如果想要在协程中返回值，可以使用yield和gen.Return()来达到目的。例如：@gen.coroutinedefmy_coroutine():result=yieldsome_

48分钟前 0
正版软件

处理PHP7下载PDF文件失败的方法

PHP7下载PDF文件失败的解决方法在开发网站时，经常会遇到需要下载PDF文件的需求，然而在使用PHP7时，有时会遇到下载PDF文件失败的情况。本文将介绍一种解决这个问题的方法，并附上具体的代码示例。问题描述在PHP7环境下，当尝试下载PDF文件时，有时会出现下载失败的情况。这可能是由于服务器配置问题或代码实现上的一些不足导致的。解决方法步骤一：设置响应头在

1小时前 15:04 PHP 解决方法 PDF下载 0