CountVectorizer
目录
将所有词语装进一个袋子里,不考虑其词法和语序的问题,即每个词语都是独立的
句子1:我 爱 北 京 天 安 门 转换为 [1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0]
句子2:我 喜 欢 上 海 转换为 [1, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1]
from sklearn.feature_extraction.text import CountVectorizer
= [
corpus 'This is the first document.',
'This document is the second document.',
'And this is the third one.',
'Is this the first document?',
]= CountVectorizer()
vectorizer vectorizer.fit_transform(corpus).toarray()
result:
[[0 1 1 1 0 0 1 0 1]
[0 2 0 1 0 1 1 0 1]
[1 0 0 1 1 0 1 1 1]
[0 1 1 1 0 0 1 0 1]]