python

关注公众号 jb51net

关闭
首页 > 脚本专栏 > python > Python中的TfidfVectorizer参数

Python中的TfidfVectorizer参数使用解析

作者:小白的进阶

这篇文章主要介绍了Python中的TfidfVectorizer参数使用解析,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教

TfidfVectorizer参数解析

vectorizer = CountVectorizer() #构建一个计算词频(TF)的玩意儿,当然这里面不足是可以做这些

transformer = TfidfTransformer() #构建一个计算TF-IDF的玩意儿

tfidf = transformer.fit_transform(vectorizer.fit_transform(corpus))

#vectorizer.fit_transform(corpus)将文本corpus输入,得到词频矩阵

#将这个矩阵作为输入,用transformer.fit_transform(词频矩阵)得到TF-IDF权重矩阵

TfidfTransformer + CountVectorizer=TfidfVectorizer

值得注意的是

CountVectorizer()和TfidfVectorizer()里面都有一个成员叫做vocabulary_(后面带一个下划线)

这个成员的意义是词典索引,对应的是TF-IDF权重矩阵的列,只不过一个是私有成员,一个是外部输入,原则上应该保持一致。

vectorizer = TfidfVectorizer(stop_words=stpwrdlst, sublinear_tf = True, max_df = 0.5)

关于参数

input:string{'filename', 'file', 'content'}

encoding:string, ‘utf-8’by default

decode_error:{'strict', 'ignore', 'replace'}

strip_accents: {'ascii', 'unicode', None}

analyzer:string,{'word', 'char'} or callable

preprocessor:callable or None(default)

tokenizer:callable or None(default)

ngram_range: tuple(min_n, max_n)

stop_words:string {'english'}, list, or None(default)

lowercase:boolean, default True

token_pattern:string

max_df: float in range [0.0, 1.0] or int, optional, 1.0 by default

min_df:float in range [0.0, 1.0] or int, optional, 1.0 by default

max_features: optional, None by default

vocabulary:Mapping or iterable, optional

binary:boolean, False by default

dtype:type, optional

norm:'l1', 'l2', or None,optional

use_idf:boolean, optional

smooth_idf:boolean,optional

sublinear_tf:boolean, optional

总结

以上为个人经验,希望能给大家一个参考,也希望大家多多支持脚本之家。

您可能感兴趣的文章:
阅读全文