代码之家 › 专栏 › 技术社区 › anitasp

减少矢量器的Pickle大小

tfidfvectorizer sklearn-pandas pickle size python-3.x

anitasp · 技术社区 · 7 年前

from sklearn.feature_extraction.text import TfidfVectorizer
tfidf = TfidfVectorizer(
        strip_accents = 'ascii', sublinear_tf=True, min_df=5, norm='l2',
        encoding='latin-1', ngram_range=(1, 2), stop_words=spanish_stopwords,
        token_pattern = r'\w+[a-z,Ã±]')
features = tfidf.fit_transform(df.Consumer_complaint_narrative).toarray()

features.shape

(617, 22997)

import pickle
pickle.dump(tfidf, open("vectorizer3.pickle", "wb"))

1 回复 | 直到 7 年前

Kalsi 4 年前

尝试使用gzip

import gzip
import pickle

# writing into file. This will take long time
fp = gzip.open('tfidf.data','wb')
pickle.dump(tfidf,fp)
fp.close()

# read the file
fp = gzip.open('primes.data','rb') #This assumes that tfidf.data is already packed with gzip
tfidf = pickle.load(fp)
fp.close()

此方法可能无法保证将文件大小减小到<10兆字节。但肯定会减少pickle文件的大小

推荐文章

Tom Walker · 使用Python 3.5和Anaconda找不到模块cPickle

7 年前

muni · 将Kd树对象转储到硬盘以供重用

7 年前

Chaitanya · 在sklearn中对酸洗数据执行预测

7 年前

mifin · 如何从S3加载pickle文件以在AWS Lambda中使用?

7 年前

Gideon Kogan · 从matplotlib中Pickle图形:2

7 年前

Ausar · python类型中的标志用于什么

7 年前

Lang0n · 泡菜未保存(或加载?)对象列表变量在\uu init之外__

7 年前

Roko Mijic · 推荐的持久(pickle)定制sklearn管道的方法是什么?

7 年前

udothemath · 如何使用python pickle库(或任何有效的其他库)保存scikit学习多分类器模型[重复]

7 年前

Rene Knuvers · 在Python中使用YAML或JSON序列化RangeDict

8 年前