代码之家 › 专栏 › 技术社区 › Bidisha Mukherjee

pyspark中ML算法的训练

apache-spark-mllib pyspark apache-spark python

Bidisha Mukherjee · 技术社区 · 7 年前

我是Pyspark的新手,正在尝试在Pyspark中创建ML模型我的目标是创建一个TFidf矢量器,并将这些特征传递给我的SVM模型。我试过这个

import findspark
findspark.init()
from pyspark import SparkContext, SparkConf

conf = SparkConf().setMaster("local[2]").setAppName("Stream")
sc = SparkContext(conf=conf)
parallelized = sc.parallelize(Dataset.CleanText)
             #dataset is a pandas dataframe with CleanText as one of the column
from pyspark.mllib.feature import HashingTF, IDF
hashingTF = HashingTF()
tf = hashingTF.transform(parallelized)

# While applying HashingTF only needs a single pass to the data, applying IDF needs two passes:
# First to compute the IDF vector and second to scale the term frequencies by IDF.
#tf.cache()
idf = IDF().fit(tf)
tfidf = idf.transform(tf)

print ("vecs: ",tfidf.glom().collect())
         #This is printing all the TFidf vectors


import numpy as np
labels = np.array(Dataset['LabelNo'])

现在,我应该如何将这些Tfidf和标签值传递给我的模型?

我跟踪了这个 http://spark.apache.org/docs/2.0.0/api/python/pyspark.mllib.html

并尝试将标记点创建为

from pyspark.sql import SparkSession
from pyspark.ml.linalg import Vectors
spark = SparkSession.builder.appName("SparkSessionZipsExample").getOrCreate()

dd = [(labels[i], Vectors.dense(tfidf[i])) for i in range(len(labels))]
df = spark.createDataFrame(sc.parallelize(dd),schema=["label", "features"])

print ("df: ",df.glom().collect())

但这给了我一个错误:

---–ª15 dd=[(标签[i],向量。密集(tfidf[i]),对于范围内的i(len(标签))] 16 df=火花。createDataFrame(sc.parallelize(dd),模式=[“label”,“features”]) 17

TypeError:“RDD”对象不支持索引

1 回复 | 直到 7 年前

pauli 7 年前

错误清楚地解释了自己 RDD does not support indexing . 您正在尝试获取 ith 第行,共行 tfidf 通过使用 i 作为其索引( tfidf[i] 第15行)。RDD不像列表那样工作。RDD是分布式数据集。行随机分配给工人。

您必须收集 词频-逆向文件频率 如果您想让代码正常工作,那么可以将其迁移到单个节点,但这将无法实现spark这样的分布式框架的目的。

我建议您使用数据帧而不是RDD,因为它们比RDD和 ml lib支持 mllib .

推荐文章

Google User · Django管理员在`list_display中未显示`creation_date`字段`

4 月前

user29747013 · 如何创建一个新的数据框架,其中包含原始数据框架中列的聚合列?

4 月前

ÎÎÎ½Î· ÎÎ®Î¹Î½Î¿Ï · Python lxml.html语法错误:使用lxml find时XPATH的谓词无效

4 月前

user29715306 · from_users=和chats=电视节目中的差异

4 月前

Redshoe · 当执行numpy.genfromtxt()时,python是否会读取文件的所有行?

4 月前

RASEL MAHMUD · 为什么以及如何在is_even()函数内的IF条件中递归X变量在满足0后递增?[副本]

4 月前

prayner · 更新嵌套字典包含列表中的项

5 月前

Bringo Jr · 我可以在O(n)中解决这个问题吗?

5 月前

Dave · 如何在for循环中修改列表值

5 月前

Shukurullox Komiljonov · 从记录中获得相互和解。使用SQL

5 月前