我试图使用R包RecordLinkage在一个包含74000个条目的数据帧和一个包含大约350000个条目的数据帧之间找到重复条目。我使用RLBigDataLinkage生成了一个对象rpairs,但无法完成加权位。它吐出的错误是:
Error in ff(initdata = initdata, length = length, levels = levels, ordered = ordered, :
no diskspace
代码如下:
Missing <- data.frame(Missing$fulladdr, Missing$zip, Missing$XCOORD, Missing$YCOORD)
Missing <- rename(Missing, c("Missing.fulladdr"="addr", "Missing.zip"="zip", "Missing.XCOORD"="X", "Missing.YCOORD"="Y"))
samlink <- data.frame(sam$fulladdr, sam$zip, sam$COB.SAM.Longitude, sam$COB.SAM.Latitude)
samlink <- rename(samlink, c("sam.fulladdr"="addr", "sam.zip"="zip", "sam.COB.SAM.Latitude"="Y", "sam.COB.SAM.Longitude"="X"))
rpairs <- RLBigDataLinkage(dataset1 = samlink, dataset2 = Missing,
blockfld = c(2), strcmp = c(1), strcmpfun = "jarowinkler")
rpairs_em <- emWeights(rpairs)