代码之家 › 专栏 › 技术社区 › Samuel

读取带有双引号和逗号的CSV文件

data.table csv r

Samuel · 技术社区 · 7 年前

我正试图使用fread()函数从data.table包中读取一个脏的CSV文件,但是在字符串值中嵌入了双引号和逗号,也就是说,引号字段中存在未替换的双引号。下面的示例数据说明了我的问题。它由3行6列组成,第一行包含列名:

"SA","SU","CC","CN","POC","PAC"
"NE","R","000","H "B", O","1","8"
"A","A","000","P","E,5","8"

第一个问题出现在第2行,其中嵌入了一对双引号和一个逗号: "H "B", O" . 第二个问题在第3行,双引号中有一个逗号: "E,5" . 我尝试了以下方法:

library(data.table)
x1 <- fread(file = "example.csv", quote = "\"")

输出:

> x1
     V1 "SA" "SU"   "CC" "CN" "POC" "PAC"
1: "NE"  "R"    0 "H "B"   O"   "1"     8
2:  "A"  "A"    0    "P"   "E    5"     8

不带引号(例如,字段分隔符不出现在任何字段),请尝试引用“”以避免此警告。检测到6个列名,但猜测为行名或索引。如果此猜测不正确,请在后面使用setnames(),或者修复创建文件的文件写入命令以创建有效的文件。

结论:结果不正确,因为它增加了一个新的列 V1

尝试2

x2 <- fread(file = "example.csv", quote = "")

输出:

> x2
     V1 "SA"  "SU"   "CC" "CN" "POC" "PAC"
1: "NE"  "R" "000" "H "B"   O"   "1"   "8"
2:  "A"  "A" "000"    "P"   "E    5"   "8"

信息:

检测到6列名称,但数据有7列(即无效猜测为行名或索引。如果出现以下情况,请在后面使用setnames() 猜测不正确,或者修复创建

我要寻找的是一种方法,以获得类似的输出

> x3
   SA SU CC       CN POC PAC
1: NE  R  0 H 'B', O   1   8
2:  A  A  0        P E,5   8

1 回复 | 直到 7 年前

tblznbits 7 年前

您可以尝试事先清理数据,并用单引号替换双引号。

x = readLines('my_file.csv')
y = gsub('","', "','", x) # replace double quotes for each field
y = gsub('^"|"$', "'", y) # replace trailing and leading double quotes
z = paste(y, collapse='\n') # turn it back into a table for fread to read
df = fread(z, quote="'")
df

   SA SU CC       CN POC PAC
1: NE  R  0 H "B", O   1   8
2:  A  A  0        P E,5   8

我不能确定这是有效的,因为我不知道你的文件有多大,但这可能是一个值得的方法。

推荐文章

SD_ · 使用CLI将由文件分隔符控制字符(FS/ASCII28/UTF-8 0x1C)分隔的csv文件读取到duckdb中

1 年前

ViSa · 如何在python中分隔存储在变量中的文本以创建数据帧?

1 年前

S K · 需要在Powershell中使用2个变量为CSV文件创建foreach循环

1 年前

Kavya shree · 将TSV文件数据转换为可推送到数据库的数据帧

1 年前

Joan Lopez · 从csv中提取的数据获得平均值

1 年前

Chinmaya Tewari · 创建新csv文件时权限被拒绝

2 年前

Parker Clark · 通过Bash操作csv中的特定列?

2 年前

Rasec Malkic · 如何根据第1列和第3列中的条件删除重复项?

2 年前

James Black · 如何基于列删除CSV文件中重复的行

2 年前

James Black · 将json文件转换为具有更多列的csv文件-Python

2 年前