代码之家 › 专栏 › 技术社区 › Jason Swett

Excel和awk不同意CSV总计

awk excel linux

Jason Swett · 技术社区 · 14 年前

awk . 以下是我在Excel中前8列的总和:

1) 2640502474.00
2) 1272849386284.00
3) 36785.00
4) 
5) 107.00
6) 239259.00
7) 0.00
8) 7418570893330.00

这是我的输出:

$ cat /home/jason/import.csv | awk -F "\"*,\"*" '{s+=$1} END {printf("%01.2f\n", s)}'
2640502474.00
$ cat /home/jason/import.csv | awk -F "\"*,\"*" '{s+=$2} END {printf("%01.2f\n", s)}'
1272849386284.00
$ cat /home/jason/import.csv | awk -F "\"*,\"*" '{s+=$8} END {printf("%01.2f\n", s)}'
7411306364347.00

注意1和2是如何精确匹配的,但是8的值却相差数百万。我假设Excel的总数是正确的,那么为什么以不同方式处理此文件?

1 回复 | 直到 14 年前

Alex Stoddard 14 年前

引号中可能包含逗号格式的数字。Excel将把这个数字作为一个字段处理。awk中用于字段分隔的正则表达式不会-根据该正则表达式,数字内部的逗号是有效的分隔符。尝试处理可选的嵌套转义非常困难(而且基本上是徒劳无功的),就像csv中使用regex可以实现的那样。

比较以下内容以了解可能发生的情况:

$ echo '"1","10","15","1,000","14"' | awk -F "\"*,\"*" '{print $4}'
1
$ echo '"1","10","15","1,000","14"' | awk -F "\",\"" '{print $4}'
1,000

请注意,上面的第二个regex在最后一个字段中仍然有一个尾随“的问题,并且只有在所有字段都被一致引用的情况下才起作用-它只是为了说明的目的。

推荐文章

mashimena · 如何在Linux中提取列然后通过计算添加新列

2 年前

user2954003 · AWK使用正则表达式匹配字符串并与前一个字符串组合

3 年前

Giancarlo D · 在IPv4地址匹配后使用SED删除行尾的冒号

3 年前

John Smith · 在特定行的末尾添加文本

3 年前

Code With Banchi · 在sed命令中使用变量-sed-e异常:“s”的选项未知

3 年前

Aravinth Kalai · 如何使用Linux shell命令[duplicate]对两列求和并将值保存到第三列

3 年前

nickcrv06 · 使用介于特殊字符之间的awk提取文本

3 年前

nickcrv06 · 在两个常量字符串之间提取单词

3 年前

JCAvila2 · 我需要了解awk Linux命令的帮助

3 年前

sasikumar karuppiah · Awk脚本提取多个不同的分隔符行

3 年前