代码之家 › 专栏 › 技术社区 › iBeMeltin

查找读取csv数据的起点

csv pandas python

iBeMeltin · 技术社区 · 1 年前

我每天都会收到一个csv文件,其中包含用于计算的数据。我想用熊猫来组织数据。我的问题是要读取的数据不是从文件的第一行开始的。数据也不是每次都在同一行开始,所以我不能在read_csv()方法中使用skiprows参数。

数据确实有一些指示数据起始位置的指标。

例如,这就是csv文件开头的样子。我只想从第一列标题“交易类型”开始:

Counterparty Name
ID Number

.
.
.

Asset
USD.HO
USD.LCO
USD.RB

Cpty:
Product:

[Deal Type] [column] ... ... ...
[here the data begins]

我如何解析文件并找到第一个列标题并从那一行开始?列标题“交易类型”始终是第一列。

3 回复 | 直到 1 年前

TheHungryCub 1 年前

逐行读取文件,直到找到包含目标标头的行,然后使用 pd.read_csv() 具有 skiprows 参数开始从该行读取文件。

import pandas as pd

def find_starting_line(file_path, target_header):
    with open(file_path, 'r') as file:
        for line_num, line in enumerate(file):
            if target_header in line:
                return line_num

def read_csv_with_header(file_path, header):
    starting_line = find_starting_line(file_path, header)
    if starting_line is not None:
        return pd.read_csv(file_path, skiprows=starting_line, header=None)
    else:
        print(f"Header '{header}' not found in the file.")
        return None

# Example usage
file_path = 'your_file.csv'
header_to_find = 'Deal Type'
df = read_csv_with_header(file_path, header_to_find)
if df is not None:
    print(df)

NISHITH 1 年前

您可能需要解析csv文件,并从您想要csv的行号中读取

import pandas as pd
def find_start_line(filename, column_name):
with open(filename, 'r') as file:
    for line_number, line in enumerate(file, 1):
        if column_name in line:
            return line_number

一旦您有了行号,请阅读csv:

int skip_num = find_start_line(file.csv,"Deal Type")
df = pd.read_csv("file.csv",skiprows=skip_num-1)
df.head()

JonSG 1 年前

我认为你不需要把文件读两遍。只要读一遍,跳过你不想要的行,直到你找到你的地标。

import pandas
import io

data = """
Counterparty Name
ID Number

.
.
.

Asset
USD.HO
USD.LCO
USD.RB

Cpty:
Product:

[Deal Type] [column] ... ... ...
1,2,3
4,5,6
""".strip()

with io.StringIO(data) as file_in:
    for line in file_in:
        if line.startswith("[Deal Type]"):
            break
    
    print(pandas.read_csv(file_in))

推荐文章

Google User · Django管理员在`list_display中未显示`creation_date`字段`

8 月前

user29747013 · 如何创建一个新的数据框架,其中包含原始数据框架中列的聚合列?

8 月前

ÎÎÎ½Î· ÎÎ®Î¹Î½Î¿Ï · Python lxml.html语法错误:使用lxml find时XPATH的谓词无效

8 月前

user29715306 · from_users=和chats=电视节目中的差异

8 月前

Redshoe · 当执行numpy.genfromtxt()时,python是否会读取文件的所有行?

8 月前

RASEL MAHMUD · 为什么以及如何在is_even()函数内的IF条件中递归X变量在满足0后递增?[副本]

8 月前

prayner · 更新嵌套字典包含列表中的项

8 月前

Bringo Jr · 我可以在O(n)中解决这个问题吗?

8 月前

Dave · 如何在for循环中修改列表值

8 月前

Shukurullox Komiljonov · 从记录中获得相互和解。使用SQL

8 月前