代码之家  ›  专栏  ›  技术社区  ›  PagMax

如何在Google Colab中将csv读取到数据帧

  •  47
  • PagMax  · 技术社区  · 7 年前

    我正在尝试读取本地存储在计算机上的csv文件。(仅供参考,这是来自Kaggle的泰坦尼克号数据 here .)

    从…起 this 问题与答案我了解到,您可以使用此代码导入数据,这在我看来非常有效。

    from google.colab import files
    uploaded = files.upload()
    

    我迷路的地方是如何从这里将其转换为数据帧。这个 sample google notebook page 上面列出的答案并没有提到这一点。

    我正在试图转换字典 uploaded 使用数据帧 from_dict 命令,但无法使其工作。有一些关于将dict转换为数据帧的讨论 here 但我认为这些解决方案不适用于我。

    总之,我的问题是:

    如何将本地存储在文件中的csv文件转换为pandas Google Colaboratory上的数据框?

    7 回复  |  直到 5 年前
        1
  •  66
  •   Garima Jain    6 年前

    步骤1-将您的Google Drive装载到Collaboratory

    from google.colab import drive 
    drive.mount('/content/gdrive')
    

    步骤2-现在您将在左侧窗格(文件浏览器)中看到您的Google Drive文件。右键单击需要导入的文件并选择§opy path。然后像往常一样在熊猫中导入,使用此复制路径。

    import pandas as pd 
    df=pd.read_csv('gdrive/My Drive/data.csv')
    

    完成!

        2
  •  49
  •   Bob Smith    7 年前

    熊猫 read_csv 应该做到这一点。您需要将上载的字节包装在 io.StringIO 自从 读取\u csv 需要类似文件的对象。

    下面是一个完整的示例: https://colab.research.google.com/notebook#fileId=1JmwtF5OmSghC-y3-BkvxLan0zYXqCJJf

    关键代码段是:

    import pandas as pd
    import io
    
    df = pd.read_csv(io.StringIO(uploaded['train.csv'].decode('utf-8')))
    df
    
        3
  •  11
  •   Yasser M    7 年前

    Colab google:从PC上载csv 我对excel文件(*.xlsx)也有同样的问题,我解决了以下问题,我认为您可以对csv文件也这样做: -如果您的PC驱动器中有一个名为(file.xlsx)的文件,则: 1-使用以下简单代码从硬盘上传:

    from google.colab import files
    uploaded = files.upload()
    

    按on(选择文件)并将其上载到您的google drive。

    2-然后:

    import io
    data = io.BytesIO(uploaded['file.XLSX'])    
    

    3-最后,阅读您的文件:

    import pandas as pd   
    f = pd.read_excel(data , sheet_name = '1min', header = 0, skiprows = 2)
    #df.sheet_names
    df.head()
    

    4-请更改参数值以读取您自己的文件。我认为这可以推广到阅读其他类型的文件!
    尽情享受吧!

        4
  •  6
  •   JARS    6 年前

    这对我很有用:

    from google.colab import auth
    auth.authenticate_user()
    
    from pydrive.drive import GoogleDrive
    from pydrive.auth import GoogleAuth
    from oauth2client.client import GoogleCredentials
    gauth = GoogleAuth()
    gauth.credentials = GoogleCredentials.get_application_default()
    drive = GoogleDrive(gauth)
    
    myfile = drive.CreateFile({'id': '!!!YOUR FILE ID!!!'})
    myfile.GetContentFile('file.csv')
    

    代替 !!!YOUR FILE ID!!! 带有google drive中文件的id(这是当您单击“获取共享链接”时显示的长字母数字字符串)。然后您可以访问文件。带pandas'read\u csv的csv:

    import pandas as pd
    frm = pd.read_csv('file.csv', header=None)
    
        5
  •  2
  •   Simas Joneliunas Kojo Clinton    3 年前

    因此,如果您没有在google colab上工作,您只需编写如下内容:

    df = pd.read_csv('path_of_the_csv_file')
    

    在google colab中,您唯一需要知道的是csv文件的路径。

    如果您按照我在下面写的步骤操作,您的问题就会得到解决:

    1. 首先,将CSV文件上传到您的google驱动器上。
    2. 然后,打开你的google colab笔记本,点击左边的“文件”图标 页面的侧面。
    3. 然后,单击“Google Drive文件夹”图标安装您的Google Drive。
    4. 然后,查找您上传到google drive上的csv文件(步骤1), 并复制其路径。
    5. 一旦有了路径,就将其视为普通路径,并在代码中使用它。 应该是这样的:
       df = pd.read_csv('/content/drive/MyDrive/File.csv')
    
        6
  •  1
  •   Mahsaa M    3 年前

    这对我很有用:

    import pandas as pd
    import io
    
    df=pd.read_csv(io.StringIO(uploaded['Filename.CSV'].decode('ISO-8859-1')))
    df
    
        7
  •  0
  •   Diwakar    7 年前

    或者,也可以使用github导入文件。 你可以举个例子: https://drive.google.com/file/d/1D6ViUx8_ledfBqcxHCrFPcqBvNZitwCs/view?usp=sharing

    此外,google不会将文件保存更长时间,因此您可能需要反复运行github代码段。