代码之家  ›  专栏  ›  技术社区  ›  Patrick

将数据加载到新的CitusDB实例中的最快方法是什么?

  •  1
  • Patrick  · 技术社区  · 9 年前

    我正在按照指示 Scaling Out Data Ingestion ,使用此命令:

    find . -type f | xargs -n 1 -P 320 sh -c 'echo $0 `copy_to_distributed_table -C $0 table_name`'
    

    我的集群有一个主节点和八个工作节点,每个节点都有两个SSD。该表分布在320个碎片上。

    数据加载需要很长时间。平均插入速率似乎约为每分钟750k。这是正常的还是有办法加快速度?

    我唯一能想到的是我启用了复制。加载时是否应将其关闭,然后重新设置?

    1 回复  |  直到 9 年前
        1
  •  1
  •   jasonmp85    9 年前

    我假设您想使用哈希分区。如果是这样的话,我们不赞成 copy_to_distributed_table 有利于分配 COPY . 副本 提供本地PostgreSQL体验,解决几个已知问题,以及 将摄取性能提高一个数量级以上 。这从Citus 5.1开始提供 was released this month 并可在 the official PostgreSQL Linux package repositories (PGDG)。