我正在按照指示 Scaling Out Data Ingestion ,使用此命令:
find . -type f | xargs -n 1 -P 320 sh -c 'echo $0 `copy_to_distributed_table -C $0 table_name`'
我的集群有一个主节点和八个工作节点,每个节点都有两个SSD。该表分布在320个碎片上。
数据加载需要很长时间。平均插入速率似乎约为每分钟750k。这是正常的还是有办法加快速度?
我唯一能想到的是我启用了复制。加载时是否应将其关闭,然后重新设置?
我假设您想使用哈希分区。如果是这样的话,我们不赞成 copy_to_distributed_table 有利于分配 COPY . 副本 提供本地PostgreSQL体验,解决几个已知问题,以及 将摄取性能提高一个数量级以上 。这从Citus 5.1开始提供 was released this month 并可在 the official PostgreSQL Linux package repositories (PGDG)。
copy_to_distributed_table
COPY
副本