代码之家  ›  专栏  ›  技术社区  ›  user3685285

在hdfs中的文件上使用拼花工具

  •  0
  • user3685285  · 技术社区  · 6 年前

    我下载并构建了parquet-1.5.0 https://github.com/apache/parquet-mr .

    我现在想在hdfs中的拼花文件上运行一些命令。我试过这个:

    cd ~/parquet-mr/parquet-tools/src/main/scripts
    ./parquet-tools meta hdfs://localhost/my_parquet_file.parquet
    

    错误:无法找到或加载主类拼花地板.tools.Main

    2 回复  |  直到 6 年前
        1
  •  2
  •   Ajay Kharade    6 年前

    下载jar 从maven repo或您选择的任何位置下载jar。谷歌一下。这篇文章的时候,我可以从这里得到拼花工具。

    wget公司 http://central.maven.org/maven2/org/apache/parquet/parquet-tools/1.9.0/parquet-tools-1.9.0.jar

    此链接可能在几天后停止工作。从maven repo获取新链接。

    构建jar 如果无法下载jar,还可以从源代码构建jar。克隆拼花mr repo并从源代码构建jar

    git克隆 https://github.com/apache/parquet-mr

    注意:您需要maven来构建源代码。

    读取拼花文件 可以使用这些命令查看拼花文件的内容-

    检查s3/hdfs文件的架构:

    hadoop jar parquet-tools-1.9.0.jar schema s3://path/to/file.snappy.parquet
    
    hadoop jar parquet-tools-1.9.0.jar schema hdfs://path/to/file.snappy.parquet
    

    头文件内容:

    hadoop jar parquet-tools-1.9.0.jar head -n5 s3://path/to/file.snappy.parquet
    

    java -jar parquet-tools-1.9.0.jar head -n5 /tmp/path/to/file.snappy.parquet
    
    java -jar parquet-tools-1.9.0.jar schema /tmp/path/to/file.snappy.parquet
    

    hadoop jar parquet-tools-1.9.0.jar –help
    
        2
  •  0
  •   Zoltan    6 年前

    parquet-tools-<version>.jar 位于名为 lib

    $ find -type f
    ./parquet-tools
    ./lib/parquet-tools-1.10.1-SNAPSHOT.jar
    

    mkdir -p ~/.local/share/parquet-tools/lib
    cp parquet-tools/src/main/scripts/parquet-tools ~/.local/share/parquet-tools/
    cp parquet-tools/target/parquet-tools-1.5.0.jar ~/.local/share/parquet-tools/lib
    

    之后你就可以跑了 ~/.local/share/parquet-tools/parquet-tools

    推荐文章