代码之家  ›  专栏  ›  技术社区  ›  Datageek

跳过数据流javascript udf中的记录

  •  0
  • Datageek  · 技术社区  · 7 年前

    我正在使用预先定义的数据流将一些数据从GCS导入BigQuery GCS to BigQuery 模板。 数据使用javascript UDF进行处理。

    我想排除一些记录被插入到bigquery中。有没有一种方法可以用JavaScriptUDF来实现?

    1 回复  |  直到 7 年前
        1
  •  1
  •   Ryan McDowell    7 年前

    对于要跳过的记录,可以从UDF中发出未定义的记录,这些记录将不再包含在输出中。

    您可以在此处查看此功能的示例: https://github.com/GoogleCloudPlatform/DataflowTemplates#filtering-records

    /**
     * A transform function which only accepts 42 as the answer to life.
     * @param {string} inJson
     * @return {string} outJson
     */
    function transform(inJson) {
      var obj = JSON.parse(inJson);
      // only output objects which have an answer to life of 42.
      if (obj.hasOwnProperty('answerToLife') && obj.answerToLife === 42) {
        return JSON.stringify(obj);
      }
    }