代码之家 › 专栏 › 技术社区 › wandermonk

提高Apache Spark到Redis的写性能

redis apache-spark java

wandermonk · 技术社区 · 7 年前

我有一个应用程序,它使用Apache Spark将密钥、值数据写入Redis。应用程序工作正常,没有任何问题。但是,应用程序要慢得多。我在这里寻找一些建议,以提高写入吞吐量和提高并行性,同时将数据写入Redis。

这是密码

Dataset<Row> rowkeyMapping = services.select(regexp_replace(col("rowkey"), "_", "").as("rowkey"),struct(regexp_replace(col("name"), "\\[", ","), regexp_replace(col("oname"), "\\[", ","), col("cid")).as("detailsinfo"));

rowkeyMapping.foreach(obj -> {
    JedisPoolConfig poolConfig = new JedisPoolConfig();
    poolConfig.setMaxTotal(5000);
    JedisPool pool = new JedisPool(poolConfig, "redis-host", Integer.parseInt("6379"));
    Jedis jedis = pool.getResource();
    ObjectMapper om = new ObjectMapper();
    String[] rowArray = obj.mkString()
        .replaceAll("[\\[]", ",")
        .split(",");
    String key = rowArray[0];
    DetailInfo detail = new DetailInfo();
    detail.setName(rowArray[1]);
    detail.setOName(rowArray[2]);
    detail.setCid(rowArray[3]);

    String value = om.writeValueAsString(detail);
    logger.info("writing key value pairs to Redis cache (Key) :: " + key);
    jedis.set(key, value);
    jedis.quit();
});

我对Redis管道系统知之甚少。但是,我认为流水线更多的是对命令进行批处理。在这里,就我而言,我正在处理数百万的数据。我不确定流水线是否最适合。

2 回复 | 直到 7 年前

Amir Kost 7 年前

我对Spark和Redis都不是专家,但我认为以下几行应该在foreach循环之外:

JedisPoolConfig poolConfig = new JedisPoolConfig();
poolConfig.setMaxTotal(5000);
JedisPool pool = new JedisPool(poolConfig, "redis-host", Integer.parseInt("6379"));

for_stack 7 年前

正如@Amir Kost在他的回答中提到的,您的问题是,当您设置单个键值对时,会创建一个新连接。为了提高性能,应该对一批键值对重用连接。

foreachPartition 方法 Dataset<Row> foreach . 前庭 ForeachPartitionFunction<T> 整个分区的函数。所以您可以创建一个连接,并对分区中的所有项重复使用它。检查 doc

还有,用 前庭 ,可以在分区中获取一批项,然后使用Redis Pipline获得更好的性能。检查管道 doc

推荐文章

user29759326 · 如何返回递归函数中的最后一个值?

1 年前

malife89 · 将java中的字符串读取为正确的日期格式

1 年前

Tim · 在java中,有没有更快的方法将字节数组写入文件?

1 年前

pebble unit · 如何检查以前缀开头、以后缀结尾的属性(不是属性值)

1 年前

Nuñito Calzada · Spring Boot with JWT:访问此资源需要完全身份验证

1 年前

rudraraj · java中未声明最终变量

1 年前

Bala Ji · 以下BFS的实施效率如何?

1 年前

MineRickStar · 如何在Java中从Windows获取当前选定的应用程序

1 年前

user2649681 · 实时生成音频以写入“SourceDataLine”`

1 年前

davidalayachew · 为什么我的文件有竞争条件,即使我使用了StandardOpenOption。同步?

1 年前