Adding range based pruning to bloom index

- keys compared lexicographically using String::compareTo - Range metadata additionally written into parquet file footers - Trim fat & few optimizations to speed up indexing - Add param to control whether input shall be cached, to speed up lookup - Add param to turn on/off range pruning - Auto compute of parallelism now simply factors in amount of comparisons done - More accurate parallelism computation when range pruning is on - tests added & hardened, docs updated
2017-07-14 09:29:16 -07:00
parent 0b26b60a5c
commit 86209640f7
25 changed files with 784 additions and 473 deletions
--- a/hoodie-client/src/test/java/com/uber/hoodie/common/HoodieClientTestUtils.java
+++ b/hoodie-client/src/test/java/com/uber/hoodie/common/HoodieClientTestUtils.java
@@ -16,12 +16,15 @@

 package com.uber.hoodie.common;

+import com.uber.hoodie.HoodieReadClient;
 import com.uber.hoodie.WriteStatus;
 import com.uber.hoodie.common.model.HoodieRecord;
 import com.uber.hoodie.common.table.HoodieTableMetaClient;
 import com.uber.hoodie.common.table.HoodieTimeline;
 import com.uber.hoodie.common.util.FSUtils;

+import org.apache.spark.SparkConf;
+
 import java.io.File;
 import java.io.IOException;
 import java.io.RandomAccessFile;
@@ -79,4 +82,12 @@ public class HoodieClientTestUtils {
        new File(path).createNewFile();
        new RandomAccessFile(path, "rw").setLength(length);
    }
+
+    public static SparkConf getSparkConfForTest(String appName) {
+        SparkConf sparkConf = new SparkConf()
+                .setAppName(appName)
+                .set("spark.serializer", "org.apache.spark.serializer.KryoSerializer")
+                .setMaster("local[4]");
+        return HoodieReadClient.addHoodieSupport(sparkConf);
+    }
 }