Adding range based pruning to bloom index

- keys compared lexicographically using String::compareTo - Range metadata additionally written into parquet file footers - Trim fat & few optimizations to speed up indexing - Add param to control whether input shall be cached, to speed up lookup - Add param to turn on/off range pruning - Auto compute of parallelism now simply factors in amount of comparisons done - More accurate parallelism computation when range pruning is on - tests added & hardened, docs updated
2017-07-14 09:29:16 -07:00
parent 0b26b60a5c
commit 86209640f7
25 changed files with 784 additions and 473 deletions
--- a/hoodie-client/src/test/java/com/uber/hoodie/table/TestCopyOnWriteTable.java
+++ b/hoodie-client/src/test/java/com/uber/hoodie/table/TestCopyOnWriteTable.java
@@ -69,8 +69,7 @@ public class TestCopyOnWriteTable {
    public void init() throws Exception {

        // Initialize a local spark env
-        SparkConf sparkConf = new SparkConf().setAppName("TestCopyOnWriteTable").setMaster("local[4]");
-        jsc = new JavaSparkContext(sparkConf);
+        jsc = new JavaSparkContext(HoodieClientTestUtils.getSparkConfForTest("TestCopyOnWriteTable"));

        // Create a temp folder as the base path
        TemporaryFolder folder = new TemporaryFolder();