(1) Define CompactionWorkload in avro to allow storing them in instant files.

(2) Split APIs in HoodieRealtimeCompactor to separate generating compaction workload from running compaction
2018-05-23 20:49:24 -07:00
parent 6d01ae8ca0
commit 1b61f04e05
16 changed files with 444 additions and 129 deletions
--- a/hoodie-client/src/main/java/com/uber/hoodie/table/HoodieTable.java
+++ b/hoodie-client/src/main/java/com/uber/hoodie/table/HoodieTable.java
@@ -17,6 +17,7 @@
 package com.uber.hoodie.table;

 import com.uber.hoodie.WriteStatus;
+import com.uber.hoodie.avro.model.HoodieCompactionPlan;
 import com.uber.hoodie.avro.model.HoodieSavepointMetadata;
 import com.uber.hoodie.common.HoodieCleanStat;
 import com.uber.hoodie.common.HoodieRollbackStat;
@@ -211,12 +212,32 @@ public abstract class HoodieTable<T extends HoodieRecordPayload> implements Seri
  public abstract Iterator<List<WriteStatus>> handleInsertPartition(String commitTime,
      Integer partition, Iterator<HoodieRecord<T>> recordIterator, Partitioner partitioner);

+  /**
+   * Schedule compaction for the instant time
+   * @param jsc         Spark Context
+   * @param instantTime Instant Time for scheduling compaction
+   * @return
+   */
+  public abstract HoodieCompactionPlan scheduleCompaction(JavaSparkContext jsc, String instantTime);
+
  /**
   * Run Compaction on the table. Compaction arranges the data so that it is optimized for data
   * access
+   * @deprecated Will be replaced with newer APIs
   */
+  @Deprecated
  public abstract JavaRDD<WriteStatus> compact(JavaSparkContext jsc, String commitTime);

+  /**
+   * Run Compaction on the table. Compaction arranges the data so that it is optimized for data access
+   *
+   * @param jsc                   Spark Context
+   * @param compactionInstantTime Instant Time
+   * @param compactionPlan        Compaction Plan
+   */
+  public abstract JavaRDD<WriteStatus> compact(JavaSparkContext jsc, String compactionInstantTime,
+      HoodieCompactionPlan compactionPlan);
+
  /**
   * Clean partition paths according to cleaning policy and returns the number of files cleaned.
   */