Parallelize file version deletes during clean and related tests

2017-05-29 15:36:12 -07:00
parent dda28c0b4b
commit 521555c576
7 changed files with 459 additions and 299 deletions
--- a/hoodie-client/src/main/java/com/uber/hoodie/HoodieWriteClient.java
+++ b/hoodie-client/src/main/java/com/uber/hoodie/HoodieWriteClient.java
@@ -50,7 +50,6 @@ import com.uber.hoodie.exception.HoodieSavepointException;
 import com.uber.hoodie.exception.HoodieUpsertException;
 import com.uber.hoodie.func.BulkInsertMapFunction;
 import com.uber.hoodie.index.HoodieIndex;
-import com.uber.hoodie.io.HoodieCleaner;
 import com.uber.hoodie.io.HoodieCommitArchiveLog;
 import com.uber.hoodie.metrics.HoodieMetrics;
 import com.uber.hoodie.table.HoodieTable;
@@ -738,25 +737,11 @@ public class HoodieWriteClient<T extends HoodieRecordPayload> implements Seriali
            HoodieTable<T> table = HoodieTable
                .getHoodieTable(new HoodieTableMetaClient(fs, config.getBasePath(), true), config);

-            List<String> partitionsToClean =
-                FSUtils.getAllPartitionPaths(fs, table.getMetaClient().getBasePath(), config.shouldAssumeDatePartitioning());
-            // shuffle to distribute cleaning work across partitions evenly
-            Collections.shuffle(partitionsToClean);
-            logger.info("Partitions to clean up : " + partitionsToClean + ", with policy " + config
-                .getCleanerPolicy());
-            if (partitionsToClean.isEmpty()) {
-                logger.info("Nothing to clean here mom. It is already clean");
+            List<HoodieCleanStat> cleanStats = table.clean(jsc);
+            if (cleanStats.isEmpty()) {
                return;
            }

-            int cleanerParallelism = Math.min(partitionsToClean.size(), config.getCleanerParallelism());
-            List<HoodieCleanStat> cleanStats = jsc.parallelize(partitionsToClean, cleanerParallelism)
-                    .map((Function<String, HoodieCleanStat>) partitionPathToClean -> {
-                        HoodieCleaner cleaner = new HoodieCleaner(table, config);
-                        return cleaner.clean(partitionPathToClean);
-                    })
-                .collect();
-
            // Emit metrics (duration, numFilesDeleted) if needed
            Optional<Long> durationInMs = Optional.empty();
            if (context != null) {
--- a/hoodie-client/src/main/java/com/uber/hoodie/io/HoodieCleanHelper.java
+++ b/hoodie-client/src/main/java/com/uber/hoodie/io/HoodieCleanHelper.java
@@ -16,9 +16,6 @@

 package com.uber.hoodie.io;

-import com.clearspring.analytics.util.Lists;
-import com.google.common.collect.Maps;
-import com.uber.hoodie.common.HoodieCleanStat;
 import com.uber.hoodie.common.model.HoodieCleaningPolicy;
 import com.uber.hoodie.common.model.HoodieDataFile;
 import com.uber.hoodie.common.model.HoodieRecordPayload;
@@ -30,22 +27,16 @@ import com.uber.hoodie.common.table.timeline.HoodieInstant;
 import com.uber.hoodie.common.util.FSUtils;
 import com.uber.hoodie.config.HoodieWriteConfig;
 import com.uber.hoodie.table.HoodieTable;
-import org.apache.hadoop.fs.FileStatus;
 import org.apache.hadoop.fs.FileSystem;
-import org.apache.hadoop.fs.Path;
 import org.apache.log4j.LogManager;
 import org.apache.log4j.Logger;
-import org.apache.spark.api.java.function.FlatMapFunction;

 import java.io.IOException;
 import java.util.ArrayList;
 import java.util.Iterator;
 import java.util.List;
-import java.util.Map;
 import java.util.Optional;
-import java.util.function.Function;
 import java.util.stream.Collectors;
-import java.util.stream.Stream;

 /**
 * Cleaner is responsible for garbage collecting older files in a given partition path, such that
@@ -56,8 +47,8 @@ import java.util.stream.Stream;
 * <p>
 * TODO: Should all cleaning be done based on {@link com.uber.hoodie.common.model.HoodieCommitMetadata}
 */
-public class HoodieCleaner<T extends HoodieRecordPayload<T>> {
-    private static Logger logger = LogManager.getLogger(HoodieCleaner.class);
+public class HoodieCleanHelper<T extends HoodieRecordPayload<T>> {
+    private static Logger logger = LogManager.getLogger(HoodieCleanHelper.class);

    private final TableFileSystemView fileSystemView;
    private final HoodieTimeline commitTimeline;
@@ -65,7 +56,7 @@ public class HoodieCleaner<T extends HoodieRecordPayload<T>> {
    private HoodieWriteConfig config;
    private FileSystem fs;

-    public HoodieCleaner(HoodieTable<T> hoodieTable, HoodieWriteConfig config) {
+    public HoodieCleanHelper(HoodieTable<T> hoodieTable, HoodieWriteConfig config) {
        this.hoodieTable = hoodieTable;
        this.fileSystemView = hoodieTable.getCompactedFileSystemView();
        this.commitTimeline = hoodieTable.getCompletedCommitTimeline();
@@ -110,11 +101,11 @@ public class HoodieCleaner<T extends HoodieRecordPayload<T>> {
            // Delete the remaining files
            while (commitItr.hasNext()) {
                HoodieDataFile nextRecord = commitItr.next();
-                deletePaths.add(String.format("%s/%s/%s", config.getBasePath(), partitionPath,
-                    nextRecord.getFileName()));
+                deletePaths.add(nextRecord.getFileStatus().getPath().toString());
                if (hoodieTable.getMetaClient().getTableType()
                    == HoodieTableType.MERGE_ON_READ) {
                    // If merge on read, then clean the log files for the commits as well
+                    // todo: fix below for MERGE_ON_READ
                    deletePaths.add(String
                        .format("%s/%s/%s", config.getBasePath(), partitionPath,
                            FSUtils.maskWithoutLogVersion(nextRecord.getCommitTime(),
@@ -158,8 +149,7 @@ public class HoodieCleaner<T extends HoodieRecordPayload<T>> {

        // determine if we have enough commits, to start cleaning.
        if (commitTimeline.countInstants() > commitsRetained) {
-            HoodieInstant earliestCommitToRetain =
-                commitTimeline.nthInstant(commitTimeline.countInstants() - commitsRetained).get();
+            HoodieInstant earliestCommitToRetain = getEarliestCommitToRetain().get();
            List<List<HoodieDataFile>> fileVersions =
                fileSystemView.getEveryVersionInPartition(partitionPath)
                    .collect(Collectors.toList());
@@ -192,12 +182,11 @@ public class HoodieCleaner<T extends HoodieRecordPayload<T>> {
                            fileCommitTime,
                            HoodieTimeline.GREATER)) {
                        // this is a commit, that should be cleaned.
-                        deletePaths.add(String
-                            .format("%s/%s/%s", config.getBasePath(), partitionPath, FSUtils
-                                .maskWithoutTaskPartitionId(fileCommitTime, afile.getFileId())));
+                        deletePaths.add(afile.getFileStatus().getPath().toString());
                        if (hoodieTable.getMetaClient().getTableType()
                            == HoodieTableType.MERGE_ON_READ) {
                            // If merge on read, then clean the log files for the commits as well
+                            // todo: fix below for MERGE_ON_READ
                            deletePaths.add(String
                                .format("%s/%s/%s", config.getBasePath(), partitionPath,
                                    FSUtils.maskWithoutLogVersion(fileCommitTime, afile.getFileId(),
@@ -228,49 +217,36 @@ public class HoodieCleaner<T extends HoodieRecordPayload<T>> {
        return null;
    }

-
    /**
-     * Performs cleaning of the partition path according to cleaning policy and returns the number
-     * of files cleaned.
-     *
-     * @throws IllegalArgumentException if unknown cleaning policy is provided
+     * Returns files to be cleaned for the given partitionPath based on cleaning policy.
     */
-    public HoodieCleanStat clean(String partitionPath) throws IOException {
+    public List<String> getDeletePaths(String partitionPath) throws IOException {
        HoodieCleaningPolicy policy = config.getCleanerPolicy();
        List<String> deletePaths;
-        Optional<HoodieInstant> earliestCommitToRetain = Optional.empty();
        if (policy == HoodieCleaningPolicy.KEEP_LATEST_COMMITS) {
            deletePaths = getFilesToCleanKeepingLatestCommits(partitionPath);
-            int commitsRetained = config.getCleanerCommitsRetained();
-            if (commitTimeline.countInstants() > commitsRetained) {
-                earliestCommitToRetain =
-                    commitTimeline.nthInstant(commitTimeline.countInstants() - commitsRetained);
-            }
        } else if (policy == HoodieCleaningPolicy.KEEP_LATEST_FILE_VERSIONS) {
            deletePaths = getFilesToCleanKeepingLatestVersions(partitionPath);
        } else {
            throw new IllegalArgumentException("Unknown cleaning policy : " + policy.name());
        }
+        logger.info(
+            deletePaths.size() + " patterns used to delete in partition path:" + partitionPath);

-        // perform the actual deletes
-        Map<FileStatus, Boolean> deletedFiles = Maps.newHashMap();
-        for (String deletePath : deletePaths) {
-            logger.info("Working on delete path :" + deletePath);
-            FileStatus[] deleteVersions = fs.globStatus(new Path(deletePath));
-            if (deleteVersions != null) {
-                for (FileStatus deleteVersion : deleteVersions) {
-                    boolean deleteResult = fs.delete(deleteVersion.getPath(), false);
-                    deletedFiles.put(deleteVersion, deleteResult);
-                    if (deleteResult) {
-                        logger.info("Cleaned file at path :" + deleteVersion.getPath());
-                    }
-                }
-            }
+        return deletePaths;
+    }
+
+    /**
+     * Returns earliest commit to retain based on cleaning policy.
+     */
+    public Optional<HoodieInstant> getEarliestCommitToRetain() {
+        Optional<HoodieInstant> earliestCommitToRetain = Optional.empty();
+        int commitsRetained = config.getCleanerCommitsRetained();
+        if (config.getCleanerPolicy() == HoodieCleaningPolicy.KEEP_LATEST_COMMITS
+            && commitTimeline.countInstants() > commitsRetained) {
+            earliestCommitToRetain =
+                commitTimeline.nthInstant(commitTimeline.countInstants() - commitsRetained);
        }
-
-        logger.info(deletePaths.size() + " patterns used to delete in partition path:" + partitionPath);
-        return HoodieCleanStat.newBuilder().withPolicy(policy).withDeletePathPattern(deletePaths)
-            .withPartitionPath(partitionPath).withEarliestCommitRetained(earliestCommitToRetain)
-            .withDeletedFileResults(deletedFiles).build();
+        return earliestCommitToRetain;
    }
 }
--- a/hoodie-client/src/main/java/com/uber/hoodie/table/HoodieCopyOnWriteTable.java
+++ b/hoodie-client/src/main/java/com/uber/hoodie/table/HoodieCopyOnWriteTable.java
@@ -23,28 +23,18 @@ import com.uber.hoodie.common.table.HoodieTimeline;
 import com.uber.hoodie.common.table.timeline.HoodieInstant;
 import com.uber.hoodie.config.HoodieWriteConfig;
 import com.uber.hoodie.WriteStatus;
+import com.uber.hoodie.common.HoodieCleanStat;
 import com.uber.hoodie.common.model.HoodieCommitMetadata;
 import com.uber.hoodie.common.model.HoodieKey;
 import com.uber.hoodie.common.model.HoodieRecord;
 import com.uber.hoodie.common.model.HoodieRecordLocation;
 import com.uber.hoodie.common.model.HoodieRecordPayload;
 import com.uber.hoodie.common.util.FSUtils;
+import com.uber.hoodie.exception.HoodieIOException;
 import com.uber.hoodie.exception.HoodieUpsertException;
 import com.uber.hoodie.func.LazyInsertIterable;
+import com.uber.hoodie.io.HoodieCleanHelper;
 import com.uber.hoodie.io.HoodieUpdateHandle;
-
-import java.util.Optional;
-import org.apache.avro.generic.GenericRecord;
-import org.apache.avro.generic.IndexedRecord;
-import org.apache.hadoop.conf.Configuration;
-import org.apache.hadoop.fs.FileSystem;
-import org.apache.log4j.LogManager;
-import org.apache.log4j.Logger;
-import org.apache.parquet.avro.AvroParquetReader;
-import org.apache.parquet.avro.AvroReadSupport;
-import org.apache.parquet.hadoop.ParquetReader;
-import org.apache.spark.Partitioner;
-
 import java.io.IOException;
 import java.io.Serializable;
 import java.util.ArrayList;
@@ -53,13 +43,26 @@ import java.util.HashMap;
 import java.util.Iterator;
 import java.util.List;
 import java.util.Map;
+import java.util.Optional;
 import java.util.Random;
 import java.util.Set;
 import java.util.stream.Collectors;
-
+import org.apache.avro.generic.GenericRecord;
+import org.apache.avro.generic.IndexedRecord;
+import org.apache.hadoop.conf.Configuration;
+import org.apache.hadoop.fs.FileSystem;
+import org.apache.hadoop.fs.Path;
+import org.apache.log4j.LogManager;
+import org.apache.log4j.Logger;
+import org.apache.parquet.avro.AvroParquetReader;
+import org.apache.parquet.avro.AvroReadSupport;
+import org.apache.parquet.hadoop.ParquetReader;
+import org.apache.spark.Partitioner;
 import org.apache.spark.api.java.JavaSparkContext;
-import scala.Option;
+import org.apache.spark.api.java.function.Function2;
+import org.apache.spark.api.java.function.PairFlatMapFunction;
 import scala.Tuple2;
+import scala.Option;

 /**
 * Implementation of a very heavily read-optimized Hoodie Table where
@@ -479,4 +482,145 @@ public class HoodieCopyOnWriteTable<T extends HoodieRecordPayload> extends Hoodi
        logger.info("Nothing to compact in COW storage format");
        return Optional.empty();
    }
+
+    /**
+     * Performs cleaning of partition paths according to cleaning policy and returns the number
+     * of files cleaned. Handles skews in partitions to clean by making files to clean as the
+     * unit of task distribution.
+     *
+     * @throws IllegalArgumentException if unknown cleaning policy is provided
+     */
+    @Override
+    public List<HoodieCleanStat> clean(JavaSparkContext jsc) {
+        List<HoodieCleanStat> partitionCleanStats;
+        try {
+            List<String> partitionsToClean =
+                FSUtils.getAllPartitionPaths(getFs(), getMetaClient().getBasePath(), config.shouldAssumeDatePartitioning());
+            logger.info("Partitions to clean up : " + partitionsToClean + ", with policy " + config
+                .getCleanerPolicy());
+            partitionCleanStats = cleanPartitionPaths(partitionsToClean, jsc);
+            if (partitionsToClean.isEmpty()) {
+                logger.info("Nothing to clean here mom. It is already clean");
+                return partitionCleanStats;
+            }
+        } catch (IOException e) {
+            throw new HoodieIOException("Failed to clean up after commit", e);
+        }
+        return partitionCleanStats;
+    }
+
+    private static class PartitionCleanStat implements Serializable {
+        private final String partitionPath;
+        private final List<String> deletePathPatterns = new ArrayList<>();
+        private final List<String> successDeleteFiles = new ArrayList<>();
+        private final List<String> failedDeleteFiles = new ArrayList<>();
+
+        private PartitionCleanStat(String partitionPath) {
+            this.partitionPath = partitionPath;
+        }
+
+        private void addDeletedFileResult(String deletePathStr, Boolean deletedFileResult) {
+            if (deletedFileResult) {
+                successDeleteFiles.add(deletePathStr);
+            } else {
+                failedDeleteFiles.add(deletePathStr);
+            }
+        }
+
+        private void addDeleteFilePatterns(String deletePathStr) {
+            deletePathPatterns.add(deletePathStr);
+        }
+
+        private PartitionCleanStat merge(PartitionCleanStat other) {
+            if (!this.partitionPath.equals(other.partitionPath)) {
+                throw new RuntimeException(String.format(
+                    "partitionPath is not a match: (%s, %s)",
+                    partitionPath, other.partitionPath));
+            }
+            successDeleteFiles.addAll(other.successDeleteFiles);
+            deletePathPatterns.addAll(other.deletePathPatterns);
+            failedDeleteFiles.addAll(other.failedDeleteFiles);
+            return this;
+        }
+    }
+
+    private List<HoodieCleanStat> cleanPartitionPaths(List<String> partitionsToClean, JavaSparkContext jsc) {
+        int cleanerParallelism = Math.min(partitionsToClean.size(), config.getCleanerParallelism());
+        logger.info("Using cleanerParallelism: " + cleanerParallelism);
+        List<Tuple2<String, PartitionCleanStat>> partitionCleanStats = jsc
+            .parallelize(partitionsToClean, cleanerParallelism)
+            .flatMapToPair(getFilesToDeleteFunc(this, config))
+            .repartition(cleanerParallelism)                    // repartition to remove skews
+            .mapPartitionsToPair(deleteFilesFunc(this, config))
+            .reduceByKey(                                       // merge partition level clean stats below
+                (Function2<PartitionCleanStat, PartitionCleanStat, PartitionCleanStat>) (e1, e2) -> e1
+                    .merge(e2))
+            .collect();
+
+        Map<String, PartitionCleanStat> partitionCleanStatsMap = partitionCleanStats
+            .stream().collect(Collectors.toMap(e -> e._1(), e -> e._2()));
+
+        HoodieCleanHelper cleaner = new HoodieCleanHelper(this, config);
+        // Return PartitionCleanStat for each partition passed.
+        return partitionsToClean.stream().map(partitionPath -> {
+            PartitionCleanStat partitionCleanStat =
+                (partitionCleanStatsMap.containsKey(partitionPath)) ?
+                    partitionCleanStatsMap.get(partitionPath)
+                    : new PartitionCleanStat(partitionPath);
+            return HoodieCleanStat.newBuilder()
+                .withPolicy(config.getCleanerPolicy())
+                .withPartitionPath(partitionPath)
+                .withEarliestCommitRetained(cleaner.getEarliestCommitToRetain())
+                .withDeletePathPattern(partitionCleanStat.deletePathPatterns)
+                .withSuccessfulDeletes(partitionCleanStat.successDeleteFiles)
+                .withFailedDeletes(partitionCleanStat.failedDeleteFiles)
+                .build();
+        }).collect(Collectors.toList());
+    }
+
+    private PairFlatMapFunction<Iterator<Tuple2<String, String>>, String, PartitionCleanStat> deleteFilesFunc(
+        HoodieTable table, HoodieWriteConfig config) {
+        return (PairFlatMapFunction<Iterator<Tuple2<String, String>>, String, PartitionCleanStat>) iter -> {
+            HoodieCleanHelper cleaner = new HoodieCleanHelper(table, config);
+            Map<String, PartitionCleanStat> partitionCleanStatMap = new HashMap<>();
+
+            while (iter.hasNext()) {
+                Tuple2<String, String> partitionDelFileTuple = iter.next();
+                String partitionPath = partitionDelFileTuple._1();
+                String deletePathStr = partitionDelFileTuple._2();
+                Boolean deletedFileResult = deleteFileAndGetResult(deletePathStr);
+                if (!partitionCleanStatMap.containsKey(partitionPath)) {
+                    partitionCleanStatMap.put(partitionPath,
+                        new PartitionCleanStat(partitionPath));
+                }
+                PartitionCleanStat partitionCleanStat = partitionCleanStatMap.get(partitionPath);
+                partitionCleanStat.addDeleteFilePatterns(deletePathStr);
+                partitionCleanStat.addDeletedFileResult(deletePathStr, deletedFileResult);
+            }
+
+            return partitionCleanStatMap.entrySet().stream()
+                .map(e -> new Tuple2<>(e.getKey(), e.getValue()))
+                .collect(Collectors.toList()).iterator();
+        };
+    }
+
+    private static PairFlatMapFunction<String, String, String> getFilesToDeleteFunc(
+        HoodieTable table, HoodieWriteConfig config) {
+        return (PairFlatMapFunction<String, String, String>) partitionPathToClean -> {
+            HoodieCleanHelper cleaner = new HoodieCleanHelper(table, config);
+            return cleaner.getDeletePaths(partitionPathToClean).stream()
+                .map(deleteFile -> new Tuple2<>(partitionPathToClean, deleteFile.toString()))
+                .iterator();
+        };
+    }
+
+    private Boolean deleteFileAndGetResult(String deletePathStr) throws IOException {
+        Path deletePath = new Path(deletePathStr);
+        logger.debug("Working on delete path :" + deletePath);
+        boolean deleteResult = getFs().delete(deletePath, false);
+        if (deleteResult) {
+            logger.debug("Cleaned file at path :" + deletePath);
+        }
+        return deleteResult;
+    }
 }
--- a/hoodie-client/src/main/java/com/uber/hoodie/table/HoodieTable.java
+++ b/hoodie-client/src/main/java/com/uber/hoodie/table/HoodieTable.java
@@ -17,8 +17,12 @@
 package com.uber.hoodie.table;

 import com.google.common.collect.Sets;
+import com.uber.hoodie.WriteStatus;
 import com.uber.hoodie.avro.model.HoodieSavepointMetadata;
+import com.uber.hoodie.common.HoodieCleanStat;
 import com.uber.hoodie.common.model.HoodieCompactionMetadata;
+import com.uber.hoodie.common.model.HoodieRecord;
+import com.uber.hoodie.common.model.HoodieRecordPayload;
 import com.uber.hoodie.common.table.HoodieTableMetaClient;
 import com.uber.hoodie.common.table.HoodieTimeline;
 import com.uber.hoodie.common.table.TableFileSystemView;
@@ -27,23 +31,20 @@ import com.uber.hoodie.common.table.timeline.HoodieInstant;
 import com.uber.hoodie.common.table.view.HoodieTableFileSystemView;
 import com.uber.hoodie.common.util.AvroUtils;
 import com.uber.hoodie.config.HoodieWriteConfig;
-import com.uber.hoodie.WriteStatus;
-import com.uber.hoodie.common.model.HoodieRecord;
-import com.uber.hoodie.common.model.HoodieRecordPayload;
 import com.uber.hoodie.exception.HoodieCommitException;
 import com.uber.hoodie.exception.HoodieException;
-
 import com.uber.hoodie.exception.HoodieSavepointException;
-import java.util.Optional;
-import org.apache.hadoop.fs.FileSystem;
-import org.apache.spark.Partitioner;
-
 import java.io.IOException;
 import java.io.Serializable;
 import java.util.Iterator;
 import java.util.List;
+import java.util.Optional;
 import java.util.stream.Collectors;
 import java.util.stream.Stream;
+import org.apache.hadoop.fs.FileSystem;
+import org.apache.log4j.LogManager;
+import org.apache.log4j.Logger;
+import org.apache.spark.Partitioner;
 import org.apache.spark.api.java.JavaSparkContext;

 /**
@@ -52,6 +53,7 @@ import org.apache.spark.api.java.JavaSparkContext;
 public abstract class HoodieTable<T extends HoodieRecordPayload> implements Serializable {
    protected final HoodieWriteConfig config;
    protected final HoodieTableMetaClient metaClient;
+    private static Logger logger = LogManager.getLogger(HoodieTable.class);

    protected HoodieTable(HoodieWriteConfig config, HoodieTableMetaClient metaClient) {
        this.config = config;
@@ -299,4 +301,10 @@ public abstract class HoodieTable<T extends HoodieRecordPayload> implements Seri
     * Compaction arranges the data so that it is optimized for data access
     */
    public abstract Optional<HoodieCompactionMetadata> compact(JavaSparkContext jsc);
+
+    /**
+     * Clean partition paths according to cleaning policy and returns the number
+     * of files cleaned.
+     */
+    public abstract List<HoodieCleanStat> clean(JavaSparkContext jsc);
 }