調優 | Apache Hudi應用調優指南

由 admin · 已發表 2021-02-25 · 已更新 2021-02-25

通過Spark作業將數據寫入Hudi時，Spark應用的調優技巧也適用於此。如果要提高性能或可靠性，請牢記以下幾點。

輸入并行性：Hudi對輸入進行分區默認併發度為1500，以確保每個Spark分區都在2GB的限制內（在Spark2.4.0版本之後去除了該限制），如果有更大的輸入，則相應地進行調整。我們建議設置shuffle的併發度，配置項為hoodie.[insert|upsert|bulkinsert].shuffle.parallelism，以使其至少達到input_data_size/500MB。

Off-heap（堆外）內存：Hudi寫入parquet文件，需要使用一定的堆外內存，如果遇到此類故障，請考慮設置類似spark.yarn.executor.memoryOverhead或spark.yarn.driver.memoryOverhead的值。

Spark 內存：通常Hudi需要能夠將單個文件讀入內存以執行合併或壓縮操作，因此執行程序的內存應足以容納此文件。另外，Hudi會緩存輸入數據以便能夠智能地放置數據，因此預留一些spark.memory.storageFraction通常有助於提高性能。

調整文件大小：設置limitFileSize以平衡接收/寫入延遲與文件數量，並平衡與文件數據相關的元數據開銷。

時間序列/日誌數據：對於單條記錄較大的數據庫/ nosql變更日誌，可調整默認配置。另一類非常流行的數據是時間序列/事件/日誌數據，它往往更加龐大，每個分區的記錄更多。在這種情況下，請考慮通過.bloomFilterFPP()/bloomFilterNumEntries()來調整Bloom過濾器的精度，以加速目標索引查找時間，另外可考慮一個以事件時間為前綴的鍵，這將使用範圍修剪並顯着加快索引查找的速度。

GC調優：請確保遵循Spark調優指南中的垃圾收集調優技巧，以避免OutOfMemory錯誤。[必須]使用G1 / CMS收集器，其中添加到spark.executor.extraJavaOptions的示例如下：

-XX:NewSize=1g -XX:SurvivorRatio=2 -XX:+UseCompressedOops -XX:+UseConcMarkSweepGC -XX:+UseParNewGC -XX:CMSInitiatingOccupancyFraction=70 -XX:+PrintGCDetails -XX:+PrintGCTimeStamps -XX:+PrintGCDateStamps -XX:+PrintGCApplicationStoppedTime -XX:+PrintGCApplicationConcurrentTime -XX:+PrintTenuringDistribution -XX:+HeapDumpOnOutOfMemoryError -XX:HeapDumpPath=/tmp/hoodie-heapdump.hprof

OutOfMemory錯誤：如果出現OOM錯誤，則可嘗試通過如下配置處理：spark.memory.fraction = 0.2，spark.memory.storageFraction = 0.2允許其溢出而不是OOM（速度變慢與間歇性崩潰相比）。

以下是完整的生產配置

spark.driver.extraClassPath /etc/hive/conf
spark.driver.extraJavaOptions -XX:+PrintTenuringDistribution -XX:+PrintGCDetails -XX:+PrintGCDateStamps -XX:+PrintGCApplicationStoppedTime -XX:+PrintGCApplicationConcurrentTime -XX:+PrintGCTimeStamps -XX:+HeapDumpOnOutOfMemoryError -XX:HeapDumpPath=/tmp/hoodie-heapdump.hprof
spark.driver.maxResultSize 2g
spark.driver.memory 4g
spark.executor.cores 1
spark.executor.extraJavaOptions -XX:+PrintFlagsFinal -XX:+PrintReferenceGC -verbose:gc -XX:+PrintGCDetails -XX:+PrintGCTimeStamps -XX:+PrintAdaptiveSizePolicy -XX:+UnlockDiagnosticVMOptions -XX:+HeapDumpOnOutOfMemoryError -XX:HeapDumpPath=/tmp/hoodie-heapdump.hprof
spark.executor.id driver
spark.executor.instances 300
spark.executor.memory 6g
spark.rdd.compress true
 
spark.kryoserializer.buffer.max 512m
spark.serializer org.apache.spark.serializer.KryoSerializer
spark.shuffle.service.enabled true
spark.sql.hive.convertMetastoreParquet false
spark.submit.deployMode cluster
spark.task.cpus 1
spark.task.maxFailures 4
 
spark.yarn.driver.memoryOverhead 1024
spark.yarn.executor.memoryOverhead 3072
spark.yarn.max.executor.failures 100

本站聲明:網站內容來源於博客園,如有侵權,請聯繫我們,我們將及時處理

【其他文章推薦】

※廣告預算用在刀口上，台北網頁設計公司幫您達到更多曝光效益

※別再煩惱如何寫文案,掌握八大原則!

※教你寫出一流的銷售文案?

※超省錢租車方案

※廣告預算用在刀口上，台北網頁設計公司幫您達到更多曝光效益

※產品缺大量曝光嗎?你需要的是一流包裝設計!

※回頭車貨運收費標準

調優 | Apache Hudi應用調優指南

您可能也會喜歡…

近期文章

分類

彙整

調優 | Apache Hudi應用調優指南

您可能也會喜歡…

霹靂、國標桃園共舞挺「運動 i 臺灣」 2.0 奧林匹克全民運動會中原大學熱鬧舉行

國家能源集團高位布置汽輪機組獲電力技術創新大獎

Tesla自動駕駛系統新增「召喚術」，讓你遠端召喚你的車

近期文章

標籤

分類

彙整

霹靂、國標桃園共舞挺「運動 i 臺灣」　2.0 奧林匹克全民運動會中原大學熱鬧舉行