五月综合激情婷婷六月,日韩欧美国产一区不卡,他扒开我内裤强吻我下面视频 ,无套内射无矿码免费看黄,天天躁,日日躁,狠狠躁

新聞動態(tài)

OnZoom基于Apache Hudi的一體架構(gòu)實踐解析

發(fā)布日期:2022-07-15 19:47 | 文章來源:gibhub

1. 背景

OnZoom是Zoom新產(chǎn)品,是基于Zoom Meeting的一個獨一無二的在線活動平臺和市場。作為Zoom統(tǒng)一通信平臺的延伸,OnZoom是一個綜合性解決方案,為付費的Zoom用戶提供創(chuàng)建、主持和盈利的活動,如健身課、音樂會、站立表演或即興表演,以及Zoom會議平臺上的音樂課程。

在OnZoom data platform中,source數(shù)據(jù)主要分為MySQL DB數(shù)據(jù)和Log數(shù)據(jù)。 其中Kafka數(shù)據(jù)通過Spark Streaming job實時消費,MySQL數(shù)據(jù)通過Spark Batch job定時同步, 將source數(shù)據(jù)Sink到AWS S3。之后定時調(diào)度Spark Batch Job進行數(shù)倉開發(fā)。最終按照實際業(yè)務(wù)需求或使用場景將數(shù)據(jù)Sink到合適的存儲。

初版架構(gòu)問題

  • MySQL通過sql方式獲取數(shù)據(jù)并同步到S3是離線處理,并且某些場景下(比如物理刪除)只能每次全量同步
  • Spark Streaming job sink到S3需要處理小文件問題
  • 默認(rèn)S3存儲方式不支持CDC(Change Data Capture),所以只支持離線數(shù)倉
  • 因為安全要求,有時需求刪除或更新某個客戶數(shù)據(jù)時,只能全量(或指定分區(qū))計算并overwrite。性能較差

2. 架構(gòu)優(yōu)化升級

基于以上問題,我們在進行大量技術(shù)調(diào)研選型及POC之后,我們主要做了如下2部分大的架構(gòu)優(yōu)化升級。

2.1 Canal

MySQL Binlog即二進制日志,它記錄了MySQL所有表結(jié)構(gòu)和表數(shù)據(jù)變更。

Cannal基于MySQL Binlog日志解析,提供增量數(shù)據(jù)訂閱和消費,將數(shù)據(jù)Sink到Kafka實現(xiàn)CDC。

后續(xù)使用Spark Streaming job實時消費Binlog就能解決上述問題1的時效性以及物理刪除等問題。

2.2 Apache Hudi

我們需要有一種能夠兼容S3存儲之后,既支持大量數(shù)據(jù)的批處理又支持增加數(shù)據(jù)的流處理的數(shù)據(jù)湖解決方案。最終我們選擇Hudi作為我們數(shù)據(jù)湖架構(gòu)方案,主要原因如下:

  • Hudi通過維護索引支持高效的記錄級別的增刪改
  • Hudi維護了一條包含在不同的即時時間(instant time)對數(shù)據(jù)集做的所有instant操作的timeline,可以獲取給定時間內(nèi)的CDC數(shù)據(jù)(增量查詢)。也提供了基于最新文件的Raw Parquet 讀優(yōu)化查詢。從而實現(xiàn)流批一體架構(gòu)而不是典型的Lambda架構(gòu)。
  • Hudi智能自動管理文件大小,而不用用戶干預(yù)就能解決小文件問題
  • 支持S3存儲,支持Spark、Hive、Presto查詢引擎,入門成本較低只需引入對應(yīng)Hudi package

3. Hudi 實踐經(jīng)驗分享

Hudi upsert 時默認(rèn)PAYLOAD_CLASS_OPT_KEY為OverwriteWithLatestAvroPayload,該方式upsert時會將所有字段都更新為當(dāng)前傳入的DataFrame。但很多場景下可能只想更新其中某幾個字段,其他字段跟已有數(shù)據(jù)保持一致,此時需要將PAYLOAD_CLASS_OPT_KEY傳為OverwriteNonDefaultsWithLatestAvroPayload,將不需要更新的字段設(shè)為null。但該upsert方式也有一定限制,比如不能將某個值更新為null。

我們現(xiàn)在有實時同步數(shù)據(jù),離線rerun數(shù)據(jù)的場景,但當(dāng)前使用的是Hudi 0.7.0版本,該版本還不支持多個job并發(fā)寫Hudi表。臨時方案是每次需要rerun數(shù)據(jù)的時候暫停實時任務(wù),因為0.8.0版本已經(jīng)支持并發(fā)寫,后續(xù)考慮升級。

一開始我們?nèi)蝿?wù)變更Hudi表數(shù)據(jù)時每次都默認(rèn)同步hive元數(shù)據(jù)。但對于實時任務(wù)每次連接Hive Metastore更新元數(shù)據(jù)很浪費資源,因為大部分操作只涉及到數(shù)據(jù)變更而不涉及表結(jié)構(gòu)或者分區(qū)變動。所以我們后來將實時任務(wù)關(guān)閉同步hive元數(shù)據(jù),在需要更新元數(shù)據(jù)時另外再執(zhí)行hudi-hive-sync-bundle-*.jar來同步。

Hudi增量查詢語義是返回給定時間內(nèi)所有的變更數(shù)據(jù),所以會在timeline在里查找歷史所有commits文件。但歷史commits文件會根據(jù)retainCommits參數(shù)被清理,所以如果給定時間跨度較大時可能會獲取不到完整的變更數(shù)據(jù)。如果只關(guān)心數(shù)據(jù)的最終狀態(tài),可以根據(jù)_hoodie_commit_time來過濾獲取增量數(shù)據(jù)。

Hudi默認(rèn)spark分區(qū)并行度withParallelism為1500,需要根據(jù)實際的輸入數(shù)據(jù)大小調(diào)整合適的shuffle并行度。(對應(yīng)參數(shù)為 hoodie.[insert|upsert|bulkinsert].shuffle.parallelism)

Hudi基于parquet列式存儲,支持向后兼容的schema evolution,但只支持新的DataFrame增加字段的schema變更,預(yù)計在在 0.10 版本實現(xiàn) full schema evolution。如果有刪除或重命名字段的需求,只能overwrite。另外增加字段也可能導(dǎo)致hive sync metadata失敗,需要先在hive執(zhí)行drop table。

Hudi Insert 對 recordKey 相同的數(shù)據(jù),根據(jù)不同的參數(shù)有不同的處理情況,決定性的參數(shù)包括以下三個:

hoodie.combine.before.insert

hoodie.parquet.small.file.limit

hoodie.merge.allow.duplicate.on.inserts

其中:hoodie.combine.before.insert 決定是否對同一批次的數(shù)據(jù)按 recordKey 進行合并,默認(rèn)為 false;hoodie.parquet.small.file.limit 和hoodie.merge.allow.duplicate.on.inserts 控制小文件合并閾值和如何進行小文件合并。如果 hoodie.parquet.small.file.limit > 0 并且 hoodie.merge.allow.duplicate.on.inserts 為 false,那么在小文件合并的時候,會對相同 recordKey 的數(shù)據(jù)進行合并。此時有概率發(fā)生去重的情況 (如果相同 recordKey 的數(shù)據(jù)寫入同一文件中);如果 hoodie.parquet.small.file.limit > 0 并且 hoodie.merge.allow.duplicate.on.inserts 為 true,那么在小文件合并的時候,不會處理相同 recordKey 的數(shù)據(jù)

4. 總結(jié)

我司基于Hudi實現(xiàn)流批一體數(shù)據(jù)湖架構(gòu)上線生產(chǎn)環(huán)境已有半年多時間,在引入Hudi之后我們在以下各個方面都帶來了一定收益:

  • 成本:引入Hudi數(shù)據(jù)湖方案之后,實現(xiàn)了S3數(shù)據(jù)增量查詢和增量更新刪除,之前更新刪除方案只能全表overwrite。Hudi實現(xiàn)智能小文件合并,之前需要單獨任務(wù)去處理。在數(shù)據(jù)處理和存儲方面都節(jié)約了相應(yīng)成本,預(yù)估節(jié)省1/4費用。
  • 時效性:所有ODS表已從T+1改造為Near Real Time。后續(xù)會建設(shè)更多實時表。
  • 效率:在插入及更新數(shù)據(jù)時,默認(rèn)情況下,Hudi使用Bloom Index,該索引更適合單調(diào)遞增record key,相比于原始Spark Join,其速度最高可提高10倍。查詢數(shù)據(jù)時,借助Hudi提供的Clustering(將文件按照某些列進行聚簇,以重新布局,達(dá)到優(yōu)化查詢性能的效果),Compaction(將基礎(chǔ)文件和增量日志文件進行合并,生成新版本列存文件)等服務(wù),可將查詢性能提升50%+。

以上就是OnZoom基于Apache Hudi的一體架構(gòu)實踐 的詳細(xì)內(nèi)容,更多關(guān)于OnZoom基于Apache Hudi架構(gòu)的資料請關(guān)注本站其它相關(guān)文章!

美國快速服務(wù)器

版權(quán)聲明:本站文章來源標(biāo)注為YINGSOO的內(nèi)容版權(quán)均為本站所有,歡迎引用、轉(zhuǎn)載,請保持原文完整并注明來源及原文鏈接。禁止復(fù)制或仿造本網(wǎng)站,禁止在非maisonbaluchon.cn所屬的服務(wù)器上建立鏡像,否則將依法追究法律責(zé)任。本站部分內(nèi)容來源于網(wǎng)友推薦、互聯(lián)網(wǎng)收集整理而來,僅供學(xué)習(xí)參考,不代表本站立場,如有內(nèi)容涉嫌侵權(quán),請聯(lián)系alex-e#qq.com處理。

實時開通

自選配置、實時開通

免備案

全球線路精選!

全天候客戶服務(wù)

7x24全年不間斷在線

專屬顧問服務(wù)

1對1客戶咨詢顧問

在線
客服

在線客服:7*24小時在線

客服
熱線

400-630-3752
7*24小時客服服務(wù)熱線

關(guān)注
微信

關(guān)注官方微信
頂部