用Python進行實時計算——PyFlink快速入門

由 admin · 已發表 2020-08-31 · 已更新 2020-08-31

Flink 1.9.0及更高版本支持Python，也就是PyFlink。

在最新版本的Flink 1.10中，PyFlink支持Python用戶定義的函數，使您能夠在Table API和SQL中註冊和使用這些函數。但是，聽完所有這些后，您可能仍然想知道PyFlink的架構到底是什麼？作為PyFlink的快速指南，本文將回答這些問題。

為什麼需要PyFlink？

Python上的Flink和Flink上的Python

那麼，PyFlink到底是什麼？顧名思義，PyFlink就是Apache Flink與Python的組合，或者說是Python上的Flink。但是Flink on Python是什麼意思？首先，兩者的結合意味着您可以在Python中使用Flink的所有功能。而且，更重要的是，PyFlink還允許您在Flink上使用Python廣泛的生態系統的計算功能，從而可以進一步促進其生態系統的開發。換句話說，這對雙方都是雙贏。如果您更深入地研究這個主題，您會發現Flink框架和Python語言的集成絕不是巧合。

Python和大數據生態系統

python語言與大數據緊密相連。為了理解這一點，我們可以看一下人們正在使用Python解決的一些實際問題。一項用戶調查显示，大多數人都在使用Python進行數據分析和機器學習應用程序。對於此類情況，大數據空間中還解決了一些理想的解決方案。除了擴大大數據產品的受眾範圍之外，Python和大數據的集成還通過將其獨立體繫結構擴展到分佈式體繫結構，極大地增強了Python生態系統的功能。這也解釋了在分析大量數據時對Python的強烈需求。

為什麼選擇Flink和Python？

Python和大數據的集成與其他最近的趨勢一致。但是，再次說明一下，為什麼Flink現在支持Python，而不是Go或R或另一種語言？而且，為什麼大多數用戶選擇PyFlink而不是PySpark和PyHive？

為了理解原因，讓我們首先考慮使用Flink框架的一些優勢：

有利的體繫結構： Flink是具有統一流和批處理功能的純流計算引擎。
新的活力：根據ASF的客觀統計，Flink是2019年最活躍的開源項目。
高可靠性：作為一個開源項目，Flink經過長期測試，並廣泛應用於大數據公司的生產環境中。

接下來，讓我們看看為什麼Flink支持Python而不是其他語言。統計數據显示，Python是繼Java和C之後最受歡迎的語言，並且自2018年以來一直在快速發展。Java和Scala是Flink的默認語言，但是Flink支持Python似乎是合理的。

PyFlink是相關技術發展的必然產物。但是，僅僅了解PyFlink的重要性是不夠的，因為我們的最終目標是使Flink和Python用戶受益並解決實際問題。因此，我們需要進一步探索如何實現PyFlink。

PyFlink架構

要實現PyFlink，我們需要知道要實現的關鍵目標和要解決的核心問題。PyFlink的主要目標是什麼？簡而言之，PyFlink的主要目標如下：

使所有Flink功能對Python用戶可用。
在Flink上運行Python的分析和計算功能，以提高Python解決大數據問題的能力。

在此基礎上，讓我們分析實現這些目標需要解決的關鍵問題。

使Flink功能可供Python用戶使用

要實現PyFlink，是否需要像現有Java引擎一樣在Flink上開發Python引擎？答案是NO。嘗試在Flink 1.8版或更早版本中進行，但效果不佳。基本設計原則是以最小的成本實現給定的目標。最簡單但最好的方法是提供一層Python API，並重用現有的計算引擎。

那麼，我們應該為Flink提供哪些Python API？他們對我們很熟悉：高級表API和SQL，以及有狀態的DataStream API。現在，我們越來越接近Flink的內部邏輯，下一步是提供適用於Python的Table API和DataStream API。但是，剩下要解決的關鍵問題到底是什麼呢？

關鍵問題

顯然，關鍵問題在於在Python虛擬機（PyVM）和Java虛擬機（JVM）之間建立握手，這對於Flink支持多種語言至關重要。要解決此問題，我們必須選擇適當的通信技術。

選擇虛擬機通信技術

當前，有兩種解決方案可用於實現PyVM和JVM之間的通信，它們是Beam和Py4J。前者是一個著名的項目，具有多語言和多引擎支持，而後者是用於PyVM和JVM之間通信的專用解決方案。我們可以從幾個不同的角度比較和對比Apache Beam和Py4J，以了解它們之間的區別。首先，考慮一個比喻：要越過一堵牆，Py4J會像痣一樣在其中挖一個洞，而Apache Beam會像大熊一樣把整堵牆推倒。從這個角度來看，使用Apache Beam來實現VM通信有點複雜。簡而言之，這是因為Apache Beam專註於通用性，在極端情況下缺乏靈活性。

除此之外，Flink還需要交互式編程。此外，為了使Flink正常工作，我們還需要確保其API設計中的語義一致性，尤其是在其多語言支持方面。Apache Beam的現有體繫結構無法滿足這些要求，因此答案很明顯，Py4J是支持PyVM和JVM之間通信的最佳選擇。

技術架構

在PyVM和JVM之間建立通信之後，我們已經實現了向Python用戶提供Flink功能的第一個目標。我們已經在Flink 1.9版中實現了這一點。現在，讓我們看一下Flink 1.9版中PyFlink API的體繫結構：

Flink 1.9版使用Py4J來實現虛擬機通信。我們為PyVM啟用了網關，為JVM啟用了網關服務器以接收Python請求。此外，我們還提供了Python API中的TableENV和Table之類的對象，這些對象與Java API中提供的對象相同。因此，編寫Python API的本質是關於如何調用Java API。Flink 1.9版還解決了作業部署問題。它使您可以通過各種方式提交作業，例如運行Python命令以及使用Python Shell和CLI。

但是，此體繫結構提供了哪些優勢？首先，該體繫結構很簡單，並且可以確保Python API和Java API之間的語義一致性。其次，它還提供了與Java作業相當的出色Python作業處理性能。

在Flink上運行Python的分析和計算功能

上一節介紹了如何使Flink功能可供Python用戶使用。本節說明如何在Flink上運行Python函數。通常，我們可以通過以下兩種方式之一在Flink上運行Python函數：

選擇一個典型的Python類庫，並將其API添加到PyFlink。該方法花費很長時間，因為Python包含太多的類庫。在合併任何API之前，我們需要簡化Python執行。
基於現有的Flink Table API和Python類庫的特徵，我們可以將所有現有的Python類庫函數視為用戶定義的函數，並將其集成到Flink中。Flink 1.10及更高版本中支持此功能。功能集成的關鍵問題是什麼？同樣，它取決於Python用戶定義函數的執行。

接下來，讓我們為這個關鍵問題選擇一種技術。

選擇執行用戶定義功能的技術

實際上，執行Python用戶定義的函數非常複雜。它不僅涉及虛擬機之間的通信，還涉及以下所有方面：管理Python執行環境，解析Java和Python之間交換的業務數據，將Flink中的狀態後端傳遞給Python以及監視執行狀態。鑒於所有這些複雜性，現在是Apache Beam發揮作用的時候了。作為支持多種引擎和多種語言的大熊，Apache Beam可以在解決這種情況方面做很多工作，所以讓我們看看Apache Beam如何處理執行Python用戶定義的函數。

下面显示了可移植性框架，該框架是Apache Beam的高度抽象的體繫結構，旨在支持多種語言和引擎。當前，Apache Beam支持幾種不同的語言，包括Java，Go和Python。

用戶定義的功能架構

UDF體繫結構不僅需要實現PyVM與JVM之間的通信，還需要在編譯和運行階段滿足不同的要求。在下面的PyLink用戶定義功能架構圖中，JVM中的行為以綠色表示，而PyVM中的行為以藍色表示。讓我們看看編譯期間的局部設計。本地設計依賴於純API映射調用。Py4J用於VM通信。

現在，讓我們看看Python API和Java API在此架構中的工作方式。在Java方面，JobMaster將作業分配給TaskManager，就像處理普通Java作業一樣，並且TaskManager執行任務，這涉及到操作員在JVM和PyVM中的執行。在Python用戶定義的函數運算符中，我們將設計各種gRPC服務，用於JVM和PyVM之間的通信。例如，用於業務數據通信的DataService和用於Python UDF的StateService來調用Java State後端。還將提供許多其他服務，例如日誌記錄和指標。

我們如何使用PyFlink？

了解了PyFlink的體繫結構及其背後的思想之後，我們來看一下PyFlink的特定應用場景，以更好地了解其背後的方式和原因。

PyFlink的應用場景

PyFlink支持哪些業務方案？我們可以從兩個角度分析其應用場景：Python和Java。請記住，PyFlink也適用於Java可以應用的所有情況。

事件驅動的方案，例如實時數據監控。
數據分析，例如庫存管理和數據可視化。
數據管道，也稱為ETL方案，例如日誌解析。
機器學習，例如有針對性的建議。

您可以在所有這些情況下使用PyFlink。PyFlink也適用於特定於Python的方案，例如科學計算。在如此眾多的應用場景中，您可能想知道現在可以使用哪些特定的PyFlink API。因此，現在我們也來研究這個問題。

PyFlink安裝

在使用任何API之前，您需要安裝PyFlink。當前，要安裝PyFlink，請運行命令：pip install apache-Flink

PyFlink API

PyFlink API與Java Table API完全一致，以支持各種關係和窗口操作。某些易於使用的PyFlink API比SQL API更為強大，例如特定於列操作的API。除了API，PyFlink還提供了多種定義Python UDF的方法。

PyFlink中用戶定義的函數定義

可以擴展ScalarFunction（例如，通過添加指標）以提供更多輔助功能。另外，PyFlink用戶功能函數支持Python支持的所有方法定義，例如lambda，命名函數和可調用函數。

定義完這些方法后，我們可以使用PyFlink Decorators進行標記，並描述輸入和輸出數據類型。我們還可以基於Python的類型提示功能進一步簡化更高版本，以進行類型派生。以下示例將幫助您更好地了解如何定義用戶定義的函數。

定義Python用戶定義函數的一種情況

在本例中，我們將兩個数字相加。首先，為此，導入必要的類，然後定義前面提到的函數。這非常簡單，因此讓我們進行一個實際案例。

PyFlink的未來前景如何？

通常，使用PyFlink進行業務開發很簡單。您可以通過SQL或Table API輕鬆描述業務邏輯，而無需了解基礎實現。讓我們看一下PyFlink的整體前景。

目標驅動路線圖

PyFlink的開發始終受到目標的推動，這些目標是使Flink功能可供Python用戶使用並將Python函數集成到Flink中。根據下面显示的PyFlink路線圖，我們首先在PyVM和JVM之間建立了通信。然後，在Flink 1.9中，我們提供了Python Table API，向Python用戶開放了現有的Flink Table API功能。在Flink 1.10中，我們準備通過以下操作將Python函數集成到Flink：集成Apache Beam，設置Python用戶定義的函數執行環境，管理Python對其他類庫的依賴關係以及為用戶定義用戶定義的函數API，以便支持Python用戶定義函數。

為了擴展分佈式Python的功能，PyFlink提供了對Pandas Series和DataFrame支持，以便用戶可以在PyFlink中直接使用Pandas用戶定義的函數。此外，將來會在SQL客戶端上啟用Python用戶定義函數，以使PyFlink易於使用。PyFlink還將提供Python ML管道API，以使Python用戶能夠在機器學習中使用PyFlink。監視Python用戶定義的函數執行對實際生產和業務至關重要。因此，PyFlink將進一步為Python用戶定義函數提供度量管理。這些功能將包含在Flink 1.11中。

但是，這些只是PyFlink未來發展計劃的一部分。還有更多工作要做，例如優化PyFlink的性能，提供圖形計算API以及為Flink上的Pandas支持Pandas的本機API。我們將繼續向Python用戶提供Flink的現有功能，並將Python的強大功能集成到Flink中，以實現擴展Python生態系統的最初目標。

PyFlink的前景如何？您可能知道，PyFlink是Apache Flink的一部分，它涉及運行時和API層。

PyFlink在這兩層將如何發展？在運行時方面，PyFlink將構建用於JVM和PyVM之間通信的gRPC常規服務（例如控件，數據和狀態）。在此框架中，將抽象化Java Python用戶定義函數運算符，並構建Python執行容器以支持Python的多種執行方式。例如，PyFlink可以在Docker容器中甚至在外部服務集群中作為進程運行。特別是在外部服務群集中運行時，將以套接字的形式啟用無限擴展功能。這一切在後續的Python集成中都起着至關重要的作用。

在API方面，我們將在Flink中啟用基於Python的API，以實現我們的使命。這也依賴於Py4J VM通信框架。PyFlink將逐漸支持更多的API，包括Flink中的Java API（例如Python Table API，UDX，ML Pipeline，DataStream，CEP，Gelly和State API）以及在Python用戶中最受歡迎的Pandas API。基於這些API，PyFlink將繼續與其他生態系統集成以便於開發；例如Notebook，Zeppelin，Jupyter和Alink，這是阿里巴巴的Flink開源版本。到目前為止，PyAlink已完全整合了PyFlink的功能。PyFlink也將與現有的AI系統平台集成，例如著名的TensorFlow。

為此，PyFlink將一直保持活力。同樣，PyFlink的任務是使Flink功能可供Python用戶使用，並在Flink上運行Python分析和計算功能。

更多實時數據分析相關博文與科技資訊，歡迎關注 “實時流式計算”
關注 “實時流式計算” 回復 “电子書” 獲取Flink 300頁實戰电子書

本站聲明:網站內容來源於博客園,如有侵權,請聯繫我們,我們將及時處理

【其他文章推薦】

※超省錢租車方案

※別再煩惱如何寫文案,掌握八大原則!

※回頭車貨運收費標準

※教你寫出一流的銷售文案?

用Python進行實時計算——PyFlink快速入門

為什麼需要PyFlink？

Python上的Flink和Flink上的Python

Python和大數據生態系統

為什麼選擇Flink和Python？

PyFlink架構

使Flink功能可供Python用戶使用

在Flink上運行Python的分析和計算功能

我們如何使用PyFlink？

PyFlink的應用場景

PyFlink安裝

PyFlink API

PyFlink中用戶定義的函數定義

定義Python用戶定義函數的一種情況

PyFlink的未來前景如何？

目標驅動路線圖

您可能也會喜歡…

近期文章

分類

彙整

用Python進行實時計算——PyFlink快速入門

為什麼需要PyFlink？

Python上的Flink和Flink上的Python

Python和大數據生態系統

為什麼選擇Flink和Python？

PyFlink架構

使Flink功能可供Python用戶使用

在Flink上運行Python的分析和計算功能

我們如何使用PyFlink？

PyFlink的應用場景

PyFlink安裝

PyFlink API

PyFlink中用戶定義的函數定義

定義Python用戶定義函數的一種情況

PyFlink的未來前景如何？

目標驅動路線圖

您可能也會喜歡…

(速報)[U-EV]率先引進1輛供聯華林德測試、第四季將導入H2 City Gold巴士，2代Toyota Mirai首度在臺現身

台南提前完成446處交通站、景點環境清消 迎接春節連假

廢漁網再利用率達8成 中市祭獎勵鼓勵漁民回收

近期文章

標籤

分類

彙整

台南提前完成446處交通站、景點環境清消迎接春節連假

廢漁網再利用率達8成中市祭獎勵鼓勵漁民回收