PieCloudDB Database 雲上商業智能的最佳實踐

語言: CN / TW / HK

「商業智能(Business Intelligence,BI)」這個概念最早是 Gartner 在上個世紀九十年代提出的,它認為從功能上來説,商業智能是一種解決方案,其關鍵是處理企業來自多個來源的各種數據,提取有用的數據並清理,然後經過抽取(Extraction)、轉換(Transformation)和加載(Load),即 ETL 過程,合併到一個企業級的數據倉庫裏,按照一定的建模方式組織數據,再利用合適的商業智能工具來形成各種可視化的分析報表,將數據轉化為洞察(Insight),為管理者的決策提供支持。

對於企業而言,打造一套完善的商業智能解決方案,可以讓業務需求更貼合真實數據,讓商業決策更加理性和“智能”。決策者接收到的直接結果大多數是數據可視化後的分析報表,「數據可視化(Data Visualization)」作為商業智能的一個重要特徵,可以通過交互式數據儀表板、圖表、圖形和映射的方式來呈現企業故事,使展示結果更易於理解和共享,為決策者提供更多的洞察,這都是傳統的報告和分發工具所無法企及的。雖然前端可視化分析最為直觀,但它僅僅是商業智能的一個環節,底層數據庫的建設才是基石。PieCloudDB Database 作為一款雲原生數據庫產品,搭建了底層業務系統數據源和可視化分析報表之間的橋樑,在整個商業智能解決方案中起到了承上啟下的核心作用。

PieCloudDB Database 兼容 PostgreSQL 協議,支持 ODBC、JDBC 等標準數據庫接口。對 SQL 的全面支持使得 PieCloudDB Database 可以無縫集成業內常見的 ETL 和 BI 工具;而對多種過程語言(Procedural Language)的支持為用户基於數據庫的二次開發提供了便利。的本文將藉助一個商業智能場景,介紹如何使用 Python 編程語言和 BI 工具 Tableau 連接 PieCloudDB Database ,從而形成以下完整的商業智能解決方案:

  • 確定數據來源
  • 數據採集
  • 數據入庫
  • 數據清洗
  • 探索性數據分析
  • 數據建模
  • 數據洞察

商業智能場景介紹

隨着今年初對新冠疫情防控政策的重大調整,旅遊行業逐漸開始回温,在這種趨勢下,如何提升景點品質、提高商業競爭力成為了擺在景區規劃人員面前的問題。在這種場景下,基於我們的解決方案結構,可以對某旅遊網站的中文評論進行內容分析,充分發揮文本數據的作用,從而為旅遊行業的規劃升級提供決策幫助。本文會側重介紹解決方案中所涉及的 PieCloudDB Database 外部連接方式,後續的文章則會重點介紹該場景下的數據分析過程。

 

使用 Python 訪問 PieCloudDB Database

PieCloudDB Database 完全兼容 PostgreSQL 的客户端協議,所以我們可以使用 PostgreSQL 驅動訪問 PieCloudDB Database。同時 psycopg 是一種用於執行 SQL 語句的 Python API,可以為 PostgreSQL 數據庫訪問接口,所以我們可以利用 psycopg 模塊連接 PieCloudDB Database。大家可以參考以下步驟進行操作:

# 安裝 psycopg 模塊
pip install psycopg2
# 導入 psycopg 模塊
import psycopg2
# 連接到 PieCloudDB Database
conn = psycopg2.connect(database='openpie', user='username', password='token', host='127.0.0.1', port='5432')

# 參數信息:
# �  database – 數據庫名
#�   user – 數據庫用户名
#�   password – 數據庫接入 token 即密碼
#�   host – 數據庫IP地址
#�   port – 端口號
# 創建指針對象
cur = conn.cursor()
# 執行 SQL 語句
cursor.execute(sql)
# 提交執行結果
conn.commit()
# 關閉指針和數據庫連接
cursor.close()
conn.close()

使用 Tableau 連接 PieCloudDB Database

市場上常見的 BI 工具有很多,從軟件成熟度和市場接受度考量,我們使用 Tableau 進行探索性數據分析。經過測試,我們可以從 Tableau Desktop 使用 PostgreSQL 驅動訪問 PieCloudDB Database。大家可以參考以下步驟進行操作:

· 選擇連接方式

選擇左側“連接”窗格 > 到服務器 > 更多... > PostgreSQL

由於 Tableau 的要求,在連接操作之前,用户需要從 http://jdbc.postgresql.org/download/ 下載和安裝 PostgreSQL 所需的驅動程序,然後將相關的 .jar 文件複製到以下文件夾中(可能需要手動創建該文件夾):~/Library/Tableau/Drivers ,詳細步驟請參考 Tableau 官網

· 填寫連接信息

根據提示,填寫需要連接的數據庫IP地址、端口號、數據庫名、用户名和密碼即可。

在整個商業智能解決方案中,我們會藉助 Python 豐富的數據科學工具進行數據採集、數據清洗和數據建模,並通過 Tableau 強大的可視化分析功能進行探索性數據分析、形成動態化看板。如果大家對中文文本分析這個主題感興趣,想了解詳細的數據建模過程和完整的商業智能場景流程,請持續關注我們的後續技術博文。