如何用DBSCAN聚類模型做資料分析？

語言: CN / TW / HK

時間 2022-09-26 08:34:52

DBSCAN屬於無監督學習演算法，無監督演算法的內涵是觀察無標籤資料集自動發現隱藏結構和層次，在無標籤資料中尋找隱藏規律。

聚類模型在資料分析當中的應用：既可以作為一個單獨過程，用於尋找資料內在規律，也可以作為分類等其他分析任務的前置探索。

上篇我們講了基於原型的k-means聚類演算法，這篇我們來講通常情況下聚類效果表現更優異的密度聚類DBSCAN。

什麼是DBSCAN

DBSCAN是一種基於密度的考慮到噪音的空間聚類演算法。簡單來講，給定一組點，DBSCAN將彼此距離（歐幾里得距離）很近的點聚成一類，同時它還將低密度區域中的點標記為異常值（outlier）。要了解DBSCAN演算法，我們先來熟悉一些關鍵概念：

以下圖為例，將所有點基於半徑 (ε) 畫圈，指定資料點密度為3，我們發現下圖紅色點在指定半徑內的密度均>3，故紅色點為核心點；

而B、C點在核心點鄰域內，但是其半徑內的點只有2個，小於指定密度，故B、C為邊界點；

N點未在核心點鄰域內，且從任何一個核心點出發都密度不可達，故N為異常值點；以上點A與B、A與C均密度相連；

演算法優缺點

優點

缺點

演算法針對資料點形狀和大小有靈活性，且可以識別處理異常值，聚類效果表現優異，如下圖：

DBSCAN數據分析實戰案例

案例背景：O2O平臺為了更好地為線下店面服務，增加一個增值服務，即利用自己擁有的地理位置資料為線下店面選址，資料如下：

每一條資料是一個興趣點（POI - Point of Interest）的特徵，具體指的是以這個位置為中心的500米半徑圓裡，各類商家/設施的數量，資料中我們隱藏掉了每個POI的具體名稱、座標、型別。選址的商家將試圖從這些位置中選擇一個作為下一個店面的位置。

商家想知道這40個潛在店面位置之間是否有顯著的差異。我們可以將所有POI按照相似程度，劃分成幾個類別？

步驟：

資料準備：資料獲取、資料清洗、資料變換等步驟，重點是針對分析目的，進行特徵選擇以及特徵標準化；

資料建模：使用DBSCAN演算法進行資料建模；

後續分析：聚類模型的特徵描述分析，基於業務問題，進一步分析；

1、讀取資料

2、特徵選取

3、標準化

4、建立DBSCAN模型並可視化

5、聚類分析，對每一聚類進行進一步分析和描述

6、根據描述分析，生成poi聚類結果畫像，利用聚類，對人群/商品/行為標籤進行精細劃分，作為進一步商業決策的基礎；

以上DBSCAN聚類演算法就講完了，關於演算法的引數選擇通常是基於經驗和對資料集的業務瞭解來確定，可以使用畫k距離圖的方式來找拐點然後通過觀測聚類表現來調優。