D-Cube: Dense-Block Detection in Terabyte-Scale Tensors 閲讀筆記

語言: CN / TW / HK

時間 2020-04-25 19:14:09 mhy12345

主題: 向量 MapReduce

簡介

在欺詐檢測領域，Dense-Block檢測被證明非常的有效。但是，至今為止，所有的Dense-Block計算方法都默認了數據集足夠的小以至於可以被塞到電腦內存中。當數據量稍微大一些的話，這類算法就會產生大量的磁盤IO，以至於變得非常低效。

本文提出了D-Cube，一個基於磁盤的最密集塊檢測算法，該算法以最小化磁盤IO為目標進行優化，並支持Hadoop的MapReduce框架進行分佈式運算。D-Cube有如下的特徵——

儲存高效：D-Cube與傳統算法相比，在相同數據集下，使用的內存減小了1600倍，而能夠處理的數據規模則增大到1000倍
快速：相比於State-Of-Art模型，D-Cube在真實世界的向量中有5倍加速比，在人工生成向量中有12倍加速比。
準確率可靠：可證明的算法效果，和State-Of-Art算法在真實世界向量中結果相似性極高。
有效性：能夠高準確率檢測出TCP-Dump網絡攻擊數據集。

問題描述

指標定義

該問題的形式定義相對比較複雜，完整的定義可以參見原文。

以下圖為例，首先我們有若干關係的多元組，其中編碼了N維的張量組合以及其對應的非負指標。例如在wikipedia revision history數據集中，表示了用户u修訂了頁面p，修改時間d，修改次數c。顯然，關係可以被表示到一個維立方體中，如圖b所示。我們可以進一步，在的諸多維度中，每個維度都提取出一個子集，形成一個塊B。對於B和R，我們都可以定義其質量為塊內所有指標的和。