D-Cube: Dense-Block Detection in Terabyte-Scale Tensors 阅读笔记

语言: CN / TW / HK

时间 2020-04-25 19:14:09 mhy12345

主题: 向量 MapReduce

简介

在欺诈检测领域，Dense-Block检测被证明非常的有效。但是，至今为止，所有的Dense-Block计算方法都默认了数据集足够的小以至于可以被塞到电脑内存中。当数据量稍微大一些的话，这类算法就会产生大量的磁盘IO，以至于变得非常低效。

本文提出了D-Cube，一个基于磁盘的最密集块检测算法，该算法以最小化磁盘IO为目标进行优化，并支持Hadoop的MapReduce框架进行分布式运算。D-Cube有如下的特征——

储存高效：D-Cube与传统算法相比，在相同数据集下，使用的内存减小了1600倍，而能够处理的数据规模则增大到1000倍
快速：相比于State-Of-Art模型，D-Cube在真实世界的向量中有5倍加速比，在人工生成向量中有12倍加速比。
准确率可靠：可证明的算法效果，和State-Of-Art算法在真实世界向量中结果相似性极高。
有效性：能够高准确率检测出TCP-Dump网络攻击数据集。

问题描述

指标定义

该问题的形式定义相对比较复杂，完整的定义可以参见原文。

以下图为例，首先我们有若干关系的多元组，其中编码了N维的张量组合以及其对应的非负指标。例如在wikipedia revision history数据集中，表示了用户u修订了页面p，修改时间d，修改次数c。显然，关系可以被表示到一个维立方体中，如图b所示。我们可以进一步，在的诸多维度中，每个维度都提取出一个子集，形成一个块B。对于B和R，我们都可以定义其质量为块内所有指标的和。