/catalog/d340f5de37c84dd09c8d930e56c3996b//Document/281551607537733.html/Document/281181076697157.html/Document/280062157713477.html/Document/279702821789765.html/Document/279349031915589.html/Document/278973117923397.html/Document/277989656563781.html/Document/276955371413573.html/Document/276595065778245.html/Document/275179481653317.html

大数据测试之数据仓测试怎么做(一)

前面的文章我们为大家介绍了大数据测试平台和大数据系统的测试方法,接下来我们重点来讲一下数据仓库测试,首先看一下它的定义。


数据仓库(Data Warehouse):一个面向主题的(Subject Oriented)、集成的 (Integrated)、相对稳定的(Non-Volatile)、反映历史变化的(Time Variant)数据集合,用于支持管理决策和信息的全局共享。

ETL测试流程

从上面这个图中我们可以看到,穿插了一个“ETL”的概念。什么是“ETL”呢?ETL是指从数据源提取数据,经过清洗、转化、加载,并最终存储到目标数据仓库的过程。


也就是图中表示的,从数据抽取到数据加载的整个过程,我们称之为“ETL”。


了解完整体概念后,我们一起来了解一下中通数据仓库的框架。

中通数据仓库的框架

ODS:源数据层,和业务数据保持一致,保留最近七天的数据。
DW:明细数据层,数据经过了清洗转化,明细模型数据。
DM:数据仓库层,根据业务主题、颗粒多不同做汇总,形成宽表。
DIM:数据维度层,提供基础配置信息、用户信息。
ST:数据应用层,为数据产品提供结果数据。


可能这个图片上的有一些名称大家看起来有些陌生,因为不同的公司可能在命名的时候会有所不同,包括分层也会有所差别,但是整体的思想都是差不多的。


首先我们来看一下操作数据层,它主要存储的是从业务操作系统抽取过来的数据,是保持不变的,在中通这边ODS层(操作数据层)一般会保留7天。


然后对操作数据层的数据进行清洗、转化之后,会把数据存到DW层。DW层主要做两个事情,第一个是存储经过清洗和转换的数据,第二点就是可能会有一些公共的明细数据需要在这里做一个明细的模型,主要是做这两块。


再上面一层是汇总数据层,主要是对共有的一些属性维度去进行汇总。

然后在这个图里我们还可以看到有一个维度层,维度层主要是提供的基础的配置信息、用户信息,一般是配合其他层的数据来使用的。
最上面一层是ST数据应用层,是各种指标的数据汇总展示。

 

后面的文章我们会将整个架构打平来展示,通过流程图的方式继续为大家介绍数据仓以及数据仓的测试方法。