/catalog/d340f5de37c84dd09c8d930e56c3996b//Document/281551607537733.html/Document/281181076697157.html/Document/280062157713477.html/Document/279702821789765.html/Document/279349031915589.html/Document/278973117923397.html/Document/277989656563781.html/Document/276955371413573.html/Document/276595065778245.html/Document/275179481653317.html

大数据测试之数据清洗和数据转换怎么做?

本文我们继续来看一下大数据测试中的数据清洗环节和数据转换环节要怎么做。

数据清洗

数据清洗:按照一定的规则剔除或者填充不满足实际需要的业务数据。


这里的清洗主要包括三部分的内容,第一部分是测试数据、第二个是错误的数据,第三个是缺失的数据。错误的数据我们可以关注数据是否重复、格式是否错误、字段描述的信息是否错误。


数据转化:按照一定的规则、技术手段转化不同格式或者颗粒度不同的数据。


首先我们看一下格式的转换,比如说时间格式,在不同的业务系统可能会有不同的时间格式,但是到我们大数据系统,为了方便下游数据的使用,我们会统一转换成一种数据格式。包括一些字段编码也是这样。


然后数据的颗粒度,我们在DW层的数据明细层到数据应用层的整个过程,都是颗粒度不断转化的一个过程。


还包括一些业务规则、商务规则和一些指标。

数据清洗转换

这边给大家举了一个数据清洗方面的例子,这个例子主要是做了两个工作,第一个是对重复数据的处理,第二个是对测试数据的剔除处理。

重复数据的处理

我们是怎么去测试的呢,首先关注去重前后数据量的差异,第二个要检查一下我们去重的规则和清洗的规则是否生效。

测试数据的剔除

我上面单独写了一段自动对比的代码大家可以看一下,测试数据单独落在一张表里面,开发的数据在单独的开发表里面,然后通过唯一字段关联之后,判断两个字段是否相等,对结果进行汇总。

 

下面的文章我们会继续为大家介绍大数据测试中的数据逻辑测试,欢迎大家继续关注。