刚才我们讲了整个数据流程,我们把整个数据框架打平了之后,我们把整个流程切分了几个环节。首先我们一起来看一下数据接入这部分的测试。
数据接入:业务数据或者文件通过一定的技术手段复制到大数据系统的过程。
首先我们一起看一下数据抽取这部分,这部分测试我们主要关注四个维度。第一个是数据测试,数据测试主要关注数据总量和字段这两块。数据总量是否一致、数据是否存在重复、字段是否存在错位、格式是否一致。
元数据这一块主要是关注两个方面,一个是字段,另一个是建表语句。字段主要关注数量、类型和命名规范。建表语句主要关注注释、类型、存储位置和存储格式是否正确。
第三个我们需要关注抽取任务,也就是整个调度任务的测试,首先第一块我们需要关注任务的运行时间,然后参数配置和接入的方式是否正确。
最后一个导入测试主要是针对文件的,需要关注导入路径和文件的大小。
下面是从业务口抽取到大数据系统的例子,我们可以看到从MySQL中不同的表中,把所有的数据抽取到一张表里面,但是在业务库中这些表的数据结构都是一模一样的。
这是代码截图,大家可以看一下。
这里我们就引出了一个业务系统一个分表分库的概念:
分库分表是为了解决由于数据量过大而导致数据库性能降低的问题,将原来独立的数据库拆分成若干数据库组成 ,将数据大表拆分成若干数据表组成,使得单一数据库、单一数据表的数据量变小,从而达到提升数据库性能的目的。
了解完数据接入这部分,后面的文章会带大家继续了解一下什么是数据转化和清洗。