本系列文章我们基于中通科技的大数据测试工作进行展开,分享的内容主要有大数据简介、数据应用测试、数据平台测试、数据仓库测试这四个方面。首先,我们了解一下什么是大数据。
大数据简介
大数据,是指一个公司创造或收集的“结构化”、“半结构化”或者“非结构化”的海量数据集合。它的意义不在于掌握的数据量是最大的,而在于能否有效、专业的对这些数据进行加工处理,并让这些海量的、多样化的数据产生最大的价值。
大数据主要有以下四个特征:
体量大存储单位从过去的GB到TB,直至PB、EB级别。
多样化数据类型复杂多样,包括结构化、半结构化数据还有视频、音频及图片这些非结构化数据。
价值高将原始数据采集、清洗、挖掘、数据分析之后,具有较高的价值。
时效性数据的采集、计算、展示需要满足不同场景的时效。比如说公司的业务报表,一般都要在第二天早上业务方和产品方上班之前就要把数据拷出来,对实效性是有一定的要求的。再比如说一些数据大屏,要满足秒级更新频率的数据。
接下里来我们一起看一下数据从哪里来到哪里去的整个数据链路。
首先是数据采集这一块。主要是我们把从业务系统、日志、埋点、数据文件中的一些数据采集过来。存储到大数据的系统,主要是以HDFS文件系统为主,其他的还有比如ES、Kafka、TIDB等。
数据采集过来之后,我们会对一些脏数据或者测试数据进行清洗和转换,主要是一些测试数据,包括把格式不一致的数据统一转换成统一的格式等。
数据清洗完成之后,我们会对数据进行建模,这部分是数据仓库的核心。把拥有共同属性和共同业务逻辑的表整合到一起,提供给不同的场景方、业务方使用。
数据建模之后,我们根据不同的业务需求进行指标的一些汇总、计算。数据计算完成后,我们会把数据推送到不同的业务方、不同的系统,供他们分析使用。
下面的文章我们会继续为大家介绍中通科技的大数据架构,以及基于这些架构内容如何开展测试。敬请继续关注。