前面的文章我们为大家介绍了一个常见的互联网大厂的数据仓的技术框架,也就是下面这张图所展示的内容。
为大家介绍了从操作数据层,到DW层,再到汇总数据层,最后到维度层和数据应用层的整个流程。本文我们将整个架构打平来展示制作了下面的流程图,为大家做一个更为详细的介绍。
我们在这里拿“订单信息”举了一个例子,它在原数据库的时候这张表叫做order_info,是一张订单信息表。它出库的时候这张表的名字就变成了ods_order_info,到达我们的ods层,这层只是保存数据,并不做任何处理。
然后数据经过清洗、转换,会存储到dw层,也就是我们上图中看到的dw_order_info。
数据经过清洗转换之后,可能会有一些公共的数据要整合。之后我们会把这些数据模型整合成一张大的数据框表,比如说订单信息这边有可能还会集成一些用户信息等会进行整合。
明细数据会存到明细数据模型数据这边,模型这边要对这些数据进行一些汇总指标的处理。数据表在这里可能会集成一些其他表的属性,名称就变成了dm_order_info。dm层存储的数据颗粒度比较细,主要是方便应用层数据的开发。
如果我们要分析用户数据的话,我们可以直接从dm层这边取用户信息进行汇总就行了,这里数据表就变成st了。
应用层数据处理、储存好了之后会把数据推送到数据报表、数据平台或者其他数据接口,供其他数据产品或者业务、管理层使用。
了解完一个互联网公司比较常见的数据框架,接下来的文章我们继续为大家讲解大数据测试的一些概念、方法以及质量标准,欢迎大家继续关注。