百科知识 | 2024年05月16日 01:20:45 | 阅读:4837
本文目录
目前大多数公司都是使用星形模型搭建自己的数仓,星形模型的特点,只有一层维度,减少了join就减少了shuffle,提高了查询性能,而雪花模型有多层维度类似于三范式,常见的还有星座模型,星座模型具有多张事实表。
传统数仓,即传统数据仓库,是一种用于存储、管理和分析大量结构化数据的技术。传统数仓的主要目的是帮助企业更好地理解和管理业务数据,以便做出更好的决策。
1.数据收集:通过ETL(提取、转换、加载)工具将来自不同来源的数据集成到数仓中。
2.数据存储:使用关系型数据库(如SQLServer、Oracle等)或NoSQL数据库(如Hadoop、MongoDB等)存储数据。
3.数据处理:使用SQL语句或数据处理工具(如SQLServerIntegrationServices,OracleDataIntegrator等)对数据进行清洗、转换和汇总。
4.数据展示:通过数据可视化工具(如Tableau、PowerBI等)或报表工具(如Cognos、SAPBusinessObjects等)将数据呈现给用户。
1.结构化数据存储:传统数仓能够有效地存储和管理结构化数据,便于进行查询和分析。
2.实时数据处理:通过实时数据处理技术,传统数仓能够快速地响应数据变化。
3.易于扩展:传统数仓可以根据需求进行扩展,适应不断增长的数据量。
然而,传统数仓也存在一些局限性,例如:
1.数据处理能力受限:在处理大量数据时,传统数仓的性能可能会受到影响。
2.成本较高:传统数仓的部署和维护成本相对较高。
3.数据类型受限:传统数仓主要适用于结构化数据,对于非结构化数据和实时数据处理能力较弱。
bu数仓是bu数仓而数仓则是数仓。
1.实时采集方面采用CDC技术能够比较好的保证数据的一致性,可以达到秒级同步。2.一致性检查方面需要根据数据存储方式制定不同的检查规则并定期执行。如流水表可以选择历史上完整的一天筛查部分交易与源系统核验。状态表如果有类似双余额字段的,可以与源系统核验上日余额。无双余额的,类似客户表账户表等,只能选择在系统中数据无变化时与源系统核验。
收藏谷物的建筑物:米仓。粮仓。仓储。仓房。
相关文章
网友点评
博博常识网
www.kissing2lips.com