Apache Doris 在橙联的应用实践:数仓架构全面革新,千万数据计算时间从 2 小时变成 3 分钟
业务背景 橙联股份是一家服务全球跨境电商的科技公司,致力于通过市场分析、系统研发及资源整合,为客户提供物流、金融、大数据等多方面的服务产品,为全球跨境电商提供高品质、全方位的服务解决方案。 随着公司业务的发展和数据的不断增长,早期基于 MySQL 的传统数仓架构已经无法应对公司数据的快速增长。业务...
「数仓面试」如何确定主题域?
大家好,我是一哥,前几天跟一个朋友聊了一些数据中台建设的内容,针对数据仓库中主题域如何划分这个话题聊了很多。其实数据仓库建设的理论大家已经都知道了不少,也看过不少书,那么在实际建设数据仓库中,我们还是会遇到各种问题。前段时间招人,面试了几个简历上都写了有3年以上数仓开发的,当我问他“如何确定主题域?...
你应该知道的数仓安全:都是同名Schema惹的祸
摘要:我是管理员账号,怎么还没有权限?当小伙伴询问的时候,我第一时间就会想到都是用户同名Schema惹的祸本文分享自华为云社区《你应该知道的数仓安全——都是同名Schema惹的祸》,作者: zhangkunhn 。典型场景经常遇到小伙伴问到:我是管理员账号,怎么还没有权限?管理员给我赋权了啊...
你应该知道的数仓安全:都是同名Schema惹的祸
摘要:我是管理员账号,怎么还没有权限?当小伙伴询问的时候,我第一时间就会想到都是用户同名Schema惹的祸你应该知道的数仓安全——都是同名Schema惹的祸》,作者: zhangkunhn 。典型场景经常遇到小伙伴问到:我是管理员账号,怎么还没有权限?管理员给我赋权了啊,怎么还没有权限?当小伙伴询问...
基于Impala的高性能数仓实践之物化视图服务
本文将主要介绍NDH Impala的物化视图实现。 接上篇,前两篇分别讲了执行引擎和虚拟数仓,它们是让一个SQL又快又好地执行的关键。但如果某些SQL过于复杂,比如多张大表进行Join并有大量的聚合类操作,那么再优秀的执行引擎也无法保证能够秒级执行完成,虚拟数仓的弹性扩展能力也很难及时跟上,这...
重构实时离线一体化数仓,Apache Doris 在思必驰的应用实践
作者:赵伟,思必驰大数据高级研发,10年大数据开发和设计经验,负责大数据平台基础技术和OLAP分析技术开发。社区贡献:Doris-spark-connector 的实时读写和优化。 业务背景 思必驰是国内专业的对话式人工智能平台公司,拥有全链路的智能语音语言技术,致力于成为全链路智能语音及...
大数据项目之数仓相关知识
第1章 数据仓库概念 数据仓库(DW): 为企业指定决策,提供数据支持的,帮助企业,改进业务流程,提高产品质量等。 DW的输入数据通常包括:业务数据,用户行为数据和爬虫数据等 ODS: 数据备份 DWD:数据清洗 DWS: 预先聚合 ADS: 统计数据 何为数仓DW Dat...
数仓Hive和分布式计算引擎Spark多整合方式实战和调优方向
@目录概述Spark on HiveHive on Spark概述编译Spark源码配置调优思路编程方向分组聚合优化join优化数据倾斜任务并行度小文件合并CBO谓词下推矢量化查询Yarn配置推荐Spark配置推荐Executor CPU核数配置Executor CPU内存配置Executor 个数...
企业数据治理实战总结--数仓面试必备
文章整理自涤生大数据老师宇哥,宇哥是历任中国电信,平安银行,微众银行,众安保险等多家公司擅长大数据求职面试,数仓开发管理,数据治理,数据质量等工作,主导过相关平台的建设1 数据治理的背景在数据建设过程中,业务人员和数据开发人员在日常使用数据的过程中还是能感受到一些痛点的,主要的表现:第一,数据资产缺...
GaussDB(DWS)云原生数仓技术解析
摘要:本文主要介绍GaussDB(DWS)云原生数仓架构、产品能力,帮助开发者快速了解GaussDB(DWS)云原生数仓相关信息与能力。 本文分享自华为云社区《直播回顾 | GaussDB(DWS)云原生数仓技术解析》,作者:胡辣汤。 在本期《GaussDB(DWS)云原生数仓技术解析》的主题...
解密数仓高可用failover流程
摘要: Gaussdb的HA采用主备从的架构实现数据可靠性。当主DN发生故障时,备DN走failover流程,升级成为新主DN,保证集群不因单DN故障而中断业务。 本文分享自华为云社区《【玩转PB级数仓GaussDB(DWS)】dws高可用之failover流程大解密》,作者:fxy022...
bucket表:数仓存算分离中CU与DN解绑的关键
摘要:Bucket存储是数据共享中重要的一环,当前阶段,bucket存储可以将列存中的CU数据和DN节点解绑。 本文分享自华为云社区《存算分离之bucket表——【玩转PB级数仓GaussDB(DWS)】》,作者:yd_278301229 。 在云原生环境,用户可以自由配置cup型号、内存、磁...
Inmon和Kimball数仓建模思想
Inmon和Kimball是数据仓库领域伟大的开拓者,他们均多年从事数据仓库的研究,Inmon还被称为“数据仓库之父”。Inmon的《数据仓库》和Kimball的《数据仓库工具箱》都是此领域的经典之作。后来人把这两人的数据仓库思想总结为“Inmon理论”和“Kimball理论”。他们的思想有共同点,...
Flink Table Store 0.3 构建流式数仓最佳实践
摘要:本文整理自阿里巴巴高级技术专家,Apache Flink PMC 李劲松(之信),在 FFA 2022 实时湖仓的分享。本篇内容主要分为四个部分:挑战:Streaming DW 面临的难题案例:Flink+FTS 典型场景案例v0.3:FTSV0.3 有什么能力来帮助上述场景总结:回顾和项目信...
数仓如何进行表级控制analyze?
摘要: 介绍如何设置采样大小和表级控制analyze。本文分享自华为云社区《GaussDB(DWS) 如何表级控制analyze》,作者:leapdb。一、控制采样大小【设置全局采样大小】通过参数default_statistics_target设置全局默认采样大小。a.default_statis...
数仓如何进行表级控制analyze?
摘要: 介绍如何设置采样大小和表级控制analyze。 本文分享自华为云社区《GaussDB(DWS) 如何表级控制analyze》,作者:leapdb。 一、控制采样大小 【设置全局采样大小】 通过参数default_statistics_target设置全局默认采样大小。 a.d...
云原生数仓竞争加剧,如何打造自己的差异性?
云计算正在成为数字时代的基础设施,数据库上云的速度也在加快。近些年,云原生数仓在Snowflake的带动下引发了广泛关注,不少人看到了新机会,摩拳擦掌下海创业。拓数派便是在这样背景下成立的数据库初创公司,日前,该公司发布了PieCloudDB「云上云」版,迈出了进军公有云的第一步,当天基于阿里云构建...
引领云数仓创新浪潮 HashData闪耀PostgreSQL中国技术大会
3月3日-3月5日,第12届PostgreSQL中国技术大会在杭州举行。本次大会以“突破•进化•共赢——安全可靠,共建与机遇”为主题,以线上+线上结合的方式,邀请了PG领域众多行业大咖、学术精英及技术专家,共同探讨数据库未来的发展动态、技术突破、实践案例和生态合作等话题。HashData作为国内领先...
关于云数仓存算分离的15个问答
存储是数据的持久化载体,也是数据库系统重要的基础设施。高质量的存储系统设计,对数据库的性能有着至关重要的影响。随着云计算技术的发展,数据库也开始拥抱云原生时代,“存算分离”的概念逐渐为大家所熟知。“存算分离”不仅能节约成本,还可以让资源根据业务需求弹性伸缩。HashData为了提升系统的弹性和扩展性...
bucket表:数仓存算分离中CU与DN解绑的关键
摘要:Bucket存储是数据共享中重要的一环,当前阶段,bucket存储可以将列存中的CU数据和DN节点解绑。本文分享自华为云社区《存算分离之bucket表——【玩转PB级数仓GaussDB(DWS)】》,作者:yd_278301229 。在云原生环境,用户可以自由配置cup型号、内存、磁盘...