• 传统数仓的3大缺陷,一篇梳理清楚

    时间:2023-01-12 10:09:39

    导读:本文将对传统数仓的缺陷进行总结。01、效率低传统的数仓大多构建在Hadoop之上。这位传统的数仓带来了近乎无限的横向扩展能力,同时也造成了传统的数仓技术效率低的缺陷。效率低主要体现在以下几个方面。部署效率低:在部署Hive/HBase/Kylin之前,必须部署好Hadoop集群。和传统数据库相...

  • 网易邮箱数仓演进之路

    时间:2023-01-04 11:11:50

    本文介绍了网易邮箱数仓的演进过程和期间一些关键的技术方案引入决策,并阐述了这些决策背后的业务需求和技术考虑因素,以及实施后的实际产出成效。最后对整个过程进行了总结及后续展望。1、概述到目前为止,网易邮箱数仓的发展大致经历了三个阶段:第一个阶段是2020年10月份之前,这时候我们的数据系统的主要任务是...

  • 【2022开发者专场】从Amazon Redshift实战沙龙看云数仓未来发展趋势

    时间:2023-01-04 11:05:26

    大数据时代,企业对数据带来的业务价值有哪些期待?如果你参加了Amazon Redshift实战沙龙,一定会有更深刻的感悟!12月30日,2022re:Invent Recap 开发者专场系列线下沙龙活动如期召开,本次会议由亚马逊云科技和ITPUB社区联合举办。继上一场Amazon Aurora Se...

  • 网易邮箱数仓演进之路

    时间:2023-01-04 11:04:32

    本文介绍了网易邮箱数仓的演进过程和期间一些关键的技术方案引入决策,并阐述了这些决策背后的业务需求和技术考虑因素,以及实施后的实际产出成效。最后对整个过程进行了总结及后续展望。1 概述到目前为止,网易邮箱数仓的发展大致经历了三个阶段:第一个阶段是2020年10月份之前,这时候我们的数据系统的主要任务是...

  • 华为云王传廷 融合普惠的云数仓——解析华为云GaussDB(DWS) 3.0

    时间:2022-12-29 19:11:08

     华为云王传廷 融合普惠的云数仓——解析华为云GaussDB(DWS) 3.0...

  • 数据治理 VS 公司治理、IT治理、数仓治理

    时间:2022-12-28 18:11:09

    作者丨石秀峰全文共3653个字,建议阅读需10分钟如题,今天要聊得这个话题,包含了四个“治理”。先上一张图:看完这张图你有什么想法,这张图说明了什么?它是在描述公司治理、IT治理、数仓治理和数据治理的关系吗?如果这张图是在描述四个“治理”之间的层次结构,那你认为哪一个结构是正确的呢?如果您是企业的高...

  • 亚马逊云科技潘超:云原生无服务器数仓最佳实践与实时数仓架构

    时间:2022-12-28 16:11:03

    潘超 亚马逊云科技 数据分析专家本次演讲将主要介绍Amazon Redshift的10年的技术演进,最新的Redshift Serverless架构、应用场景和最佳实践,同时也会介绍Redshift在实时数仓方向上的最新更新。分享提纲:1.Amazon Redshift 10年技术创新与演进2.Am...

  • 电商供应链数仓平台该如何建设?应该注意什么?

    时间:2022-12-26 07:11:56

    导读:随着蜀海供应链业务的发展,供应链中各个环节角色的工作人员利用数据对业务进行增长分析的需求越来越迫切。在过去大数据分析平台架构1.0的实践中,存在数据生产链路太长,架构太复杂,开发运维成本都很高,之前的团队对这个架构的驾驭能力不足,数据冗余,对业务的适应能力较弱和不能快速的响应业务各种数据需求等...

  • Hive+Spark离线数仓工业项目实战--数仓设计及数据采集(1)

    时间:2022-12-24 12:56:57

    数仓设计及数据采集 1. **数据仓库设计**    - 建模:维度建模:【事实表、维度表】    - 分层:ODS、DW【DWD、DWM、DWS】、APP    - **==掌握本次项目中数仓的分层==**      - ODS、DWD、DWB、DWS、ST、DM 2. 业务系统流程和数据来源  ...

  • 20000节点云数仓在大型商业银行的“实践之路”

    时间:2022-12-15 20:07:52

    12月14日至16日,第13届中国数据库技术大会(DTCC2022)在线上隆重召开。本次大会以“数据智能 价值创新”为主题,邀请逾百位行业专家,重点围绕云原生数据库、实时数仓技术与应用实践、大数据平台等内容展开分享和探讨。在15日举行的“金融行业数据库技术实践”专场,建信金融科技基础技术中心、龙趺M...

  • 并发提升 10 倍,运算延时降低 70%,领健从 ClickHouse 和 Kudu 到 Apache Doris 数仓升级实践

    时间:2022-12-13 19:12:18

    作者|杨鷖 资深大数据开发工程师 编辑整理|SelectDB 领健是健康科技行业 SaaS 软件的引领者,专注于消费医疗口腔和医美行业,为口腔诊所、医美机构、生美机构提供经营管理一体化系统,提供了覆盖单店管理、连锁管理、健康档案/电子病历、客户关系管理、智能营销、B2B交易平台、进销存、保险支付、影...

  • 数仓服务平台在唯品会的建设实践

    时间:2022-12-09 12:09:23

    导读数据服务是数据中台体系中的关键组成部分。作为数仓对接上层应用的统一出入口,数据服务将数仓当作一个统一的 DB 来访问,提供统一的 API 接口控制数据的流入及流出,能够满足用户对不同类型数据的访问需求。电商平台唯品会的数据服务自 2019 年开始建设,在公司内经历了从无到有落地,再到为超过 30...

  • B站运维数仓建设和数据治理实践

    时间:2022-12-07 16:05:57

    本文由ITPUB整理自哔哩哔哩SRE资深研发工程师袁帅在中国系统架构师大会(SACC2022)的演讲《B站运维数仓建设和数据治理实践》,内容将围绕B站运维数仓的建设,分别从引擎侧、平台侧和业务侧展开介绍,分享在落地实践中面临的挑战和问题。随着B站业务的高速发展,公司内部业务、基础架构和运维对于通用运...

  • 网易严选离线数仓治理实践

    时间:2022-12-07 11:06:45

    1 背景任何一个系统,为了保证其良好地运行下去,一定是需要持续的维护和治理,数仓也不例外。本文主要分享下今年严选数仓团队从规范、计存、质量、安全几块入手对现有数据资产进行的一些治理的思路和方案。网易严选是个自营品牌电商,这意味着严选的业务会覆盖C端的用户营销,商品到B端的供应链以及财务业务。业务和数...

  • 万亿数据秒级响应,Doris在360数科实时数仓中的优秀实践

    时间:2022-12-01 14:07:57

    导读:随着业务的不断发展,360数科对数据的安全性、准确性、实时性提出了更严格的要求,亟需对实时数仓架构做出优化和重构。基于此,2022年3月正式对 Apache Doris 调研并投入使用,当前已稳定支持多条业务线,支持万亿级别数据量实现秒级实时分析。360数科将通过本文与大家分享在数仓优化重构过...

  • 万亿数据秒级响应,Apache Doris 在360 数科实时数仓中的应用

    时间:2022-11-22 16:14:24

    作者|360数科中间件团队 编辑整理|SelectDB 作为以人工智能驱动的金融科技平台,360数科携手金融合作伙伴,为尚未享受到普惠金融服务的优质用户提供个性化的互联网消费金融产品,致力于成为连接用户与金融合作伙伴的科技平台。360数科旗下产品主要有 360借条、360小微贷、360分期等,截止目...

  • [hive]维度模型分类:星型模型,雪花模型,星座模型|范式|纬度建模|数仓分层

    时间:2022-11-09 18:53:51

    数仓(十八)数仓建模以及分层总结(ODS、DIM、DWD、DWS、DWT、ADS层) - 墨天轮 一、维度模型分类:星型模型,雪花模型,星座模型 1、星型模型 星型模型中只有一张事实表,以及0张或多张维度表,事实与纬度表通过主键外键相关联,维度之间不存在关联关系,当所有纬度都关联到事实表时,整个图形...

  • 在 KubeSphere 中开启新一代云原生数仓 Databend

    时间:2022-11-07 00:51:54

    作者:尚卓燃(https://github.com/PsiACE),Databend 研发工程师,Apache OpenDAL (Incubating) PPMC。 前言 Databend 是一款完全面向云对象存储的新一代云原生数据仓库,专为弹性和高效设计,为您的大规模分析需求保驾护航。Dat...

  • 数仓系列之元数据及其管理

    时间:2022-11-05 07:13:13

    元数据本文偏理论,收集整理自网络,记录学习用,不代表一家之言。概述定义元数据(Metadata)是关于数据的数据。在数据仓库系统中,元数据可以帮助数据仓库管理员和数据仓库的开发人员非常方便地找到他们所关心的数据;元数据是描述数据仓库内数据的结构和建立方法的数据,可将其按用途的不同分为两类:技术元数据...

  • 字节跳动流式数仓和实时服务分析的思考与实践

    时间:2022-10-27 16:11:15