APP推广合作
联系“鸟哥笔记小乔”
产品经理一定要了解的数仓知识
2021-11-28 10:00:00

做产品经理一定会或多或少的负责产品的数据板块工作,从基础的数据埋点到数据看板、到数据报表产品设计,以至于后面数据平台产品设计。


产品经理都需要了解数据知识,尤其是数仓和数据库的知识是非常重要的。


数据库和数仓的关系有点像:咖啡厅和星巴克的关系。两者其实是息息相关的。不过对于很多互联网公司早期都会在这方面投入资源和精力。


传统的业务数据库已经能够支持,比如以PMTalk为例


一阶段:公司刚起步,有了基础的网站和电商购买入口;只需要提供数据库、和服务器单机配置,用户能够保证购买成功即可。


对于管理者和运营来说,关心的是下单量总和、库存情况。


二阶段:随着时间和运营策略,流量越来越多。以及提供的商品越来越多,从基础性能上查询数据变得成本越来越高,同事数据颗粒度越来越粗,不能够回答出:“28女性用户会在什么时间段下单购买什么样的商品“这样的答案


三阶段:为了解决上面需求,开始提供精细化运营的数据支持。关注的问题也不再是只有总订单、总营业额,还要关注具体各个商品库存、商品退换货情况等,同时还要预测未来的订单峰值,对用户画像下的用户做商品推荐。


上面3个阶段,从简单的数据获取、到数据运营最后到数据挖掘,这都离不开数仓工作。

数据库和数仓的关系

数据库是存储数据以及具体开发工作中使用的工具,比较受欢迎的数据库有:MySQL,Oracle,SqlServer等。工作里体现的都是关系型数据库,比如我们在美团购买电影票产生的电影票支付信息、和购票记录,就是购买操作下产生的数据。


而我们在支付宝里查询的年度账单,就包含了多个维度数据,和用户业务操作没关系,是多个数据的汇总,就叫做OLAP(联机分析处理)


上面是关系数据库,在开发过程中为了方便管理,会利用面向对象的概念建里数据库表单,对象与对象之间是独立的。


但数据库是存储元数据的地方,元数据包含了业务元数据(比如订单、交易、社区发帖量)还有技术元数据(日志、埋点)等2个维度。


经过下面的流程,一个数仓才是算搭建完成,同时产品经理要了解前端应用(背后数仓原理)来完成数据报表、数据产品的设计


在开始了解数据仓库之前,我们数据处理的分类大致可以分成两大类:OLTP(联机事务处理)和OLAP(联机分析处理)。


OLTP(联机事务处理)就是操作型数据库的主要应用,更侧重于基本的、日常的事务处理,包括数据的增删改查。


OLAP(联机分析处理)就是分析型数据库的主要应用,以多维度的方式分析数据, 这个后续会整理。


两者的关系对比和区别,我在网上收集到一张图。可以查看两者的区别和优势,在开发层面上OL TP是至关重要的,方便了开发的读写操作,减少了数据的冗余。


比如下面就是数据库关系数据库和数仓下的数据库表单。


基于书下的属性建立的数据表单,比如书的作者、书的分类、书的出版编号。各自属性都是独立管理,方便开发者进行单独属性的读写操作


而基于分析查询的数据库,则会把若干的数据库合并为一张表。虽然有冗余数据,但至少在查询的效率会比前者更快。在一张表里就可以查询到所需要的数据

数据仓库是什么

数仓也是数据库的一种形态,但以面向分析的存储系统。


也就是说数仓是存数据的,企业的各种数据往里面塞,主要目的是为了有效分析数据,后续会基于它产出供分析挖掘的数据,或者数据应用需要的数。


在数仓里,会分为4个层面。从基础设施到应用层分别为下面:


数据源:数据来源,比如埋点采集,客户上报,API等、或自由服务数据。


ODS层:数据仓库源头系统的数据表通常会原封不动地存储一份,这称为ODS层, ODS层也经常会被称为准备区。ODS会做一些简单的ETL,但属于数据共享区为接下来的DW和DM提供所需要的数据源。


DW层:数据仓库明细层和数据仓库汇总层是数据仓库的主题内容。这一层的数据经过了ETL后变成了可以用的分析数据,通过维度、事件搭建的数据模型,成了DM前一环节。


DWS层(前端应用层):应用层汇总层,主要是将DWD和DWS的明细数据在hadoop平台进行汇总,然后将产生的结果同步到DWS数据库,提供给各个应用。

数据库为数据分析提供的4类数据源

在DW层面里,各种数据源中采集和存储到数据存储上,期间有可能会做一些ETL操作。数据源种类可以有多种,分为下面4类:


日志:所占份额最大,存储在备份服务器上


业务数据库:如Mysql、Oracle等数据


来自HTTP/FTP的数据:合作伙伴提供的接口


其他数据源:如Excel等或手工录入的数据


从数据源到DW的过程前,还有一个ODS过程。汇聚了各种数据源进行存储。经过ETL后才会走进DW流程。


ETL分别代表:抽取extraction、转换transformation、加载load。

(1)抽取(Extract)

从数据来源提取指定数据,数据是需要指定的,不是所有的数据都要抽取过来, 某些源数据对于分析而言没有价值,或者其可能产生的价值,远低于储存这些数据所需要的数据仓库的实现和性能上的成本,就不会抽取了。

(2)转换(Transform)

将数据转换为指定格式并进行数据清洗保证数据质量。


数据清洗,如会对不完整数据,错误数据和重复数据等脏数据进行清洗。

(3)加载(Load)

将转换过后的数据加载到目标数据仓库,加载可分为两种:


全量加载:一次对全部数据进行加载。


增量加载:一般首次需要全量加载,但是在第二次周期或者第三次周期的时候仍然全量加载的话,耗费了极大的物理和时间资源。


以上抽取、转化、加载ETL的实践具体可以用下面4个案例


空值处理:将空值替换为特定值或直接过滤掉


验证数据正确性:把不符合业务含义的数据做统一处理


规范数据格式:比如把所有日期都规范成YYYY-MM-DD的格式


数据转码:把一个源数据中用编码表示的字段通过关联编码表转换成代表其真实意义的值


数据标准统一:比如在源数据中表示男女的方式有很多种,在抽取的时候直接根据模型中定义的值做转化。


对于产品经理来说,要知道ETL其实是整个数据分析、数仓搭建最费时间的过程。首先要做数据源的收集、同时还要收集并制定各个业务方的数据需求和指标。


数据仓库有AWS,Hive等。

数仓和产品经理之间的关系

有了上面的数仓了解和数据指标,接下来产品经理要为运营、管理者等用户提供一套可以查询数据、以及基于数据挖掘获得的数据预测建议。这些以前端展示,应用工具主要就是和数据仓库不同环节的数据交互,这些应用一般可以分为4类:


数据查询和报表工具


BI即席分析工具


数据挖掘工具


各种基于数据仓库或数据集市的应用开发工具


针对数据挖掘要说明下:


数据挖掘是为管理者提供预判建议,比如618活动、双12活动应该上架什么商品、某地区用户应该开展什么样的商品活动,实际上就是数据挖掘的深度应用。


Kevin改变世界的点滴
分享到朋友圈
收藏
收藏
评分

综合评分:

我的评分
Xinstall 15天会员特权
Xinstall是专业的数据分析服务商,帮企业追踪渠道安装来源、裂变拉新统计、广告流量指导等,广泛应用于广告效果统计、APP地推与CPS/CPA归属统计等方面。
20羽毛
立即兑换
一书一课30天会员体验卡
领30天VIP会员,110+门职场大课,250+本精读好书免费学!助你提升职场力!
20羽毛
立即兑换
顺丰同城急送全国通用20元优惠券
顺丰同城急送是顺丰推出的平均1小时送全城的即时快送服务,专业安全,准时送达!
30羽毛
立即兑换
Kevin改变世界的点滴
Kevin改变世界的点滴
发表文章339
PMTalk产品经理社区发起人,《产品之光》作者。产品经理创业者的斜杠青年。
确认要消耗 0羽毛购买
产品经理一定要了解的数仓知识吗?
考虑一下
很遗憾,羽毛不足
我知道了

我们致力于提供一个高质量内容的交流平台。为落实国家互联网信息办公室“依法管网、依法办网、依法上网”的要求,为完善跟帖评论自律管理,为了保护用户创造的内容、维护开放、真实、专业的平台氛围,我们团队将依据本公约中的条款对注册用户和发布在本平台的内容进行管理。平台鼓励用户创作、发布优质内容,同时也将采取必要措施管理违法、侵权或有其他不良影响的网络信息。


一、根据《网络信息内容生态治理规定》《中华人民共和国未成年人保护法》等法律法规,对以下违法、不良信息或存在危害的行为进行处理。
1. 违反法律法规的信息,主要表现为:
    1)反对宪法所确定的基本原则;
    2)危害国家安全,泄露国家秘密,颠覆国家政权,破坏国家统一,损害国家荣誉和利益;
    3)侮辱、滥用英烈形象,歪曲、丑化、亵渎、否定英雄烈士事迹和精神,以侮辱、诽谤或者其他方式侵害英雄烈士的姓名、肖像、名誉、荣誉;
    4)宣扬恐怖主义、极端主义或者煽动实施恐怖活动、极端主义活动;
    5)煽动民族仇恨、民族歧视,破坏民族团结;
    6)破坏国家宗教政策,宣扬邪教和封建迷信;
    7)散布谣言,扰乱社会秩序,破坏社会稳定;
    8)宣扬淫秽、色情、赌博、暴力、凶杀、恐怖或者教唆犯罪;
    9)煽动非法集会、结社、游行、示威、聚众扰乱社会秩序;
    10)侮辱或者诽谤他人,侵害他人名誉、隐私和其他合法权益;
    11)通过网络以文字、图片、音视频等形式,对未成年人实施侮辱、诽谤、威胁或者恶意损害未成年人形象进行网络欺凌的;
    12)危害未成年人身心健康的;
    13)含有法律、行政法规禁止的其他内容;


2. 不友善:不尊重用户及其所贡献内容的信息或行为。主要表现为:
    1)轻蔑:贬低、轻视他人及其劳动成果;
    2)诽谤:捏造、散布虚假事实,损害他人名誉;
    3)嘲讽:以比喻、夸张、侮辱性的手法对他人或其行为进行揭露或描述,以此来激怒他人;
    4)挑衅:以不友好的方式激怒他人,意图使对方对自己的言论作出回应,蓄意制造事端;
    5)羞辱:贬低他人的能力、行为、生理或身份特征,让对方难堪;
    6)谩骂:以不文明的语言对他人进行负面评价;
    7)歧视:煽动人群歧视、地域歧视等,针对他人的民族、种族、宗教、性取向、性别、年龄、地域、生理特征等身份或者归类的攻击;
    8)威胁:许诺以不良的后果来迫使他人服从自己的意志;


3. 发布垃圾广告信息:以推广曝光为目的,发布影响用户体验、扰乱本网站秩序的内容,或进行相关行为。主要表现为:
    1)多次发布包含售卖产品、提供服务、宣传推广内容的垃圾广告。包括但不限于以下几种形式:
    2)单个帐号多次发布包含垃圾广告的内容;
    3)多个广告帐号互相配合发布、传播包含垃圾广告的内容;
    4)多次发布包含欺骗性外链的内容,如未注明的淘宝客链接、跳转网站等,诱骗用户点击链接
    5)发布大量包含推广链接、产品、品牌等内容获取搜索引擎中的不正当曝光;
    6)购买或出售帐号之间虚假地互动,发布干扰网站秩序的推广内容及相关交易。
    7)发布包含欺骗性的恶意营销内容,如通过伪造经历、冒充他人等方式进行恶意营销;
    8)使用特殊符号、图片等方式规避垃圾广告内容审核的广告内容。


4. 色情低俗信息,主要表现为:
    1)包含自己或他人性经验的细节描述或露骨的感受描述;
    2)涉及色情段子、两性笑话的低俗内容;
    3)配图、头图中包含庸俗或挑逗性图片的内容;
    4)带有性暗示、性挑逗等易使人产生性联想;
    5)展现血腥、惊悚、残忍等致人身心不适;
    6)炒作绯闻、丑闻、劣迹等;
    7)宣扬低俗、庸俗、媚俗内容。


5. 不实信息,主要表现为:
    1)可能存在事实性错误或者造谣等内容;
    2)存在事实夸大、伪造虚假经历等误导他人的内容;
    3)伪造身份、冒充他人,通过头像、用户名等个人信息暗示自己具有特定身份,或与特定机构或个人存在关联。


6. 传播封建迷信,主要表现为:
    1)找人算命、测字、占卜、解梦、化解厄运、使用迷信方式治病;
    2)求推荐算命看相大师;
    3)针对具体风水等问题进行求助或咨询;
    4)问自己或他人的八字、六爻、星盘、手相、面相、五行缺失,包括通过占卜方法问婚姻、前程、运势,东西宠物丢了能不能找回、取名改名等;


7. 文章标题党,主要表现为:
    1)以各种夸张、猎奇、不合常理的表现手法等行为来诱导用户;
    2)内容与标题之间存在严重不实或者原意扭曲;
    3)使用夸张标题,内容与标题严重不符的。


8.「饭圈」乱象行为,主要表现为:
    1)诱导未成年人应援集资、高额消费、投票打榜
    2)粉丝互撕谩骂、拉踩引战、造谣攻击、人肉搜索、侵犯隐私
    3)鼓动「饭圈」粉丝攀比炫富、奢靡享乐等行为
    4)以号召粉丝、雇用网络水军、「养号」形式刷量控评等行为
    5)通过「蹭热点」、制造话题等形式干扰舆论,影响传播秩序


9. 其他危害行为或内容,主要表现为:
    1)可能引发未成年人模仿不安全行为和违反社会公德行为、诱导未成年人不良嗜好影响未成年人身心健康的;
    2)不当评述自然灾害、重大事故等灾难的;
    3)美化、粉饰侵略战争行为的;
    4)法律、行政法规禁止,或可能对网络生态造成不良影响的其他内容。


二、违规处罚
本网站通过主动发现和接受用户举报两种方式收集违规行为信息。所有有意的降低内容质量、伤害平台氛围及欺凌未成年人或危害未成年人身心健康的行为都是不能容忍的。
当一个用户发布违规内容时,本网站将依据相关用户违规情节严重程度,对帐号进行禁言 1 天、7 天、15 天直至永久禁言或封停账号的处罚。当涉及欺凌未成年人、危害未成年人身心健康、通过作弊手段注册、使用帐号,或者滥用多个帐号发布违规内容时,本网站将加重处罚。


三、申诉
随着平台管理经验的不断丰富,本网站出于维护本网站氛围和秩序的目的,将不断完善本公约。
如果本网站用户对本网站基于本公约规定做出的处理有异议,可以通过「建议反馈」功能向本网站进行反馈。
(规则的最终解释权归属本网站所有)

我知道了
恭喜你~答对了
+5羽毛
下一次认真读哦
成功推荐给其他人
+ 10羽毛
评论成功且进入审核!审核通过后,您将获得10羽毛的奖励。分享本文章给好友阅读最高再得15羽毛~
(羽毛可至 "羽毛精选" 兑换礼品)
好友微信扫一扫
复制链接