APP推广合作
联系“鸟哥笔记小乔”
如何实现数据拉通?这几种常见的方法值得学习
2020-08-07 14:54:34

谈到大数据,我们经常会提到数据拉通。数据拉通是一个非常基本但又很关键的一个环节,在用户画像、CDP(客户数据平台)和数据中台等应用场景下时,数据拉通是大家普遍绕不开的一道关卡。那么,问题来了,什么是数据拉通?如何实现数据拉通呢?今天就来回答有关数据拉通的问题。

一、什么是数据拉通

关于数据拉通,业内并未有统一定义。这里,笔者根据自己的理解,认为数据拉通可分为两种,即广义的数据拉通和狭义的数据拉通:

所谓广义的数据拉通是指按照一定的线索或口径,采取相应的方法,打破数据壁垒、消除数据隔阂,将原本分散的数据基于一定业务逻辑统一汇聚和拼接起来。简单一句话就是将分散的数据统一汇聚和拼接起来,这里数据对应的实体范围比较宽泛,既包括某种设备,也包括用户和某个物品等。

狭义的数据拉通则是指将原本分散的用户数据统一汇聚和拼接起来,形成完整的用户信息视图的过程。狭义的数据拉通所指的实体一般仅限于用户。本文重点讨论的就是狭义的数据拉通。

不论是广义还是狭义的数据拉通,数据的汇聚和拼接都是必不可少的动作。就如同老北京的冰糖葫芦一样,一根竹签能将几个不同的糖葫芦串在一起,而数据拉通要做的事情也是要将分散的数据用一根线贯穿和连接起来。这姑且称之为数据拉通的“冰糖葫芦论”吧。 

二、为什么要做数据拉通

企业在与用户产生各种交互的过程中,会在不同渠道和触点留下相应的痕迹,然而这些数据往往都是按照不同的标识进行记录的。ID(Identifier)是指用于识别用户的标识符,在当前大数据的语境下,可以说一种ID实际上就对应了一个条线的数据,而我们则是被各种ID所标识,我们的数据就散落在各种ID对应的条线里。

事实上,各种条线是站在不同的角度来组织工作的,他们分别代表着不同的组织机构和业务单元,有的是企业内部的,有些是属于企业外部的,他们之间往往存在着数据的隔阂。如果不将这些分散在不同条线的数据统一起来,企业在进行营销和服务时,就会遇到各种问题和麻烦。概括起来,需要做数据拉通的理由主要来自于三个方面:

1、数据资产沉淀的需要

对于企业而言,当进入数字化转型的战场后,数据资产的战略地位日益凸显,对数据资产的集中管理和全面整合就成为必须,实现数据互连互通是建立各类大数据平台的基础,类似CDP平台和数据中台就是数据资产沉淀的利器。数据拉通能消除数据壁垒,减少信息不对称,将分散的数据进行有序的串联和拼接,对于企业长期进行数据资产经营具有重要意义。

2、完善用户画像的需要

对于服务于C端用户的企业而言,渠道的碎片化无疑增加了数字化营销的难度。用户在不同的渠道和触点上随机穿梭,想要在营销策略上做到不重不漏实在太难,因此需要将用户在不同渠道上的标识拉通,以此来识别同一用户,从而消除数据孤岛,建立更完整的用户画像。这样既能对用户的数据资产进行统一化规整,也能全方位对用户旅程和行为模式进行深入洞察。

3、开展精细化运营的需要

    数据拉通除了有利于企业的数据资产沉淀、建立更完善的用户画像外,还能在对用户的精准营销和个性化服务上发挥重要作用。在精准营销方面,通过数据拉通,能从横断面全方位了解用户在各个渠道和触点上的活动轨迹与行为特征,据此在营销策略制定时有助于营销资源的合理分配,可以避免对同一用户在不同渠道的重复营销,减少不必要的资源浪费,还能消除营销盲区,提高营销资源的利用率;在个性化服务方面,数据拉通后可以输出更完整的用户画像模型,企业可据此为某些用户制定个性化的服务策略,提供更精准有效的服务,对于维系用户、提升用户忠诚度也是大有裨益的。 

三、数据拉通有哪几种方法

那么,到底有哪些方法可以实现数据拉通呢?常用的数据拉通方法,根据拉通的精准度可以分为两大类:精准拉通和模糊拉通。其中,精准拉通又分为强ID直接拉通和第三方助力拉通,模糊拉通又分为基于行为关联度的ID-Mapping、基于用户兴趣的聚类与合并。

所谓精准拉通是指通过相应的技术手段实现数据拉通后能取得较高的准确率。而模糊拉通则是指通过一定的模型或算法识别两个关联ID的关联概率,在此基础上生成一个Super_ID实现了数据拉通,但用户拉通错误的概率较高。以下对数据拉通的方法逐一做个介绍。

1、 ID直接拉通

对用户出现在不同触点下的ID进行关联,可形成一个用户的统一ID视图,进而得到一个全局性的Super_ID,以标识一个唯一的用户,并由此建立Super_ID与其它ID的相互映射关系。如下图所示,用户的手机号和OpenID就是一种强ID,通过手机号和OpenID能将渠道1、渠道2和渠道3上的用户数据贯穿起来,形成全局性Super_ID下的统一ID视图。这种直接通过强ID实现数据拉通的方式对技术要求并不高,在了解清楚各数据源的字段结构后,一般只需要做数据源的清洗、去重和关联即可将其打通。

2、 第三方借力拉通

在某些情况下,光靠企业自身的数据是很难实现数据拉通的。例如,品牌主投放了大量的媒体广告,产生了曝光和点击数据,这些数据通过设备ID来标识用户。在广告投放的同时,品牌主在天猫、京东等电商平台上收到了大量的订单。品牌主可以从合作的媒体渠道那里得到广告内容与广告位、曝光和点击的数据,但是如果想进一步知晓哪些手机号码的用户在何种电商平台产生了订单,则还需要借助第三方电商平台的数据才可获得。品牌主一般不能同时具备设备ID和手机号的关联关系,这种情况下想要拉通数据只能借助第三方的数据能力。

目前市场上倒是有一些提供第三方数据并帮助品牌主进行数据拉通的服务商,建议品牌主在考核该类服务商时既要看拉通率、准确率等技术指标,还要注重其数据服务的合规性。

3、  基于行为关联度的ID-Mapping

在没有充足的Mapping预算、第一方数据源只能拉通一定比例的ID且存在大量数据无法打通的情况下,可以考虑采用ID-Mapping的方式作为补充解决方案。

基于行为关联度的ID-Mapping的基本原理是根据机器学习模型预测两个或多个ID之间的关联概率,关联概率较高的ID则可默认其对应一个用户、生成一个Super_ID,这样就能把关联概率较高的ID下的数据进行拼接打通。如下图所示,当ID1、 ID2 和ID3对应的行为相似度非常高,都跟篮球高度相关、都与准备购买斯伯丁篮球有关联,而且又是处于同一个IP地址之下,可以大概率认为三个ID对应的是同一个人,可生成为一个Super_ID,将三个ID对应的数据像糖葫芦一样串起来,从而实现数据的贯通。

以上只是基于行为关联度做ID-Mapping的一个逻辑举例,为提高判断的准确度,可以继续为模型添加更多的判断维度,一般来说,纳入的判断维度越多、准确度就越高,但能够关联打通的数据比例就会下降。基于行为关联度的ID-Mapping适用于对可信度要求不高的推荐类场景,即使识别错误影响也比较小。但对于电商的短信通知服务等,如果识别错误,那么导致的用户体验则会非常差。

4、 基于用户兴趣的聚类与合并

“物以类聚,人以群分”,基于用户兴趣可以做相似用户的聚类和合并。例如:基于用户的上网时间偏好、网址访问偏好、点击行为特征、浏览行为偏好、APP使用偏好、社交账号偏好等,为每个用户提取上千个特征之后,进行相似用户的聚类。聚类中选择类中心附近的用户,再加上一些辅助准备进行判定,就可以把用户合并起来。

一般说来,基于用户兴趣的聚类与合并可以大幅度降低ID总量,但出现数据拉通错误的概率可能较高。

以上四种方式各有优缺点,综合比较如下:

image.png


总之,精准拉通追求的是数据的准确性,而模糊拉通则更注重高合并和高去重,采用何种数据拉通方式,企业需要在追求合并和准确性之间进行平衡。 

 四、数据拉通有哪些注意事项

关于数据拉通需要注意的地方,简单提示两点:

1、   ID之间是多对多的关系

很多情况下,ID之间并不是一对一的关系。以最常用的手机号码与设备号IMEI之间的对应关系为例,手机号与IMEI是多对多的关系。比如:如果换了手机号但没有换手机,则不同的手机号会对应相同的IMEI号;如果换了手机,手机号码没有改变,则相同的手机号会对应不同的IMEI号;如果再考虑一些异常情况,比如“羊毛党”会用同一手机更换不同的手机号来获取品牌主或平台上的活动优惠,这也会产生同样的IMEI号对应多个手机号码的情况。有数据统计显示,国内手机号码与IMEI号之间为一对一的比例大约在76%,也就是说对于品牌主来说可能会有24%的曝光机会被重复浪费了。基于手机号与IMEI号之间是这种对应关系的情况,企业在做数字营销时,应当选取用户最常用的设备进行曝光,这样不仅可以保证实际触达率,还能减少不必要的重复曝光。 

2、   ID持久化有一定的时效性

对于企业来说,都是希望能延长用户的生命周期,与用户建立持久的联系。然而,实际情况下,用户的ID确实是不稳定的。比如:Cookie ID 的有效期一般是1个月,IMEI有效期一般是1-2年。一些大数据公司也在试图做一些用户ID持久化的工作,比如在用户设备中植入某个持久ID,这样就可将改变后的ID关联到持久ID下,从而维护一个稳定的用户关系,但是随着安卓和苹果操作系统对数据获取的把控日趋严格,对非硬件厂商来说,ID持久化的难度也在加大。同时,ID都有一定时效性的事实也要求企业在做会员体系建设时要不定期的进行数据的更新和维护。

 -END-




鸟哥笔记,新媒体运营,麋鹿先生Sky,小红书,总结,分享

运营那些事儿
分享到朋友圈
收藏
收藏
评分

综合评分:

我的评分
Xinstall 15天会员特权
Xinstall是专业的数据分析服务商,帮企业追踪渠道安装来源、裂变拉新统计、广告流量指导等,广泛应用于广告效果统计、APP地推与CPS/CPA归属统计等方面。
20羽毛
立即兑换
一书一课30天会员体验卡
领30天VIP会员,110+门职场大课,250+本精读好书免费学!助你提升职场力!
20羽毛
立即兑换
顺丰同城急送全国通用20元优惠券
顺丰同城急送是顺丰推出的平均1小时送全城的即时快送服务,专业安全,准时送达!
30羽毛
立即兑换
运营那些事儿
运营那些事儿
发表文章43455
确认要消耗 0羽毛购买
如何实现数据拉通?这几种常见的方法值得学习吗?
考虑一下
很遗憾,羽毛不足
我知道了

我们致力于提供一个高质量内容的交流平台。为落实国家互联网信息办公室“依法管网、依法办网、依法上网”的要求,为完善跟帖评论自律管理,为了保护用户创造的内容、维护开放、真实、专业的平台氛围,我们团队将依据本公约中的条款对注册用户和发布在本平台的内容进行管理。平台鼓励用户创作、发布优质内容,同时也将采取必要措施管理违法、侵权或有其他不良影响的网络信息。


一、根据《网络信息内容生态治理规定》《中华人民共和国未成年人保护法》等法律法规,对以下违法、不良信息或存在危害的行为进行处理。
1. 违反法律法规的信息,主要表现为:
    1)反对宪法所确定的基本原则;
    2)危害国家安全,泄露国家秘密,颠覆国家政权,破坏国家统一,损害国家荣誉和利益;
    3)侮辱、滥用英烈形象,歪曲、丑化、亵渎、否定英雄烈士事迹和精神,以侮辱、诽谤或者其他方式侵害英雄烈士的姓名、肖像、名誉、荣誉;
    4)宣扬恐怖主义、极端主义或者煽动实施恐怖活动、极端主义活动;
    5)煽动民族仇恨、民族歧视,破坏民族团结;
    6)破坏国家宗教政策,宣扬邪教和封建迷信;
    7)散布谣言,扰乱社会秩序,破坏社会稳定;
    8)宣扬淫秽、色情、赌博、暴力、凶杀、恐怖或者教唆犯罪;
    9)煽动非法集会、结社、游行、示威、聚众扰乱社会秩序;
    10)侮辱或者诽谤他人,侵害他人名誉、隐私和其他合法权益;
    11)通过网络以文字、图片、音视频等形式,对未成年人实施侮辱、诽谤、威胁或者恶意损害未成年人形象进行网络欺凌的;
    12)危害未成年人身心健康的;
    13)含有法律、行政法规禁止的其他内容;


2. 不友善:不尊重用户及其所贡献内容的信息或行为。主要表现为:
    1)轻蔑:贬低、轻视他人及其劳动成果;
    2)诽谤:捏造、散布虚假事实,损害他人名誉;
    3)嘲讽:以比喻、夸张、侮辱性的手法对他人或其行为进行揭露或描述,以此来激怒他人;
    4)挑衅:以不友好的方式激怒他人,意图使对方对自己的言论作出回应,蓄意制造事端;
    5)羞辱:贬低他人的能力、行为、生理或身份特征,让对方难堪;
    6)谩骂:以不文明的语言对他人进行负面评价;
    7)歧视:煽动人群歧视、地域歧视等,针对他人的民族、种族、宗教、性取向、性别、年龄、地域、生理特征等身份或者归类的攻击;
    8)威胁:许诺以不良的后果来迫使他人服从自己的意志;


3. 发布垃圾广告信息:以推广曝光为目的,发布影响用户体验、扰乱本网站秩序的内容,或进行相关行为。主要表现为:
    1)多次发布包含售卖产品、提供服务、宣传推广内容的垃圾广告。包括但不限于以下几种形式:
    2)单个帐号多次发布包含垃圾广告的内容;
    3)多个广告帐号互相配合发布、传播包含垃圾广告的内容;
    4)多次发布包含欺骗性外链的内容,如未注明的淘宝客链接、跳转网站等,诱骗用户点击链接
    5)发布大量包含推广链接、产品、品牌等内容获取搜索引擎中的不正当曝光;
    6)购买或出售帐号之间虚假地互动,发布干扰网站秩序的推广内容及相关交易。
    7)发布包含欺骗性的恶意营销内容,如通过伪造经历、冒充他人等方式进行恶意营销;
    8)使用特殊符号、图片等方式规避垃圾广告内容审核的广告内容。


4. 色情低俗信息,主要表现为:
    1)包含自己或他人性经验的细节描述或露骨的感受描述;
    2)涉及色情段子、两性笑话的低俗内容;
    3)配图、头图中包含庸俗或挑逗性图片的内容;
    4)带有性暗示、性挑逗等易使人产生性联想;
    5)展现血腥、惊悚、残忍等致人身心不适;
    6)炒作绯闻、丑闻、劣迹等;
    7)宣扬低俗、庸俗、媚俗内容。


5. 不实信息,主要表现为:
    1)可能存在事实性错误或者造谣等内容;
    2)存在事实夸大、伪造虚假经历等误导他人的内容;
    3)伪造身份、冒充他人,通过头像、用户名等个人信息暗示自己具有特定身份,或与特定机构或个人存在关联。


6. 传播封建迷信,主要表现为:
    1)找人算命、测字、占卜、解梦、化解厄运、使用迷信方式治病;
    2)求推荐算命看相大师;
    3)针对具体风水等问题进行求助或咨询;
    4)问自己或他人的八字、六爻、星盘、手相、面相、五行缺失,包括通过占卜方法问婚姻、前程、运势,东西宠物丢了能不能找回、取名改名等;


7. 文章标题党,主要表现为:
    1)以各种夸张、猎奇、不合常理的表现手法等行为来诱导用户;
    2)内容与标题之间存在严重不实或者原意扭曲;
    3)使用夸张标题,内容与标题严重不符的。


8.「饭圈」乱象行为,主要表现为:
    1)诱导未成年人应援集资、高额消费、投票打榜
    2)粉丝互撕谩骂、拉踩引战、造谣攻击、人肉搜索、侵犯隐私
    3)鼓动「饭圈」粉丝攀比炫富、奢靡享乐等行为
    4)以号召粉丝、雇用网络水军、「养号」形式刷量控评等行为
    5)通过「蹭热点」、制造话题等形式干扰舆论,影响传播秩序


9. 其他危害行为或内容,主要表现为:
    1)可能引发未成年人模仿不安全行为和违反社会公德行为、诱导未成年人不良嗜好影响未成年人身心健康的;
    2)不当评述自然灾害、重大事故等灾难的;
    3)美化、粉饰侵略战争行为的;
    4)法律、行政法规禁止,或可能对网络生态造成不良影响的其他内容。


二、违规处罚
本网站通过主动发现和接受用户举报两种方式收集违规行为信息。所有有意的降低内容质量、伤害平台氛围及欺凌未成年人或危害未成年人身心健康的行为都是不能容忍的。
当一个用户发布违规内容时,本网站将依据相关用户违规情节严重程度,对帐号进行禁言 1 天、7 天、15 天直至永久禁言或封停账号的处罚。当涉及欺凌未成年人、危害未成年人身心健康、通过作弊手段注册、使用帐号,或者滥用多个帐号发布违规内容时,本网站将加重处罚。


三、申诉
随着平台管理经验的不断丰富,本网站出于维护本网站氛围和秩序的目的,将不断完善本公约。
如果本网站用户对本网站基于本公约规定做出的处理有异议,可以通过「建议反馈」功能向本网站进行反馈。
(规则的最终解释权归属本网站所有)

我知道了
恭喜你~答对了
+5羽毛
下一次认真读哦
成功推荐给其他人
+ 10羽毛
评论成功且进入审核!审核通过后,您将获得10羽毛的奖励。分享本文章给好友阅读最高再得15羽毛~
(羽毛可至 "羽毛精选" 兑换礼品)
好友微信扫一扫
复制链接