很可惜 T 。T 您现在还不是作者身份,不能自主发稿哦~
如有投稿需求,请把文章发送到邮箱tougao@appcpx.com,一经录用会有专人和您联系
咨询如何成为春羽作者请联系:鸟哥笔记小羽毛(ngbjxym)
作 者丨Pylin Chuapetcharasopon,加拿大waterloo工业与组织心理学博士
翻 译丨杨冬,GHR环球人力资源智库签约作者,汉能全球人力资源总部OD高级经理,南开大学MBA,经授权翻译发布
终于,我们可以开始谈到人力分析的“干货”——
分析流程本身了,这也是我结合个人理解,
与工业与组织心理学会(SIOP)年会人力分析与大数据主题会议的讨论,
所进行思考的第三个部分。
在上一篇文章中,
我们探讨了组织的数据成熟度水平以及生成人力分析相关问题。
所以,这篇文章,我们将继续深入人力分析的实际流程。
总体而言,这一流程由4个步骤所构成,分别对应于下图中的3~6步:
或许有人会说,人力分析困难之处首先在于取得数据——
很可能那些我们需要的数据根本不存在,因此需要花费时间来收集;
也可能组织在其数据成熟度上处于较低的层级(见本系列文章之二),
因而并未在跨职能部门之间分享数据;
又或是人力分析团队向其他部门提出数据需求时遇到了困难,遭遇阻力或面临他人的戒备,
例如:你需要这些数据的原因是什么?你希望使用数据做什么?你们的分析结果会暴露我们团队的问题吗?
又或者,其他部门并不能理解开展分析所需要的数据要求,
“出于好意的”提供了经过整理归纳的员工汇总数据,而非个体层次的数据。
而在另外的一些时候,判断那些负责数据权限审批的人员究竟是数据的持有者还是看护者,也是一件极为困难的事。
在一次人力分析主题的研讨会中,
一位演讲嘉宾提出了下面这个评估数据获取难易程度的简要方法,
试试看,你所在的组织大约处于何种程度?
如果你通过合作方进行一些数据的收集,请确保你们双方系统的同步。
会议中提到的一个实例是某家企业将数据发送至其分析合作方进行分析,
但后来发现该合作方的系统只能够打开70万条员工数据,但该公司的员工总数却达到了100万人!
另外出现的一些情况是,
数据文件过大导致无法通过企业内部邮件系统进行传递,
因此,企业需要具备恰当的系统与技术能力以传输文件,特别是高度机密的大容量文件。
你取得的哪种类型的数据?
就数据本身而言,你可以收集原始数据或次要数据:
原始数据包括了更新一些的数据集,
例如,当企业开展员工敬业度调研时,通过调研直接取得的即是原始数据;
此外,同样有所帮助的是,
如果在实验设计时能够考虑到后续的数据收集,数据背后的“原因”便能更加容易的推断出来;
另外一种获取原始数据的方式是通过测评。
次要数据是那些已经存在的数据,例如那些在员工加入企业时即录入至HR系统的人口统计信息。
数据也可以分为结构化数据与非结构化数据。
结构化数据是工业与组织心理学家最常使用的,
这些定量的数据通常服务于某个预先定义的数据模型,并被有秩序的排列;
而对非结构化的数据,一些IO心理学家可能会在进行定性分析中使用,
但总体而言,他们并没有预先定义的数据模型,
一些非结构化的HR数据可能来自于简历、求职信,Twitter,领英、博客、视频等等。
尽管较结构化数据而言,非结构化数据可能更加难以取得,
但其中的关键是在非结构化数据的基础上开发某种形式的结构,
以帮助分析,也可能需要一些技术手段将非结构化数据转化为结构化的数据。
在数据分析所有必要的组成部分中,
最无趣但又必不可少的环节就是对数据的清理,
在这里我将数据整合作为了数据清理的一部分。
1) 数据整合
如果你的数据来自于多个不同的数据库,
那么第一步就是对这些来自多种渠道数据的混合与整理。
这一环节可能会涉及最为原始的人工数据操作,
例如在不同excel表格中进行数据的剪切与复制……
尽管这些操作本不应该出现;
接下来,你可能会用到SPSS对数据进行合并,
并通过SPSS Modeler之类的数据分析插件对数据执行ETL(提取、转换与载入)操作。
如果你足够幸运的话,你也许会在数据方面得到IT部门的帮助,
我在RCMP就有这样一段幸运的经历——
我的主管与IT部门的一位负责人保持着持久与良好的关系,
他负责针对各类数据方面的需求进行代码编写,以整合来自于7个不同数据源的数据;
而另外一面则是SIOP会议中一位顾问提到在他所在的组织中有47个系统,
显然需要有人帮助他编写程序或算法来完成数据的整合。
在数据整合方面我们可能会用到的工具包括IBM SPSS Modeler和Alteryx,
我看过一段Alteryx的演示,它并不需要复杂的编程,只需要经过简单的拖放式操作,就可以直接生成报告。
此外,更好的消息是Alteryx与Tableau有着非常好的兼容性,
我会在下文对Tableau这一数据可视化程序进行更加详细的介绍。
2) 数据清理
在开始数据整合之前或完成之后,都需要某种形式上的、令人畏惧的数据清理工作——
这对于大多数IO心理学家而言并不陌生,
因为这即使不是我们的主要工作内容,我们也有相当的时间投入其中。
它是令数据达到能够被分析程度的一个笼统的阶段,
包括了诸如确保某些字段的不同表述指向同一个结果(例如如何确保程序/算法将Jane Smith与Jane L. Smith视为同一个人?)、
数据格式的统一(例如完整或省略的地址数据:“154 Bright Street,Unit 54”与“54-154 Bright St.”)、
将字符串变量重新编码为数值变量、处理不完整的数据(例如通过采用数据完全随机缺失
对“数据清理”的其他表述是“数据抬杠”或“数据保洁”,
它已经被视为耗费数据科学家精力的头号敌人,
你能从纽约时报的这篇文章中作进一步的了解。
此外,关于数据清理,请尽可能多的采用数据转换规则的自动设计,
并在理想情况下使用高扩展性的运行库以满足未来的延伸需求。
在对多个组织间多种数据源数据进行整合的过程中,
一项特殊的问题是针对那些“重复性变量”。
一位顾问列举的实例是,
一个被称作为“Start”的变量出现在了8个来自于不同职能部门的数据集之中,
并且拥有完全不同的含义——
这也是更为宏大的“数据治理”范畴中的一部分,将在未来的跨部门沟通中占据相当的比重。
因此,对不同职能部门的员工进行数据库创建与数据录入方面的培训、
对业务领导者进行变量名称及命名原则的介绍都变得尤为重要——
未来,它们都将为人力分析提供帮助。
毫无疑问,数据分析是整个分析过程中最有趣的部分!
因为这并不是一个讲解数据分析方法的讲座,
所以对这一部分的介绍可能并不十分详细,
但我仍然希望给予几处提醒以及源自数据分析会议的一些建议。
下面的一些建议可能仅仅是统计分析的基础,但他们仍然是保证分析准确性的关键。
特别是在面对大数据时,
分析团队很可能会被海量的数据以及数据集之中的所有分析对象所淹没,
然而,其中的关键是由业务问题指导数据分析。
不要尝试进行所有变量之间的相关性分析,而是聚焦到特定的问题——
特别是那些为业务战略带来直接影响的问题,这或许是对于在业务情境下进行数据分析时,最应当铭记在心的建议。
这也是在通常情况下心理学家要优于数据科学家的原因——
前者更擅长于自上而下、演绎式的理论推理,
而后者则在自下而上、归纳式的模式上建长,尽管它们都是得出“真相”的必要方法。
与之相关的是,特别在面对大数据时,可能会存在大量的数据噪音,
一个优秀的分析师应该懂得辨别哪些数据应当被忽略或控制,例如干扰因子,而哪些则是真正的信号。
下图是对于数据分析一个非常好的练习,
一定要在分析之前,将数据所对应的图像描绘出来,
这也是为了排查异常数据、并更为直观的了解数据模式。
在参加分析研讨会之前,我对“安斯库姆四重奏”并不熟悉,
但它非常直观的展现了图示对于数据分析的重要性,而不是仅仅观察描述性统计分析。
例如,尽管每一组数据的描述性统计分析结果都是相同的(均值=9,标准差=3.32等),
但不同数据集之间的关系模式、以及相应的数据解释都截然不同。
对于相关性研究,另外一个注意事项是时间效应(Time Effects)。
例如,由于随着时间推移变量A与变量B都在增大,
看上去似乎二者具有相关性,但也有可能是这样的情况:
A、B都是时间的独立共变量。
在这一关系中,时间是一项混杂的第三变量,
当对齐加以控制时,A、B之间的相关性可能会很弱。
P值可能并不重要。
特别是当你有庞大的雇员规模(例如10万人)时,这个效应会更加显著,
即使计算的结果表明仅具备一定的统计显著性,
甚至是“不显著”的,你在现实世界里的感受都会十分明显。
此外,P值建立在推论统计基础之上,它假定你研究的样本是来自于更大总体的随机有限样本。
然而,一旦你拥有源自该总体全体成员的数据,
例如来自于你所在组织中所有员工的数据,你可能不会将这些数据概括为一个更大的样本。
在这一情况下,分析将仅仅成为一种模式的识别,而相关性则总是“显著”的。
这一问题同样在我出席的分析研讨会中被提及,但根据网上的搜索结果,
一般而言,统计学家通常认为你是在“超总体”这一理论上有限总体模型下进行推论统计的分析,
然而在我看来,这种观点可能并不完全成立。
虽然有关这一问题的详细分析超出了本文所讨论的范围,
但一旦你迈入预测性建模的领域,你还将会继续面对推论统计分析。
除了员工数据本身,人力分析团队所提供的情境数据能够帮助高层领导者理解业务情境。
例如,招聘数据可以与地理区域间不同人口统计学分布、失业率、拥有特定学历与技能的预计毕业生、家庭收入等一并展示。
对于从事人力分析并希望扩展自身专业技能的IO心理学家,
应当深入学习那些与我们所习惯采用的统计分析类型不同的工具,
例如通常用于市场营销领域的聚类分析以及通常用于社会学或流行病学领域的生存分析,
甚至是更加困难的通常用于研究疾病传播的SIR模型。
例如,SIR模型可以用于研究对某项组织措施态度的内部传播(例如,S=易受影响的员工,I=“受感染者”或对此措施持有积极态度的员工,R=治愈<移除者>或那些曾经持有积极态度,但已不再保留此态度的员工。)
尽管在这一部分介绍了许多不同类型的分析,所应当秉持的仍然是KISS(Keepit simple, stupid保持简单,傻瓜!)原则——
如果一个简单的T检验就能回答业务问题,那就去做。
如果并没有必要,就不要仅仅是“为了使用”而使用那些有着繁杂结果、复杂而精巧的分析方法,反之亦然。
可以说,人力分析最重要的部分以及最终目的就是向高层领导者提出一些切实可行的洞见。
这一环节的目标是运用有吸引力的数据可视化手段沟通见解,并影响决策。
一条过来人的经验是,
这并不是你向高层领导者就HR业务伙伴show出满屏数字或表格、以展现你超凡的统计技术的时候;
你需要切记,这不是一场硕士/博士答辩,
你并不需要证明你才是房间里最聪明并且正确的人,
维护高层领导者的自尊心是你的职责,不要令他们觉得你在暗示他们自己的愚蠢。
有时,可能耗时6个月的数据分析结果只需要一页PPT就能够说清,
但请务必确保该结论对业务带来的有力影响。
尽管我在上文提到过KISS原则,但如果(业务问题)需要,
以复杂的统计结果进行展示说明也是完全可以的,
只要你运用一些简单的数据可视化技巧。
无论如何,底限是用尽可能最简单的方式讲述一个故事、切中要点、简洁但确保可读性、施加影响并辅助决策。
你需要令你的洞见跃然纸上、你希望show出而不仅仅是讲述你的发现。
要记住人类总体而言是一种视觉性生物,
即使是幻灯片的主题色都有可能对观众的注意力产生巨大的影响——
在商业世界,就是这么回事儿。
会议中一位顾问分享了一个有趣比喻:
令你的PPT像金·卡戴珊(Kim Kardashian)那样:简洁、过目不忘、无法回避。
对IO心理学家而言,
以业务高层领导者易于理解且切实可行的方式进行数据可视化与沟通交流,
可能并不是最为擅长的:
我们被要求以准确的术语进行表达、使用尽可能多的统计分析、学术研究也并不关心幻灯片的样子。
但就人力分析结果进行沟通则不仅要识别哪些需要或不需要进行展示,
还依赖于讲述故事与演讲技巧,这也正是艺术与科学相结合之处。
另外一项建议是,
尽管IO心理学家更倾向于使用定量的数据,
但运用定性的、开放式数据也会帮助你更好的展现并讲述你的故事。
比如,你也许识别出了数据的某种模式,当你展示这些数字时,
你就可以添加一段与之相关、来自真实受访者的对话。
最后一条忠告:
不要过度解读你的发现,要了解数据的局限以及模型间的细微差别。
例如,或许分析发现仅适用于沃尔玛超市或那些10公里内存在竞争者的店面。
另外,请注意做出预测与因果关系并不相同,模式预测并不是因果关系,
仅当开发模型所处的内外部环境、管理情境未发生变化时,预测结果才相对“精确”。
例如,如果某种模型是用于预测某个行业中特定规模员工群体的绩效表现,
那么,它很可能并无法预测另外一个行业中同样规模群体员工的绩效表现,
这一点也应当于数据沟通中铭记。
当我与沃尔玛的顾问交换意见时,他表示在通常情况下,
他们对自己模型在两年以内的预测准确性有足够的信心,
但如果必须要做出更长远的预测,置信区间将增加、确定性也会减少。
SPSS,Excel,R以及其他一些编程语言都是数据可视化方面常用的工具,
但一些人力分析从业者会使用Tableau,我尝试了试用版,它棒极了!
不需要复杂的编程(当然,还是需要使用一些语法)、加上一些小的调整,就能够做出精美的图表,我强烈推荐你试试看。
这里是我使用Tableau制作的加拿大百佳雇主的可视化数据实例。
人力分析团队面临的一个问题是:
高层管理者或其他利益相关方并不了解完成整个过程所需要的时间。
高管通常要立即看到结果,而这个过程可能会需要40~60小时,还不算上数据获取的时间。
取得数据可能会花费数月甚至数年的时间,特别是对于全球化企业。
会议中,以为顾问分享了他的经历:
由于德国在获取雇员数据方面严格的条款,
令雇员人数信息收集产生了延误,最终导致整个项目延期6个月。
所以,到底这个过程需要多长时间呢?
显然,由于这取决于数据收集的类型、组织规模等,
因此并没有一个准确的数字,但在取得数据之后,根据分析研讨会的结论,
大体上完成这一过程所需时间会按此分配:
没错,把大约80%的时间花费在数据清理上的确有些滑稽——
只有很少的时间被真正用于数据分析与可视化。
另外,提出这一分配比例的顾问还特别指出,
在使用Tableau之前,只有大约2%的时间用于数据分析,18%的时间用于数据可视化,看来它的确帮了很多的忙!
他提出的另外一项建议是,
记录每一个环节所花费的时间,并将此记录向高层领导者呈现。
或许这些数据将有利于争取更好的分析软件、系统或是更多的团队人手。
同时,如实客观的向利益相关方展示人力分析的流程也有助于帮助其避免提出不合理的时限要求。(end)
本文为作者独立观点,不代表鸟哥笔记立场,未经允许不得转载。
《鸟哥笔记版权及免责申明》 如对文章、图片、字体等版权有疑问,请点击 反馈举报
Powered by QINGMOB PTE. LTD. © 2010-2022 上海青墨信息科技有限公司 沪ICP备2021034055号-6
我们致力于提供一个高质量内容的交流平台。为落实国家互联网信息办公室“依法管网、依法办网、依法上网”的要求,为完善跟帖评论自律管理,为了保护用户创造的内容、维护开放、真实、专业的平台氛围,我们团队将依据本公约中的条款对注册用户和发布在本平台的内容进行管理。平台鼓励用户创作、发布优质内容,同时也将采取必要措施管理违法、侵权或有其他不良影响的网络信息。
一、根据《网络信息内容生态治理规定》《中华人民共和国未成年人保护法》等法律法规,对以下违法、不良信息或存在危害的行为进行处理。
1. 违反法律法规的信息,主要表现为:
1)反对宪法所确定的基本原则;
2)危害国家安全,泄露国家秘密,颠覆国家政权,破坏国家统一,损害国家荣誉和利益;
3)侮辱、滥用英烈形象,歪曲、丑化、亵渎、否定英雄烈士事迹和精神,以侮辱、诽谤或者其他方式侵害英雄烈士的姓名、肖像、名誉、荣誉;
4)宣扬恐怖主义、极端主义或者煽动实施恐怖活动、极端主义活动;
5)煽动民族仇恨、民族歧视,破坏民族团结;
6)破坏国家宗教政策,宣扬邪教和封建迷信;
7)散布谣言,扰乱社会秩序,破坏社会稳定;
8)宣扬淫秽、色情、赌博、暴力、凶杀、恐怖或者教唆犯罪;
9)煽动非法集会、结社、游行、示威、聚众扰乱社会秩序;
10)侮辱或者诽谤他人,侵害他人名誉、隐私和其他合法权益;
11)通过网络以文字、图片、音视频等形式,对未成年人实施侮辱、诽谤、威胁或者恶意损害未成年人形象进行网络欺凌的;
12)危害未成年人身心健康的;
13)含有法律、行政法规禁止的其他内容;
2. 不友善:不尊重用户及其所贡献内容的信息或行为。主要表现为:
1)轻蔑:贬低、轻视他人及其劳动成果;
2)诽谤:捏造、散布虚假事实,损害他人名誉;
3)嘲讽:以比喻、夸张、侮辱性的手法对他人或其行为进行揭露或描述,以此来激怒他人;
4)挑衅:以不友好的方式激怒他人,意图使对方对自己的言论作出回应,蓄意制造事端;
5)羞辱:贬低他人的能力、行为、生理或身份特征,让对方难堪;
6)谩骂:以不文明的语言对他人进行负面评价;
7)歧视:煽动人群歧视、地域歧视等,针对他人的民族、种族、宗教、性取向、性别、年龄、地域、生理特征等身份或者归类的攻击;
8)威胁:许诺以不良的后果来迫使他人服从自己的意志;
3. 发布垃圾广告信息:以推广曝光为目的,发布影响用户体验、扰乱本网站秩序的内容,或进行相关行为。主要表现为:
1)多次发布包含售卖产品、提供服务、宣传推广内容的垃圾广告。包括但不限于以下几种形式:
2)单个帐号多次发布包含垃圾广告的内容;
3)多个广告帐号互相配合发布、传播包含垃圾广告的内容;
4)多次发布包含欺骗性外链的内容,如未注明的淘宝客链接、跳转网站等,诱骗用户点击链接
5)发布大量包含推广链接、产品、品牌等内容获取搜索引擎中的不正当曝光;
6)购买或出售帐号之间虚假地互动,发布干扰网站秩序的推广内容及相关交易。
7)发布包含欺骗性的恶意营销内容,如通过伪造经历、冒充他人等方式进行恶意营销;
8)使用特殊符号、图片等方式规避垃圾广告内容审核的广告内容。
4. 色情低俗信息,主要表现为:
1)包含自己或他人性经验的细节描述或露骨的感受描述;
2)涉及色情段子、两性笑话的低俗内容;
3)配图、头图中包含庸俗或挑逗性图片的内容;
4)带有性暗示、性挑逗等易使人产生性联想;
5)展现血腥、惊悚、残忍等致人身心不适;
6)炒作绯闻、丑闻、劣迹等;
7)宣扬低俗、庸俗、媚俗内容。
5. 不实信息,主要表现为:
1)可能存在事实性错误或者造谣等内容;
2)存在事实夸大、伪造虚假经历等误导他人的内容;
3)伪造身份、冒充他人,通过头像、用户名等个人信息暗示自己具有特定身份,或与特定机构或个人存在关联。
6. 传播封建迷信,主要表现为:
1)找人算命、测字、占卜、解梦、化解厄运、使用迷信方式治病;
2)求推荐算命看相大师;
3)针对具体风水等问题进行求助或咨询;
4)问自己或他人的八字、六爻、星盘、手相、面相、五行缺失,包括通过占卜方法问婚姻、前程、运势,东西宠物丢了能不能找回、取名改名等;
7. 文章标题党,主要表现为:
1)以各种夸张、猎奇、不合常理的表现手法等行为来诱导用户;
2)内容与标题之间存在严重不实或者原意扭曲;
3)使用夸张标题,内容与标题严重不符的。
8.「饭圈」乱象行为,主要表现为:
1)诱导未成年人应援集资、高额消费、投票打榜
2)粉丝互撕谩骂、拉踩引战、造谣攻击、人肉搜索、侵犯隐私
3)鼓动「饭圈」粉丝攀比炫富、奢靡享乐等行为
4)以号召粉丝、雇用网络水军、「养号」形式刷量控评等行为
5)通过「蹭热点」、制造话题等形式干扰舆论,影响传播秩序
9. 其他危害行为或内容,主要表现为:
1)可能引发未成年人模仿不安全行为和违反社会公德行为、诱导未成年人不良嗜好影响未成年人身心健康的;
2)不当评述自然灾害、重大事故等灾难的;
3)美化、粉饰侵略战争行为的;
4)法律、行政法规禁止,或可能对网络生态造成不良影响的其他内容。
二、违规处罚
本网站通过主动发现和接受用户举报两种方式收集违规行为信息。所有有意的降低内容质量、伤害平台氛围及欺凌未成年人或危害未成年人身心健康的行为都是不能容忍的。
当一个用户发布违规内容时,本网站将依据相关用户违规情节严重程度,对帐号进行禁言 1 天、7 天、15 天直至永久禁言或封停账号的处罚。当涉及欺凌未成年人、危害未成年人身心健康、通过作弊手段注册、使用帐号,或者滥用多个帐号发布违规内容时,本网站将加重处罚。
三、申诉
随着平台管理经验的不断丰富,本网站出于维护本网站氛围和秩序的目的,将不断完善本公约。
如果本网站用户对本网站基于本公约规定做出的处理有异议,可以通过「建议反馈」功能向本网站进行反馈。
(规则的最终解释权归属本网站所有)