很可惜 T 。T 您现在还不是作者身份,不能自主发稿哦~
如有投稿需求,请把文章发送到邮箱tougao@appcpx.com,一经录用会有专人和您联系
咨询如何成为春羽作者请联系:鸟哥笔记小羽毛(ngbjxym)
作者介绍
@猫耳朵
专注于数据分析;
“数据人创作者联盟”成员。
豆豆和花花开了一家鲜花店。豆豆跟花花说:“情人节快到了,咱店都需要准备哪类情人节花束?每类花束需要准备多少?……” 花花回答道,“根据顾客分类,大致分为自信示爱、甜蜜上心、星河挚爱等共8类。前三类去年卖地特别好,今年需要提供比上年多30%的花束,……”。
豆豆说:“鲜花的保质期特别短,所以,多购买的鲜花只能从30%降至10%,既可以控制成本,又可以积攒口碑。……”
在上面案例中,花花制定采购方案首先进行顾客分类,在数据挖掘领域,可以使用无监督模型(例如k-means),也可以使用分类模型(例如KNN、决策树、逻辑回归等)将用户分群。花花预估“今年需要提供比上一年高30%的花束”,在数据挖掘领域,可以使用回归模型进行预测。
接下来,笔者就跟你浅谈一下数据挖掘。
首先,我们对机器学习和数据挖掘的定义做一下总结:
数据挖掘是指从大量的、不完全的、有噪声的、模糊的、随机的数据中通过算法搜索隐藏于其中信息的过程。换句话说,数据挖掘试图从海量数据中找到有用的信息。
机器学习是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。也就是说,机器学习就是将现实生活中的问题抽象成数学模型,利用数学方法对这个数学模型进行求解,从而解决现实生活中的问题。
1.2.1 联系
数据挖掘受到很多学科领域的影响,其中包括数据库、机器学习、统计学、领域知识及模式识别等领域。简而言之,对于数据挖掘,数据库提供数据存储技术,机器学习和统计学提供数据分析技术。
统计学经常忽视实际的效用醉心于理论的优美,因此,统计学提供的大部分技术都要在机器学习领域进一步研究,变成机器学习算法后才能进入数据挖掘领域。从这方面来讲,统计学主要是通过机器学习来对数据挖掘发挥影响,而机器学习和数据库则是数据挖掘的两大支撑。
简言之,机器学习为数据挖掘提供解决实际问题的方法,数据挖掘中算法的成功应用,说明了机器学习对算法的研究具有实际运用价值。
1.2.2 区别
从数据分析来讲,大多数数据挖掘技术都是来自于机器学习,但是机器学习研究不把海量数据作为处理对象,因此,数据挖掘需要对算法进行改造,使得算法性能和空间占用达到实用的地步。同时,数据挖掘还有自身独特的内容——关联分析。
至于,数据挖掘和模式识别,从概念上区分,数据挖掘重在发现知识,模式识别重在认识事物。
简言之,机器学习注重相关机器学习算法的理论研究和算法提升,更偏向理论和学术;数据挖掘注重运用算法或者其他某种模式解决实际问题,更偏向实践和运用。
机器学习的方法是基于数据产生的“模型”的算法,也称为“学习算法”。机器学习方法包括有监督学习、无监督学习、半监督学习和强化学习。
有监督学习指对数据的若干特征与标签之间的关联性进行建模的过程。它的主要目标是从有标签的训练数据中学习模型,以便对未知或未来的数据做出预测。
以用户是否会复购鲜花为例,可以采用监督学习算法在打过标签的(正确标识是与否)数据上训练模型,然后用该模型来预测新用户是否属于粘性用户。
标签为离散值的监督学习任务称为「分类任务」,例如上述的用户是否会复购鲜花示例。常用的分类模型包括KNN、决策树、逻辑回归等。
标签为连续值的监督学习任务称为「回归任务」,例如根据历史数据预测未来的销售额。常用的回归模型为线性回归、非线性回归和岭回归等。
注意:机器学习领域的预测变量通常称为特征,而响应变量通常称为目标变量或标签。
无监督学习指对不带任何标签的数据特征进行建模,通常被看成是一种“让数据自己介绍自己”的过程。也就是说,用无监督学习,可以在没有目标变量或奖励函数的指导下,探索数据结构来提取有意义的信息。
这类模型包括「聚类任务」和「降维任务」。其中,聚类算法可以将数据分成不同的组别,而降维算法追求用更简洁的方式表现数据。
半监督学习方法介于有监督学习和无监督学习之间,通常在数据不完整时使用。
强化学习不同于监督学习,它将学习看作是试探评价过程,以“试错”的方式进行学习,并与环境交互已获得奖惩指导行为,以其作为评价。也就是说,强调如何基于环境而行动,以取得最大化的预期利益。
此时,系统靠自身的状态和动作进行学习,从而改进行动方案以适应环境。
从数据本身来考虑,数据挖掘建模过程通常需要有理解商业、理解数据、准备数据、建模型、评估模型和部署模型6个步骤。
理解商业算是数据挖掘中最重要的一部分,在这个阶段我们需要明确商业目标、评估商业环境、确定挖掘目标以及产生一个项目计划。
简单地说,就是针对不同的业务场景,需要明白挖掘的目标是什么,需要达到什么样的效果。用大白话讲,就是你到底想干啥。
仍以鲜花店为例,为了提高销售额,店员可以帮助客户快速找到他感兴趣的花束,同时在保证用户体验的情况下,为其附加一个可接受的小饰品,比如花瓶、零食、香水等。
数据是挖掘过程的“原材料”,在数据理解过程中我们需要了解都有哪些数据,这些数据的特征是什么,可以通过对数据进行描述分析得到数据的特点。其中,了解有哪些数据尤为重要,其决定了后期工作进展的顺利程度。
比如和花店有关的数据:
1)鲜花数据:鲜花名称、鲜花品类、采购时间、采购数量、采购金额等。
2)经营数据:经营时间、预定时间、预定品类、预定人数等。
3)其他数据:是否为节假日、用户口碑、竞争对手动向、天气情况等。
在数据准备阶段我们需要对数据作出清洗、重建、合并等操作。选出要进行分析的数据,并对不符合模型输入要求的数据进行规范化操作。主要是为建模准备数据,可以从数据预处理、特征提取、特征选择等几方面出发,整理如下:
1)缺失值:由于个人隐私或设备故障导致某些观测值在某些纬度上的漏缺,通常称为缺失值。缺失值存在可能会导致模型结果的错误,所以针对缺失值可以考虑删除、众数或均值填充等解决。
2)异常值:由于远离正常样本的观测点,它们的存在同样会对模型的准确型造成影响。可以通过象限图或3sigma(正态分布)进行判断,如果是,可以考虑删除或单独处理。
3)量纲不一致:模型容易受到不同量纲的影响,因此需要通过标准化方法(通常采用归一化、Normalization之类的方法)将数据进行转换。
4)维度灾难:当数据集中包含上百乃至上千万的变量时,往往会提高模型的复杂度,从而影响模型的运行效率,所以需要采用方差分析、相关分析、主成分分析等手段实现降维。
一般情况下,预处理将占整个数据挖掘流程80%左右的时间。在保证数据“干净”的前提下,需要选出合适的模型。以下是常用的机器算法。
1)分类模型:KNN、决策树、逻辑回归等。
2)回归模型:线性回归、岭回归、支持向量回归等。
3)无监督模型:k-means等。
数据挖掘中大部分模型都不是专为解决某个问题而特制的,模型之间相互不排斥。不能说一个问题只能采用某个模型,其他的都不能用。通常来说,针对某个数据分析项目,并不存在所谓的最好的模型,在最终决定选择哪种模型之前,各种模型都尝试一下,然后再选取一个较好的。各种模型在不同的环境中,优劣会有所不同。
评估阶段主要是对建模结果进行评估,目的是选出最佳的模型,让这个模型能够更好地反映数据的真实性。并不是每一次建模都能符合我们的目标,对效果较差的结果分析原因,偶尔也会返回前面的步骤对挖掘过程重新定义。
比如,对于决策树或者逻辑回归,即使在训练集中表现良好,但在测试集中结果较差,说明该模型存在过拟合。
建立的模型需要解决实际的问题,它还包括了监督、产生报表和重新评估模型等过程。很多时候建模一般使用spss、python、r等,在建模的过程中只考虑模型的可用性,在生产环境中通常会利用Java或C++等语言将模型改写,从而提高运行性能。
-END-
本文为作者独立观点,不代表鸟哥笔记立场,未经允许不得转载。
《鸟哥笔记版权及免责申明》 如对文章、图片、字体等版权有疑问,请点击 反馈举报
Powered by QINGMOB PTE. LTD. © 2010-2022 上海青墨信息科技有限公司 沪ICP备2021034055号-6
我们致力于提供一个高质量内容的交流平台。为落实国家互联网信息办公室“依法管网、依法办网、依法上网”的要求,为完善跟帖评论自律管理,为了保护用户创造的内容、维护开放、真实、专业的平台氛围,我们团队将依据本公约中的条款对注册用户和发布在本平台的内容进行管理。平台鼓励用户创作、发布优质内容,同时也将采取必要措施管理违法、侵权或有其他不良影响的网络信息。
一、根据《网络信息内容生态治理规定》《中华人民共和国未成年人保护法》等法律法规,对以下违法、不良信息或存在危害的行为进行处理。
1. 违反法律法规的信息,主要表现为:
1)反对宪法所确定的基本原则;
2)危害国家安全,泄露国家秘密,颠覆国家政权,破坏国家统一,损害国家荣誉和利益;
3)侮辱、滥用英烈形象,歪曲、丑化、亵渎、否定英雄烈士事迹和精神,以侮辱、诽谤或者其他方式侵害英雄烈士的姓名、肖像、名誉、荣誉;
4)宣扬恐怖主义、极端主义或者煽动实施恐怖活动、极端主义活动;
5)煽动民族仇恨、民族歧视,破坏民族团结;
6)破坏国家宗教政策,宣扬邪教和封建迷信;
7)散布谣言,扰乱社会秩序,破坏社会稳定;
8)宣扬淫秽、色情、赌博、暴力、凶杀、恐怖或者教唆犯罪;
9)煽动非法集会、结社、游行、示威、聚众扰乱社会秩序;
10)侮辱或者诽谤他人,侵害他人名誉、隐私和其他合法权益;
11)通过网络以文字、图片、音视频等形式,对未成年人实施侮辱、诽谤、威胁或者恶意损害未成年人形象进行网络欺凌的;
12)危害未成年人身心健康的;
13)含有法律、行政法规禁止的其他内容;
2. 不友善:不尊重用户及其所贡献内容的信息或行为。主要表现为:
1)轻蔑:贬低、轻视他人及其劳动成果;
2)诽谤:捏造、散布虚假事实,损害他人名誉;
3)嘲讽:以比喻、夸张、侮辱性的手法对他人或其行为进行揭露或描述,以此来激怒他人;
4)挑衅:以不友好的方式激怒他人,意图使对方对自己的言论作出回应,蓄意制造事端;
5)羞辱:贬低他人的能力、行为、生理或身份特征,让对方难堪;
6)谩骂:以不文明的语言对他人进行负面评价;
7)歧视:煽动人群歧视、地域歧视等,针对他人的民族、种族、宗教、性取向、性别、年龄、地域、生理特征等身份或者归类的攻击;
8)威胁:许诺以不良的后果来迫使他人服从自己的意志;
3. 发布垃圾广告信息:以推广曝光为目的,发布影响用户体验、扰乱本网站秩序的内容,或进行相关行为。主要表现为:
1)多次发布包含售卖产品、提供服务、宣传推广内容的垃圾广告。包括但不限于以下几种形式:
2)单个帐号多次发布包含垃圾广告的内容;
3)多个广告帐号互相配合发布、传播包含垃圾广告的内容;
4)多次发布包含欺骗性外链的内容,如未注明的淘宝客链接、跳转网站等,诱骗用户点击链接
5)发布大量包含推广链接、产品、品牌等内容获取搜索引擎中的不正当曝光;
6)购买或出售帐号之间虚假地互动,发布干扰网站秩序的推广内容及相关交易。
7)发布包含欺骗性的恶意营销内容,如通过伪造经历、冒充他人等方式进行恶意营销;
8)使用特殊符号、图片等方式规避垃圾广告内容审核的广告内容。
4. 色情低俗信息,主要表现为:
1)包含自己或他人性经验的细节描述或露骨的感受描述;
2)涉及色情段子、两性笑话的低俗内容;
3)配图、头图中包含庸俗或挑逗性图片的内容;
4)带有性暗示、性挑逗等易使人产生性联想;
5)展现血腥、惊悚、残忍等致人身心不适;
6)炒作绯闻、丑闻、劣迹等;
7)宣扬低俗、庸俗、媚俗内容。
5. 不实信息,主要表现为:
1)可能存在事实性错误或者造谣等内容;
2)存在事实夸大、伪造虚假经历等误导他人的内容;
3)伪造身份、冒充他人,通过头像、用户名等个人信息暗示自己具有特定身份,或与特定机构或个人存在关联。
6. 传播封建迷信,主要表现为:
1)找人算命、测字、占卜、解梦、化解厄运、使用迷信方式治病;
2)求推荐算命看相大师;
3)针对具体风水等问题进行求助或咨询;
4)问自己或他人的八字、六爻、星盘、手相、面相、五行缺失,包括通过占卜方法问婚姻、前程、运势,东西宠物丢了能不能找回、取名改名等;
7. 文章标题党,主要表现为:
1)以各种夸张、猎奇、不合常理的表现手法等行为来诱导用户;
2)内容与标题之间存在严重不实或者原意扭曲;
3)使用夸张标题,内容与标题严重不符的。
8.「饭圈」乱象行为,主要表现为:
1)诱导未成年人应援集资、高额消费、投票打榜
2)粉丝互撕谩骂、拉踩引战、造谣攻击、人肉搜索、侵犯隐私
3)鼓动「饭圈」粉丝攀比炫富、奢靡享乐等行为
4)以号召粉丝、雇用网络水军、「养号」形式刷量控评等行为
5)通过「蹭热点」、制造话题等形式干扰舆论,影响传播秩序
9. 其他危害行为或内容,主要表现为:
1)可能引发未成年人模仿不安全行为和违反社会公德行为、诱导未成年人不良嗜好影响未成年人身心健康的;
2)不当评述自然灾害、重大事故等灾难的;
3)美化、粉饰侵略战争行为的;
4)法律、行政法规禁止,或可能对网络生态造成不良影响的其他内容。
二、违规处罚
本网站通过主动发现和接受用户举报两种方式收集违规行为信息。所有有意的降低内容质量、伤害平台氛围及欺凌未成年人或危害未成年人身心健康的行为都是不能容忍的。
当一个用户发布违规内容时,本网站将依据相关用户违规情节严重程度,对帐号进行禁言 1 天、7 天、15 天直至永久禁言或封停账号的处罚。当涉及欺凌未成年人、危害未成年人身心健康、通过作弊手段注册、使用帐号,或者滥用多个帐号发布违规内容时,本网站将加重处罚。
三、申诉
随着平台管理经验的不断丰富,本网站出于维护本网站氛围和秩序的目的,将不断完善本公约。
如果本网站用户对本网站基于本公约规定做出的处理有异议,可以通过「建议反馈」功能向本网站进行反馈。
(规则的最终解释权归属本网站所有)