如何用决策树模型做数据分析?

访客4年前黑客工具844

编辑导语:在这个大数据时代,数据对付各行各业的重要性不问可知,因此有越来越多的企业开始重视而且运用数据阐明。数据阐明的要领有许多种,本日,本文作者为我们先容了决定树模子的阐明要领,让我们一起来看看如何用决定树模子做数据阐明吧。

如何用决定树模子做数据阐明?

在日常事情中,许多时候城市用到数据阐明的要领,决定树模子看起来很是简朴,但实际上它的十分重要;本文作者分享了关于如何用决定树模子做数据阐明的要领,我们一起来进修一下。

一、什么是决定树?

决定树模子本质是一颗由多个判定节点构成的树。在树的每个节点做参数判定,进而在树的最末枝(叶结点)可以或许对所体贴变量的取值作出更佳判定。

凡是,一棵决定树包括一个根结点,若干内部节点和若干叶结点,叶结点对应决定分类功效。分支做判定,叶子下结论。

我们看一个简朴的决定树的模子,通过动物的一些特点来判定它是否是鱼类,在决定树模子中,我们来看每一个节点是如何做判定的。

我们将所有要研究的动物作为树最上端的起点,对它举办之一个判定,是否能离开水保留?

假如判定为是的话,它不是鱼类;假如为否的话,我们还要再举办下一个判定,是否有脚蹼?假如是的话,它就长短鱼类,假如否的话就是鱼类。

我们仅仅是通过最多两个条理的判定,在树最结尾的叶子结点,可以对我们感乐趣的问题给出了一个相对而言的更佳决定。这个就是决定树的逻辑,很是简朴且和人脑领略事物的逻辑很雷同。

如何用决定树模子做数据阐明?

决定树是一种简朴高效而且具有强表明性的模子,遍及应用于数据阐明规模。

简朴:逻辑相对简朴,整个算法没有更巨大的逻辑,只是对节点举办分叉;

高效:模子练习速度较快;

强表明性:模子的判定逻辑可以用语言清晰的表达出来,好比上述决定树案例中的判定,就可以直接用语言表述成:离开水不能保留的没有脚蹼的动物,我们判定它是鱼。

决定树模子应用于数据阐明的场景主要有三种:

监视分层;

驱动力阐明:某个因变量指标受多个因素所影响,阐明差异因素对因变量驱动力的强弱(驱动力指相关性,不是因果性);

预测:按照模子举办分类的预测。

二、熵是什么?

熵是描写判定的不确定性,大大都决定树的最终判定,并不是100%精确,决定树只是基于不确定性,作出更优的判定。

好比上述决定树案例,我们判定离开水依然可以保留的是“非鱼类”。可是有一种非凡的鱼叫做非洲肺鱼,它离开水后依然可以存活4年之久。

固然不是100%正确,我们在这个叶结点做出非鱼类的判定,是因为所有离开水依然可以保留的动物里,有很是大部门都不是鱼。

这个判定有很大大概性是正确的,但判定依然存在着一些不确定性。

那么不确定性指的是什么呢?

如下图,女生占比为50%,具有更大的不确定性;女生占比0%可能100%,则具备最小的不确定性。女生占比30%,具有中等不确定性;假如女性占比为70%的话,我们这个时候揣摩是女性,堕落大概性是1-70%,即30%,和方才的环境沟通。

也就是说,10小我私家中女性占比为30%,或是70%,我们固然给出的判定差异,可是两个判定堕落的大概性是一样的,都是30%;

如何用决定树模子做数据阐明?

图:在10小我私家中,判定随机挑选出来一小我私家,性别是男照旧女

如何用决定树模子做数据阐明?

假如实验利用一个统计量E来暗示不确定性的话,而且划定E的取值在0和1之间。

他和人群中女性的占比应该满意这样一条曲线的干系,当女性占比为0可能100%的时候,举办判定的不确定性最小;E取最小值0当女性占比为50%的时候,判定的不确定性更大,E取更大值1;当女性占比取0到50%,可能50%到100%之间的值的时候,E的取值介于0到1之间。

而且取值相对女性占比50%是对称的。熵等于用来描写以上这种不确定性,它的数学表达式为:

相关文章

项目需求分析:了解需求理论是做好需求分析工作的基础

项目需求分析:了解需求理论是做好需求分析工作的基础

怎么理解“需求”?需求分析涉及哪些内容?本文将从需求定义、需求分类、需求分析的概念、需求分析的流程四个方面来介绍需求分析的基本理论。 在政府、企事业单位的项目中,需求调研与分析的工作是必不可少的,那...

微信可以开店了!谁开心,谁忧伤?

微信可以开店了!谁开心,谁忧伤?

编辑导读:克日,微信宣布了微信小商店的成果,每小我私家都可以拥有属于本身的小措施店肆了。这意味着什么呢?微信为什么要开拓这个成果呢?本文将从五个方面临微信小商店举办阐明,但愿对你有辅佐。 微信小商店...

上线前,请先准备好这份 Checklist

上线前,请先准备好这份 Checklist

编辑导语:任何一件事在完成之前,都需要做一个Checklist,从而查抄错误,规避风险。这对付上线来说,尤其重要,稍不留意就大概损害到用户的体验感。本文作者从筹备阶段、宣布阶段、验证阶段和异常处理惩罚...

从产品角度看物联网平台的规则引擎

从产品角度看物联网平台的规则引擎

编辑导语:法则引擎是物联网平台的一个重要成果模块,是处理惩罚巨大逻辑的引擎,主要对感知层汇集的数据举办处理惩罚,实现数据逻辑和上层业务的解耦;本文作者从产物的角度对此做出领略,我们一起来看一下。 大...

设计师的三种思考层次

设计师的三种思考层次

编辑导语:设计师拥有高维思考的本领,设计师的思考条理较量高,设计的作品也能经得起恒久的检验;设计作品并不全是为了悦目或雅观,更重要的是表达它自己的意义;本文作者分享了关于设计师的三种思考条理,我们一起...

产品做A/B测试必须考虑这些事

产品做A/B测试必须考虑这些事

本篇文章主要先容在举办AB测试时,需要思量的点及一些小的细节先容,并通过一个案例举办团结体验。 问题:产物为什么要做A/B测试? 原因:因为实践是检讨真理的独一尺度。A/B测试是一个科学的统计要领,...