项目数据来历:https://tianchi.aliyun.com/dataset/dataDetail?dataId=4574
数据阐明东西:本次案在例中,我所需要做的即是通过已有的信息举办预测员工将来的动向,即判定该员工将来是否会去职。个中练习数据主要包罗1100笔记录,31个字段。此次数据阐明所用到的东西有:excel,tableau
二、数据阐明根基步调(1)明晰业务需求;
(2)数据收罗 ;
(3)数据处理惩罚
(4)数据摸索阐明(数据的描写性阐明);
(5)综合数据阐明;
1. 明晰业务需求面临公司留不住人,人员活动大等问题,本文对取自于“阿里天池”关于职工数据集的数据举办阐明,挖掘出哪些数据对付去职率有孝敬,预测哪些人最后会活动。
2. 数据收罗项目数据集取自“阿里天池”,相关网址链接请参看概述。个中练习数据主要包罗1100笔记录,31个字段。主要字段说明如下:
(1)Age:员工年数(1暗示已经去职,2暗示未去职,这是方针预测值)
(2)Attrition:员工是否已经去职(Non-Travel暗示不出差,Travel_Rarely暗示不常常出差,Travel_Frequently暗示常常出差)
(3)BusinessTravel:商务差旅频率(Sales暗示销售部,Research & Development暗示研发部,Human Resources暗示人力资源部)
(4)Department:员工地址部分(Sales暗示销售部,Research & Development暗示研发部,Human Resources暗示人力资源部)
(5)DistanceFromHome:公司跟家庭住址的间隔,(从1到29,1暗示最近,29暗示最远)
(6)Education:员工的教诲水平(从1到5,5暗示教诲水平更高)
(7)EducationField:员工所进修的专业规模(Life Sciences暗示生命科学,Medical暗示医疗,Marketing暗示市场营销,Technical Degree暗示技能学位,Human Resources暗示人力资源,Other暗示其他)
(8)EmployeeNumber:员工号码;
(9)EnvironmentSatisfaction:员工对付事情情况的满足水平(从1到4,1的满足水平更低,4的满足水平更高)
(10)Gender:员工性别(Male暗示男性,Female暗示女性);
(11)JobInvolvement:员工事情投入度(从1到4,1为投入度更低,4为投入度更高)
(12)JobLevel:职业级别(从1到5,1为最初级别,5为之一流别)
(13)JobRole:事情脚色 (Sales Executive是销售主管,Research Scientist是科学研究员,Laboratory Technician尝试室技能员,Manufacturing Director是制造总监,Healthcare Representative是医疗代表,Manager是司理,Sales Representative是销售代表,Research Director是研究总监,Human Resources是人力资源)
(14)JobSatisfaction:事情满足度(从1到4,1代表满足水平更低,4代表满足水平更高)
(15)MaritalStatus:员工婚姻状况(Single代表只身,Married代表已婚,Divorced代表仳离)
(16)MonthlyIncome:员工月收入(范畴在1009到19999之间)
(17)NumCompaniesWorked:员工曾经事情过的公司数
(18)Over18:年数是否高出18岁
(19)OverTime:是否加班(Yes暗示加班,No暗示不加班)
(20)PercentSalaryHike:人为提高的百分比
(21)PerformanceRating:绩效评估
(22)RelationshipSatisfaction:干系满足度(从1到4,1暗示满足度更低,4暗示满足度更高)
(23)StandardHours:尺度工时
(24)StockOptionLevel:股票期权程度
(25)TotalWorkingYears:总工龄
(26)TrainingTimesLastYear:上一年的培训时长(从0到6,0暗示没有培训,6暗示培训时间最长)
(27)WorkLifeBalance:事情与糊口均衡水平(从1到4,1暗示均衡水平更低,4暗示均衡水平更高)
(28)YearsAtCompany:在今朝公司事情年纪
(29)YearsInCurrentRole:在今朝事情职责的事情年纪
(30)YearsSinceLastPromotion:间隔上次升职时长
(31)YearsWithCurrManager:跟今朝的打点者共事年纪
3. 数据清洗我们利用的数据是excel文件名目,个中自变量30个,因变量为1个(是否去职)。
数据集字符型字段有7个(BusinessTravel/ Department/EducationField/Gender/JobRole/MaritalStatus/Over18/OverTime)数值型字段有24个。
个中将单一变量删除(年满18岁、尺度工时、员工编号为常量),部门数值变量<=3的字段也删除,此类数据对付阐明预测不具有代表性。
同时调查数据,针对字段值不满一年的数据均用0取代,没有缺失值, 因此不消处理惩罚缺失值.
对付记录来说, 其没有独一标识的字段, 因此会存在反复记录, 这里采纳“反复值处理惩罚”和“数据一致化”处理惩罚;
通过tableau作图调查各自变量对是否去职影响水平巨细,
图一:删除单一变量&常量
4. 数据领略我们利用的数据是EXCEL数据文件名目,个中自变量30个,因变量为是否去职。下表对所有变量举办了说明,以便更好的领略数据。
(1)人力资源总体环境
去职人员178人,占比16.18%;在职人员922人,占比83.82%
由下图可以看出,去职人员偏年青化,峰值呈此刻28-32岁,个中男性去职人数大于女性人数。
跟着互联网和社交软件的成长,社交电商也成为人们眼中“香馍馍”,事实真是如此吗?本文阐明社交电商的三个阶段,并汇报你差异的人应该奈何拥抱社交电商。 一、社交电商的三个阶段 1. 阶段一:信任驱动 这个...
编辑导读:To B 行业近些年成长越来越红火,可是处事的群体差异,面临的问题也差异。本文作者从公司首创人的角度,团结公司业务,分享了他对TO B 业务的几点运营发起,供各人一起进修参考。 最近从北京...
编辑导语:我们泛泛跟同事交换可以十分顺畅,对方能快速领略你的意思;可是跟用户交换时就要留意工具的定位,出格是作为产物司理,面临用户先容和描写你的产物时,假如用的是一些高度归纳综合的观念,那用户听起来就...
编辑导读:假如你要创业,想要开拓一个产物,首先要思量不是产物要怎么做,而是该不应做。这个产物地址的市场情况怎么样?用户的痛点在那边?这些问题思量清楚了,才不会在错误的阶梯上越走越远。本文作者总结了三个...
编辑导读:超前点播已经成为了各大视频平台习用套路,用户从一开始的强烈阻挡到此刻的海不扬波,不管愿意与否,超前点播这个模式将会在将来沿用下去。本文作者从三个方面,环绕超前点播展开阐明,但愿对你有辅佐。...
编辑导语:竞价排名是一种按结果付费的网络推广方法,由百度在海内率先推出;企业在颠末购置此项处过后,可通过一些要害词把本身的内容放在前置,这就使一些违规的告白通过此手段到达目标;本文作者阐明白今天头条在...