项目数据来历:https://tianchi.aliyun.com/dataset/dataDetail?dataId=4574
数据阐明东西:本次案在例中,我所需要做的即是通过已有的信息举办预测员工将来的动向,即判定该员工将来是否会去职。个中练习数据主要包罗1100笔记录,31个字段。此次数据阐明所用到的东西有:excel,tableau
二、数据阐明根基步调(1)明晰业务需求;
(2)数据收罗 ;
(3)数据处理惩罚
(4)数据摸索阐明(数据的描写性阐明);
(5)综合数据阐明;
1. 明晰业务需求面临公司留不住人,人员活动大等问题,本文对取自于“阿里天池”关于职工数据集的数据举办阐明,挖掘出哪些数据对付去职率有孝敬,预测哪些人最后会活动。
2. 数据收罗项目数据集取自“阿里天池”,相关网址链接请参看概述。个中练习数据主要包罗1100笔记录,31个字段。主要字段说明如下:
(1)Age:员工年数(1暗示已经去职,2暗示未去职,这是方针预测值)
(2)Attrition:员工是否已经去职(Non-Travel暗示不出差,Travel_Rarely暗示不常常出差,Travel_Frequently暗示常常出差)
(3)BusinessTravel:商务差旅频率(Sales暗示销售部,Research & Development暗示研发部,Human Resources暗示人力资源部)
(4)Department:员工地址部分(Sales暗示销售部,Research & Development暗示研发部,Human Resources暗示人力资源部)
(5)DistanceFromHome:公司跟家庭住址的间隔,(从1到29,1暗示最近,29暗示最远)
(6)Education:员工的教诲水平(从1到5,5暗示教诲水平更高)
(7)EducationField:员工所进修的专业规模(Life Sciences暗示生命科学,Medical暗示医疗,Marketing暗示市场营销,Technical Degree暗示技能学位,Human Resources暗示人力资源,Other暗示其他)
(8)EmployeeNumber:员工号码;
(9)EnvironmentSatisfaction:员工对付事情情况的满足水平(从1到4,1的满足水平更低,4的满足水平更高)
(10)Gender:员工性别(Male暗示男性,Female暗示女性);
(11)JobInvolvement:员工事情投入度(从1到4,1为投入度更低,4为投入度更高)
(12)JobLevel:职业级别(从1到5,1为最初级别,5为之一流别)
(13)JobRole:事情脚色 (Sales Executive是销售主管,Research Scientist是科学研究员,Laboratory Technician尝试室技能员,Manufacturing Director是制造总监,Healthcare Representative是医疗代表,Manager是司理,Sales Representative是销售代表,Research Director是研究总监,Human Resources是人力资源)
(14)JobSatisfaction:事情满足度(从1到4,1代表满足水平更低,4代表满足水平更高)
(15)MaritalStatus:员工婚姻状况(Single代表只身,Married代表已婚,Divorced代表仳离)
(16)MonthlyIncome:员工月收入(范畴在1009到19999之间)
(17)NumCompaniesWorked:员工曾经事情过的公司数
(18)Over18:年数是否高出18岁
(19)OverTime:是否加班(Yes暗示加班,No暗示不加班)
(20)PercentSalaryHike:人为提高的百分比
(21)PerformanceRating:绩效评估
(22)RelationshipSatisfaction:干系满足度(从1到4,1暗示满足度更低,4暗示满足度更高)
(23)StandardHours:尺度工时
(24)StockOptionLevel:股票期权程度
(25)TotalWorkingYears:总工龄
(26)TrainingTimesLastYear:上一年的培训时长(从0到6,0暗示没有培训,6暗示培训时间最长)
(27)WorkLifeBalance:事情与糊口均衡水平(从1到4,1暗示均衡水平更低,4暗示均衡水平更高)
(28)YearsAtCompany:在今朝公司事情年纪
(29)YearsInCurrentRole:在今朝事情职责的事情年纪
(30)YearsSinceLastPromotion:间隔上次升职时长
(31)YearsWithCurrManager:跟今朝的打点者共事年纪
3. 数据清洗我们利用的数据是excel文件名目,个中自变量30个,因变量为1个(是否去职)。
数据集字符型字段有7个(BusinessTravel/ Department/EducationField/Gender/JobRole/MaritalStatus/Over18/OverTime)数值型字段有24个。
个中将单一变量删除(年满18岁、尺度工时、员工编号为常量),部门数值变量<=3的字段也删除,此类数据对付阐明预测不具有代表性。
同时调查数据,针对字段值不满一年的数据均用0取代,没有缺失值, 因此不消处理惩罚缺失值.
对付记录来说, 其没有独一标识的字段, 因此会存在反复记录, 这里采纳“反复值处理惩罚”和“数据一致化”处理惩罚;
通过tableau作图调查各自变量对是否去职影响水平巨细,
图一:删除单一变量&常量
4. 数据领略我们利用的数据是EXCEL数据文件名目,个中自变量30个,因变量为是否去职。下表对所有变量举办了说明,以便更好的领略数据。
5. 数据摸索性阐明(1)人力资源总体环境
去职人员178人,占比16.18%;在职人员922人,占比83.82%
由下图可以看出,去职人员偏年青化,峰值呈此刻28-32岁,个中男性去职人数大于女性人数。
编辑导读:在线教诲不只仅是老师和学生两边解说场景的变革,背后的解说打点系统同样重要。解说内容是教诲的焦点资源,可是一套行之有效系统对付用户体验和解说成就上带来的辅佐不行忽略。本文作者拆解了在线教诲平台...
编辑导语:RFM是很传统的数据阐明模子,险些所有文章城市提到它,然而市面上传播的各类乱用、错用也很是多;本文作者对RMF做出了具体的阐明,我们一起来相识一下。 上一篇讲了【用户画像高峻上,但90%的...
编辑导语:由于本年年头的疫情影响,生鲜电商在这一段时间里成长迅猛,生鲜电商行业的竞争也很是剧烈;其实生鲜电商早在零几年就开始了,也就是其时的易果生鲜,但因为成长原因最终照旧没挺已往;本文作者阐明白易果...
本文主要环绕如何晋升求职中对岗亭认知的匹配本领,以及如何故布局化的思维去拆解口试那些“套路”这两个要点举办了阐明总结,与各人分享。 求职口试是职场生涯中的必修课,有人随随便便就斩获offer,但有些...
编辑导语:KANO模子是东京理工大学传授狩野纪昭(Noriaki Kano)发现的对用户需求分类和优先排序的有用东西,以阐明用户需求对用户满足的影响为基本,浮现了产物机能和用户满足之间的非线性干系。本...
产物司理是需要深度思考的职业,那产物司理该如何更有效地执行?有效执行的本质解,是一套让决定/认知有序化的反馈过滤机制。 杨国安先生(“杨三角”的创建者)的极简公式:「企业一连乐成 = 增长计谋 x...