项目数据来历:https://tianchi.aliyun.com/dataset/dataDetail?dataId=4574
数据阐明东西:本次案在例中,我所需要做的即是通过已有的信息举办预测员工将来的动向,即判定该员工将来是否会去职。个中练习数据主要包罗1100笔记录,31个字段。此次数据阐明所用到的东西有:excel,tableau
二、数据阐明根基步调(1)明晰业务需求;
(2)数据收罗 ;
(3)数据处理惩罚
(4)数据摸索阐明(数据的描写性阐明);
(5)综合数据阐明;
1. 明晰业务需求面临公司留不住人,人员活动大等问题,本文对取自于“阿里天池”关于职工数据集的数据举办阐明,挖掘出哪些数据对付去职率有孝敬,预测哪些人最后会活动。
2. 数据收罗项目数据集取自“阿里天池”,相关网址链接请参看概述。个中练习数据主要包罗1100笔记录,31个字段。主要字段说明如下:
(1)Age:员工年数(1暗示已经去职,2暗示未去职,这是方针预测值)
(2)Attrition:员工是否已经去职(Non-Travel暗示不出差,Travel_Rarely暗示不常常出差,Travel_Frequently暗示常常出差)
(3)BusinessTravel:商务差旅频率(Sales暗示销售部,Research & Development暗示研发部,Human Resources暗示人力资源部)
(4)Department:员工地址部分(Sales暗示销售部,Research & Development暗示研发部,Human Resources暗示人力资源部)
(5)DistanceFromHome:公司跟家庭住址的间隔,(从1到29,1暗示最近,29暗示最远)
(6)Education:员工的教诲水平(从1到5,5暗示教诲水平更高)
(7)EducationField:员工所进修的专业规模(Life Sciences暗示生命科学,Medical暗示医疗,Marketing暗示市场营销,Technical Degree暗示技能学位,Human Resources暗示人力资源,Other暗示其他)
(8)EmployeeNumber:员工号码;
(9)EnvironmentSatisfaction:员工对付事情情况的满足水平(从1到4,1的满足水平更低,4的满足水平更高)
(10)Gender:员工性别(Male暗示男性,Female暗示女性);
(11)JobInvolvement:员工事情投入度(从1到4,1为投入度更低,4为投入度更高)
(12)JobLevel:职业级别(从1到5,1为最初级别,5为之一流别)
(13)JobRole:事情脚色 (Sales Executive是销售主管,Research Scientist是科学研究员,Laboratory Technician尝试室技能员,Manufacturing Director是制造总监,Healthcare Representative是医疗代表,Manager是司理,Sales Representative是销售代表,Research Director是研究总监,Human Resources是人力资源)
(14)JobSatisfaction:事情满足度(从1到4,1代表满足水平更低,4代表满足水平更高)
(15)MaritalStatus:员工婚姻状况(Single代表只身,Married代表已婚,Divorced代表仳离)
(16)MonthlyIncome:员工月收入(范畴在1009到19999之间)
(17)NumCompaniesWorked:员工曾经事情过的公司数
(18)Over18:年数是否高出18岁
(19)OverTime:是否加班(Yes暗示加班,No暗示不加班)
(20)PercentSalaryHike:人为提高的百分比
(21)PerformanceRating:绩效评估
(22)RelationshipSatisfaction:干系满足度(从1到4,1暗示满足度更低,4暗示满足度更高)
(23)StandardHours:尺度工时
(24)StockOptionLevel:股票期权程度
(25)TotalWorkingYears:总工龄
(26)TrainingTimesLastYear:上一年的培训时长(从0到6,0暗示没有培训,6暗示培训时间最长)
(27)WorkLifeBalance:事情与糊口均衡水平(从1到4,1暗示均衡水平更低,4暗示均衡水平更高)
(28)YearsAtCompany:在今朝公司事情年纪
(29)YearsInCurrentRole:在今朝事情职责的事情年纪
(30)YearsSinceLastPromotion:间隔上次升职时长
(31)YearsWithCurrManager:跟今朝的打点者共事年纪
3. 数据清洗我们利用的数据是excel文件名目,个中自变量30个,因变量为1个(是否去职)。
数据集字符型字段有7个(BusinessTravel/ Department/EducationField/Gender/JobRole/MaritalStatus/Over18/OverTime)数值型字段有24个。
个中将单一变量删除(年满18岁、尺度工时、员工编号为常量),部门数值变量<=3的字段也删除,此类数据对付阐明预测不具有代表性。
同时调查数据,针对字段值不满一年的数据均用0取代,没有缺失值, 因此不消处理惩罚缺失值.
对付记录来说, 其没有独一标识的字段, 因此会存在反复记录, 这里采纳“反复值处理惩罚”和“数据一致化”处理惩罚;
通过tableau作图调查各自变量对是否去职影响水平巨细,
图一:删除单一变量&常量
4. 数据领略我们利用的数据是EXCEL数据文件名目,个中自变量30个,因变量为是否去职。下表对所有变量举办了说明,以便更好的领略数据。
5. 数据摸索性阐明(1)人力资源总体环境
去职人员178人,占比16.18%;在职人员922人,占比83.82%
由下图可以看出,去职人员偏年青化,峰值呈此刻28-32岁,个中男性去职人数大于女性人数。
编辑导语:本年的双十一玩法再次进级,十月二十一号的破晓就有不少网友暗示本身此刻是“尾款人”;双十一购物节已经一连了许多几何年,固然每年的热度都很大,可是难免有些用户对此乐趣渐弱了;本文作者具体阐明白关...
编辑导语:微信作为海内用户最多的一个软件,如今许多企业都运用微信举办营销推广或社群运营;微信的长图文也发挥了庞大的浸染,长图可呈此刻公家号、伴侣圈等等,带来流传量;本文作者分享了关于微信长图文应该怎么...
编辑导语:功课帮有搜题、直播课、作文搜索等成果,许多中小学生都很是喜欢用此软件;功课帮的“作文圈”也为用户提供黏性,让学生在社区里有更多的选择,可以学到更多的常识;本文作者具体阐明白功课帮“作文圈”的...
编辑导读:许多人享受吃瓜子的快感,假如给他们吃剥好的瓜子,就感受没内味儿了。这就是心理学上的吃瓜子效应,它也被普遍应用在产物事情中。毕竟它是如何影响我们决定的呢?本文将从四个方面举办阐明,但愿对你有辅...
编辑导语:就在前一段时间,网易云刚经验了群嘲“网抑云”之后,网易云又活泼在公共的视野里;可是有业内人士却发明白一些问题,网易云音乐的曲库扩展、衍出产物等都呈现了以西问题;本文作者就此展开阐明,我们一起...
编辑导读:说到字节跳动旗下的产物,许多人的第一回响是抖音,因为其复杂的用户量和流量,创下了客观的告白营收。而长视频有优爱腾,短视频有抖音快手,西瓜视频夹在个中就稍显惨淡。本文作者环绕西瓜视频的成长展开...