数据分析师的常用 *** (数据分析师必须掌握的

访客4年前黑客文章478

1 分布分析:

发现各个维度下数据的分布情况

研究数据分布特征和分布类型;

主要统计量:极差 大小反应分布情况是否稳定

频率分布情况: 一般用直方图 分组区间使用pd.cut . 累积频率.cumsum()

定量一般用直方图 。 定性字段一般用饼图

分组组距及组数

数据分析师最常用的数据分析方法。你都掌握了吗?

2 对比分析

绝对数比较

相对数比较

3 统计分析

集中趋势度量:

算数平均数 .mean()

位置平均数:中位数。median() 。 众数.mode()、。。。

离中趋势度量

极差

分位差 样本描述性统计.describe() . 四分之三位数/四分之一位数

方差、标准差

数据分析师最常用的数据分析方法。你都掌握了吗?

4 帕累托分析 (贡献度分析) 二八定律

首先对目标数据进行排序:

data.sort_values(0,ascending = False,inplace=True)

然后求出累计占比:

data['累计占比'] = data[0].cumsum()/data[0].sum()

*** 图表:

plt.figure(figsize=(16,7))​data[0].plot(kind='bar', color='g',title='haha')​plt.xticks(rotation=0)​data['累计占比'].plot(style = '--ko', secondary_y = True)​plt.axvline(6,color='r',linestyle='--')​plt.show()

数据分析师最常用的数据分析方法。你都掌握了吗?

5 正态性检验

  • 直方图初判
data = pd.DataFrame(np.random.randn(1000)*1000+16,columns=['value'])fig = plt.figure(figsize=(16,10))ax1 = fig.add_subplot(2,1,1)ax1.scatter(data.index,data.value) #散点图ax2=fig.add_subplot(2,1,2)ax2.hist(data['value'],bins=50) #直方图plt.show()
  • K-S检验

理论推导:

  1. 算出均值、标准差
  2. 统计频率、降序排列 ,计算累计频率
  3. 算出 标准化取值 = (值-平均数)/方差
  4. 通过查表 根据标准化取值 得出理论分布
  5. 用累计频率-理论分布 。 接着查表 得出p 。 如果p>0.05 基本满足正太分布

直接使用函数

from scipy import stats​u = data['value'].mean()std = data['value'].std()stats.kstest(data['value'],'norm',(u,std))

6 相关性分析

首先检验数据是否符合正态分布,

如果符合使用皮尔森相关系数:data.corr()

不符合的话使用 斯皮尔曼相关系数:data.corr(method='spearman')

7 数据处理

判断是否有缺失值 :

data.isnull() / data.notnull()返回布尔型结果

删除缺失值

data.dropna(inplace=True)

替换缺失值:

 data.fillna('填充的值',inplace=True) data.fillna(method='pad') . 用之前的值填充 。 backfill用之后的值填充

拉格朗日插值法填充数据:

def f(s,n,k=5): y = s[list(range(n-k,n+k+1))] y = y[y.notnull()] return lagrange(y.index,list(y))(n)​for i in range(len(data)): if data[0].isnull()[i]: data[0][i] = f(data[0],i) print(f(data[0],i))

数据标准化:

0-1 标准化

def f(df,*cols):• df_n = df.copy()• for col in cols:• ma = df_n[col].max()• mi = df_n[col].min()• df_n[col+'_n'] = (df_n[col]-mi) / (ma-mi)• return df_n​df_n = f(data,'value1','value2')df_n​​

z-score标准化

z-score 标准化 把非标准正太分布 换成标准正太腹部 (值-平均值)/标准差

def f_z(df,*cols):• df_z = df.copy()• for col in cols:• me = df_z[col].mean()• std = df_z[col].std()• df_z[col+'_z'] = (df_z[col]-me) / std• return df_z​df_z = f_z(data,'value1','value2')df_z

数据连续属性离散化

等宽法:

#cut  ***  划分区间​bins = [1,30,50,100]cats = pd.cut(data['age'],bins,right=False)data['age_a'] = cats

等频法:

#等频划分 按照分位数划分 以相同的数量记录到某个区间# qcut  *** ​data = pd.Series(np.random.rand(1000))cats = pd.qcut(data,10)cats.value_counts(sort=False)

相关文章

窗户尺寸的标准尺寸图(常用窗户尺寸大全)

窗户尺寸的标准尺寸图(常用窗户尺寸大全)

窗户的标准不是这样笼统的去规定的,建筑规范对窗户的尺寸大小有着严格的规定。 窗户尺寸规范标准 窗户尺寸规范其实根据室内高度及室内面积及窗户材质而有所区别。其中也有因为窗户材质及款式及开启方式不...

蚂蚁庄园今日答案9月2日答案 洗牙之前,医生会让你漱漱口,一般常用

蚂蚁庄园今日答案9月2日答案 洗牙之前,医生会让你漱漱口,一般常用

蚂蚁庄园9月2日题目抢先看了!洗牙之前,医生会让你漱漱口,一般常用的是什么水?小编认为生活中洗过牙的小伙伴们应该只占少数,所以对这个题目会有所了解的人应该很少。为了大家都可以拿到180g饲料!小编就将...

说明方法有哪些?在说明文中常用的说明方法有哪些?

说明方法有哪些?在说明文中常用的说明方法有哪些?

在说明文中常用的说明方法有哪些?这里帮您总结一下 除了前面说过的介绍说明,描述说明之外,接下来的几种说明方法,在说明文中运用的比较多,这里帮您总结一下。   第一种,定义说明(或者叫下定义说...

常用的4种免费网络推广方式,你了解吗?

常用的4种免费网络推广方式,你了解吗?

在这个以互联网为中心的时代,产品的销售从以前的线下销售模式转到了线上销售模式,企业和商家想在互联网时代站稳脚跟,对产品的网络推广必不可少,做好网络推广工作在市场生存非常重要的基础,那么免费的网络推广方...

seo优化基础入门知识篇(seo常用优化技巧)

seo优化基础入门知识篇(seo常用优化技巧)

SEO优化是一件相当复杂的事情,作为一个SEO人员刚开始的时候不知道具体做哪些事情?今天作为一个过来人的壹壹汇聚网站推广服务小编帮大家整理了一份SEO教程的10大框架,从10个维度讲解下SEO的奥秘!...

盘点: 网上不常用奇特的SEO方法!

盘点: 网上不常用奇特的SEO方法!

搜索引擎优化天天都在变革。差异的网站优化人员会有一些奇特的搜索引擎优化要领。它们虽小且鲜为人知,但却是营销推广的利器。 顾常常被许多搜索引擎优化人员讥笑为:基于网络的搜索引擎优化,而这个“基于网络的搜...