基于数据分析的帕金森用户需求报告

访客3年前黑客工具762

作者对帕金森用户关注的需求进行了数据分析,主要是用户关注度较高的话题和阅读量更高的话题,用户需求报告与大家分享,供大家参考和学习。

基于数据分析的帕金森用户需求报告

01 背景介绍

因为工作需要,花了点时间利用数据来分析了下帕金森病用户(不是患者)关注的需求,分析的结果与大家分享。

1.1 分析目标

分析帕金森病用户关注的内容,并了解些内容的重要性。

1.2 研究假设

本次研究过程基于以下假设:

用户的行为反应与其关注的内容有强相关性;

收集的数据真实的反应了用户的行为;

1.3 研究方式

通过分析用户之间讨论的话题以及用户浏览的资讯了解其关注的内容。

1.4 研究思路

(1)数据收集

话题可以从各个疾病相关的论坛,或者从相关产品的评论、意见反馈中收集。这里选取的是一个与帕金森相关的某论坛以及几个主流的资讯产品。

(2)数据分析

根据话题阅读量,筛选出用户阅读量较高的话题,通过自然语言技术提取内容的主题、标签,然后运用分类算法对主题和标签的进行分类,汇总出用户重点关注的话题内容。

根据资讯阅读量,筛选出阅读量前置的文章和后置的文章,同样进行标签处理归类,并与话题分析的结果比对,以此验证分析结果是否一致。

02 分析过程 2.1 数据概览

在收集到话题数据后先大致浏览下,检查有无缺省项或者无意义的数据,如果量不大可以直接删除掉。

经过统计得到有效话题总量是6840条,这个数量作为单一病种而言是很可观的,积累这么多内容的背后就是一大批用户在使用。

然后再对数据结构进行观察,下面是话题的数据结构。

基于数据分析的帕金森用户需求报告

不难发现这里的发表时间、阅读数、评论数三个指标是值类型(就是可以比较大小的数字),因此可以直接从这三个指标着手分析。

先看发表时间,对数据做个排序就可以知道最近的发表时间是2019年9月9日(数据从10月中旬开始采集),时间距离当前很近,说明目前仍有人在使用。最早的发表是2002年3月4日,距今已有17年半,论坛创建的时间越早,沉淀的内容越多是好事。

发表时间是在时间维度上是一个个的点,为了反映出整体规律,要考虑通过分组聚合。既然时间跨度较大,这里就采用年作为频率(月也可以,只是太细了),按年分组统计各年发表的文章见下图(2002年数据较少,2003年数据缺失所以未计入)。

基于数据分析的帕金森用户需求报告

从上图可以看到该论坛的发贴量大致分为三个周期:2008年以前在均值附近有较 *** 动,2009年有大幅涨增并至2013年,2014年后几乎逐年下降。从每年的发贴量似乎发现不了什么问题,围绕发表时间这个维度的分析就此打住,该现象背后的原因不在本次分析的范围内就不探究了(本人猜测可能与帕金森患者涨增或社会环境有关(如2013年前后智能机普及))。

接下来看阅读数指标,对所有话题的阅读数汇总后的累计阅读数是22,326,364,这是一个不小的阅读量,平均每年仅话题就有近130万的PV(全国帕金森患者大概200万左右,每年增量约10万),侧面说明采集的数据可以较好地反映帕金森用户关注的问题。

根据阅读数对话题降序处理,然后按10%的发贴数作为累进对阅读数求和,如下图所示。

基于数据分析的帕金森用户需求报告

从上图可以很直观地看有意思的事了,前10%的话题聚中了56.15%的阅读量,20%的话题产生了65.37%,虽然不符合二八规律,但是阅读聚中度依然很明显。因此可以从这20%的话题入手分析用户关注的内容(如果阅读量分布较为均衡就考虑采用分层抽样统计。只选20%的内容一方面是用户行为集中可以更好地突显问题,另一方面留80%的数据是为了选取测试数据作检验)。

2.2 对关注度较高的话题的内容分析

接下来采用自然语言技术对所有话题基于其内容提取出主题标签,浏览主题标签,根据标签内容对话题分类(分类可以手动,可以基于规则,也可以适用回归或决策模型后再调整,对分类后的结果再人工检查一遍),并将归类结果结合测试数据作F检验(与前20%话题的检验结果不一致,说明阅读量的大小与其内容有相关性),反复修整分类的划分,筛选出用户重点关注的问题(具体实现过程省略)。

对阅读数前置20%话题的内容分析结果如下图所示:

基于数据分析的帕金森用户需求报告

相关文章

以抖音留存分析为例,用数据分析改进业务

以抖音留存分析为例,用数据分析改进业务

很多想要转行的同学,甚至包括已经从事数据分析行业的同学,在学习数据分析时,都会有一个困惑——到底怎么才能通过数据分析从数据中发现价值,我应该怎么分析才能够去改进业务,我好像只是在做提数的工作? 这种现...

数据分析更改网站URL对优化的影响及对策

做SEO的都知道在网站优化过程中尽量不要随意变动网站URL,可是有时候又不得不为之!就像我负责的这个企业网站一样,在接手之前网站制作URL设置一团糟!优化一段时间之后没办法只能更改!下面我就用数据分析...

数据准确性是数据人的生命线

数据准确性是数据人的生命线

数据准确性是数据人的生命线,是数据人的能力体现。文章结合案例,对数据准确的重要性进行了总结。 如果有一件事情是数据人必须捍卫到底的,那就是数据准确性。 数据不准,意味着做数据的人和团队不靠谱,一旦被...

数据分析之道:抽丝剥茧,存乎一心

数据分析之道:抽丝剥茧,存乎一心

编辑导读:在大数据和5G技术逐渐成为趋势的时代背景下,我们几乎每天参与到各种各样涉及到数据的场合,如社交网络、消费信息、旅游记录等等。我们几乎每天都会与各种各样的数据打交道,如企业层面的销售数据、运营...

不要做过度的数据分析

不要做过度的数据分析

这篇文章还有个简单的小故事,有天某读者小姐姐问我“设计数据产品有什么需要注意的点”,当时只是简单闲聊,事后仔细思考了一下,而且恰好目前所在项目组,是面向电商行业的to b数据产品,就想结合自己踩过的坑...

从数据角度,聊聊老乡鸡200元战略发布会

从数据角度,聊聊老乡鸡200元战略发布会

本文作者从数据分析视角出发,对老乡鸡“200元战略发布会”营销事件进行了分析并总结了几点值得学习的运营策略,与大家分享。 一场“预算200元”,短短10分钟的战略发布会,一经推出,阅读量即破10万+...