基于数据分析的帕金森用户需求报告

访客4年前黑客工具809

作者对帕金森用户关注的需求进行了数据分析,主要是用户关注度较高的话题和阅读量更高的话题,用户需求报告与大家分享,供大家参考和学习。

基于数据分析的帕金森用户需求报告

01 背景介绍

因为工作需要,花了点时间利用数据来分析了下帕金森病用户(不是患者)关注的需求,分析的结果与大家分享。

1.1 分析目标

分析帕金森病用户关注的内容,并了解些内容的重要性。

1.2 研究假设

本次研究过程基于以下假设:

用户的行为反应与其关注的内容有强相关性;

收集的数据真实的反应了用户的行为;

1.3 研究方式

通过分析用户之间讨论的话题以及用户浏览的资讯了解其关注的内容。

1.4 研究思路

(1)数据收集

话题可以从各个疾病相关的论坛,或者从相关产品的评论、意见反馈中收集。这里选取的是一个与帕金森相关的某论坛以及几个主流的资讯产品。

(2)数据分析

根据话题阅读量,筛选出用户阅读量较高的话题,通过自然语言技术提取内容的主题、标签,然后运用分类算法对主题和标签的进行分类,汇总出用户重点关注的话题内容。

根据资讯阅读量,筛选出阅读量前置的文章和后置的文章,同样进行标签处理归类,并与话题分析的结果比对,以此验证分析结果是否一致。

02 分析过程 2.1 数据概览

在收集到话题数据后先大致浏览下,检查有无缺省项或者无意义的数据,如果量不大可以直接删除掉。

经过统计得到有效话题总量是6840条,这个数量作为单一病种而言是很可观的,积累这么多内容的背后就是一大批用户在使用。

然后再对数据结构进行观察,下面是话题的数据结构。

基于数据分析的帕金森用户需求报告

不难发现这里的发表时间、阅读数、评论数三个指标是值类型(就是可以比较大小的数字),因此可以直接从这三个指标着手分析。

先看发表时间,对数据做个排序就可以知道最近的发表时间是2019年9月9日(数据从10月中旬开始采集),时间距离当前很近,说明目前仍有人在使用。最早的发表是2002年3月4日,距今已有17年半,论坛创建的时间越早,沉淀的内容越多是好事。

发表时间是在时间维度上是一个个的点,为了反映出整体规律,要考虑通过分组聚合。既然时间跨度较大,这里就采用年作为频率(月也可以,只是太细了),按年分组统计各年发表的文章见下图(2002年数据较少,2003年数据缺失所以未计入)。

基于数据分析的帕金森用户需求报告

从上图可以看到该论坛的发贴量大致分为三个周期:2008年以前在均值附近有较 *** 动,2009年有大幅涨增并至2013年,2014年后几乎逐年下降。从每年的发贴量似乎发现不了什么问题,围绕发表时间这个维度的分析就此打住,该现象背后的原因不在本次分析的范围内就不探究了(本人猜测可能与帕金森患者涨增或社会环境有关(如2013年前后智能机普及))。

接下来看阅读数指标,对所有话题的阅读数汇总后的累计阅读数是22,326,364,这是一个不小的阅读量,平均每年仅话题就有近130万的PV(全国帕金森患者大概200万左右,每年增量约10万),侧面说明采集的数据可以较好地反映帕金森用户关注的问题。

根据阅读数对话题降序处理,然后按10%的发贴数作为累进对阅读数求和,如下图所示。

基于数据分析的帕金森用户需求报告

从上图可以很直观地看有意思的事了,前10%的话题聚中了56.15%的阅读量,20%的话题产生了65.37%,虽然不符合二八规律,但是阅读聚中度依然很明显。因此可以从这20%的话题入手分析用户关注的内容(如果阅读量分布较为均衡就考虑采用分层抽样统计。只选20%的内容一方面是用户行为集中可以更好地突显问题,另一方面留80%的数据是为了选取测试数据作检验)。

2.2 对关注度较高的话题的内容分析

接下来采用自然语言技术对所有话题基于其内容提取出主题标签,浏览主题标签,根据标签内容对话题分类(分类可以手动,可以基于规则,也可以适用回归或决策模型后再调整,对分类后的结果再人工检查一遍),并将归类结果结合测试数据作F检验(与前20%话题的检验结果不一致,说明阅读量的大小与其内容有相关性),反复修整分类的划分,筛选出用户重点关注的问题(具体实现过程省略)。

对阅读数前置20%话题的内容分析结果如下图所示:

基于数据分析的帕金森用户需求报告

相关文章

B端产品 | APP的反向导航,只能“从哪来回哪去“吗?

B端产品 | APP的反向导航,只能“从哪来回哪去“吗?

01 什么是反向导航 反向导航的概念官方定义出自Material Design: 从用户行为维度,分成三类:Lateral navigation(横向导航)、Forward navigation(前...

私域流量与会员制的异同分析

私域流量与会员制的异同分析

私域流量好像和“历史久远”的会员制有着不少相似之处?从两者定义上来说,私域流量的定义和会员制的理念几乎一致,都强调通过强化与用户之间的联系,来实现用户利益的最大化。 2019的增长寒冬,突然大火的私...

傻瓜才去讲道理,高手都爱讲故事!

傻瓜才去讲道理,高手都爱讲故事!

故事思维,已经是我们生活、职场必备的一项技能,当你学会讲故事后,你的演讲表达能力、带领团队能力也都会有质地提升。那么,要如何讲好一个故事? 讲台上,小明正在滔滔不绝地给大家做培训,下面听众席上,张三...

嘀嗒,嘀嗒,出行市场倒计时响起?

嘀嗒,嘀嗒,出行市场倒计时响起?

编辑导读:相比于出行领域的老大滴滴,嘀嗒出行的名气显然不如前者。更何况滴滴近期动作频频,引来了很多关注,滴答的身影更是显得落寞。本文将从两个方面,围绕嘀嗒进行分析,希望对你有帮助。 近日,嘀嗒出现赴...

hello 酷狗 | 酷狗音乐产品体验报告

hello 酷狗 | 酷狗音乐产品体验报告

当下音乐APP众多,酷狗音乐能在众多APP中脱颖而出,成为数字音乐产业的领军企业,必定有其独特之处。在本文,笔者将以用户体验五要素框架为基础,从行业及市场分析、产品结构、用户分析、界面视觉表现等方面,...

写给知乎的优化建议

写给知乎的优化建议

作为一款上亿用户使用的APP,知乎已经被大家分析了很多遍。今天我们从另一个角度:优化建议的方向,给出自己的看法,希望与大家探讨。 1. 修改记录 2. 知乎功能结构图 知乎的信息结构图实在太多了...