大数据会说谎:看穿数据的真相

访客3年前黑客资讯491

编辑导语:如今在这个大数据时代,我们的日常都被计较在个中,最常见的就是线上购物软件的算法,按照大数据对你举办标签化,推送你大概喜欢的商品;本文作者具体阐明白大数据时代的双刃剑,我们一起来看一下。

大数据会说谎:看透数据的真相

最近接连复习了几本数据相关的书,作为数学系结业的学生,固然结业多年都无缘从事数据相关的职业,基本的理论常识也根基化整为零,但我对数据一直都蛮感乐趣的,在此也想分享下我的一些观点。

“一家公司公布3003人持有该公司的股份,每人平均持有660股。”

乍一看,优秀优秀。

别急着拍手,这个令人赞叹的数据背后尚有另一信息没有透露:“公司累计200万股股票,个中三大股东的股份占了3/4,而剩下的3000人总共持有的股份只占1/4“。

同样的,之前民间盛传的腾讯人均月薪7.18万,看起来是否也颇为可疑?

首先,这数据准确得让人受惊;其次,未加说明的平均数都是耍混混;最后,即便你做了大样本观测,可收入作为敏感信息,免不了参杂虚报和瞒报的环境,可信度也要大打折扣——这种话题作为媒体的噱头听听就好,卖力了但是要悲痛的。

但事实上,人容易为数据痴迷。

学生的本领欠好评估,但测验后果和学位证书可以佐证,于是家长们争先恐后地帮孩子报了补习班;相识一个生疏人很难,但伴侣圈和Facebook提供了一个渠道,于是我们都执着于在网上塑造一个抱负人设。

看吧,我们一直置身于大数据的 *** 中。

我的大学伴侣根基上都在从事大数据计较相关的职业,泛泛我们闲聊时,或多或少会叹息大数据给我们带来的双刃剑。

在充斥数据和算法的年月,毕竟是数据为我,照旧我为数据?数据是不是就便是我们本身?这个命题太大,我只能随波逐流。

本日主要是想当真探讨下,这么多年来,你我曾经陷入的数据陷阱以及我们能采纳的动作。

一、数据会说谎?

大数据是个好东西,尤其到了此刻,它早已被放大了光环,给我们带来了诸多便利;你欣赏过什么,对什么感乐趣,推荐算法老是能精准地匹配你的口胃(可能说,大数据界说了你的口胃)。

虽然,唱衰大数据的人也不少:“数据只是证实了显而易见的事实。”不少人对此不屑一顾。

然而,我最近看到的几个案例,都不止一次地让我哭笑不得:数据一次又一次地证明白许多我们想虽然的猜测跟真实是不相符的。

你大概会认为,在暴力影戏放映后的当天,那些有进攻性的年青人会更易怒,犯法率铁定会上升;但事实上,有经济学家通过数据阐明,在影戏竣事后到越日的破晓,犯法率一连在下降;一方面暴力影戏让潜在的暴力人群分开了陌头,另一方面由于影院险些不供给酒类饮品,淘汰了酒精有关的犯法勾当。

大数据为人我们提供了一个新维度的视角,包围面较单一的领悟更广,让我们对世界的认知也更立体了。

也正是因为如此,我在看一些调研陈诉的时候发明,这把双刃剑的另一面,终于照旧现出了他的真脸孔。

1. 相关性而非因果性

大数据显示,某地某时段起飞了几多只白日鹅,据此揣度天鹅都是白的。

这显然太扯了,但你敢拍着胸脯担保本身没掉过这类圈套吗?

甚至有些时候,假如我们无法证明本身想要证明的对象,下意识地就会展示一些其他对象,并冒充他们是一样的;究竟此刻统计数据让人目不暇接,险些没人会察觉到个中的不同,不是吗?

说到这我也不得不反思,我莫非没有过吗?翻开这层遮羞布,率直说,不少环境下当我试图争取更多的权益和话语权时,不自觉地也使了这样的花招。

运用“看似相关的数据”作为论据,要么是无心之失,要么就是习用技巧。

学生时代当我还对数学建模比赛上心时,考题要求预测一个数值变革趋势,我其时就冷静发明白一个“奥秘”,即/——给你一组数据,你可以利用任一种范式去找到一个看似好使的指标,但换一组数据,这个指标就失灵了;变量太多,你能试验的样本太少,于是你很容易发明这种假相关性,更别提你想基于这个相关性去推导因果性了。

退一步来说,即便我们通过一小我私家泛泛会见网站的内容,监察到他有了犯法的激动,那到底是抓他照旧不抓他?假如我们不能担保本身是公理的,那么我们也不会在意本身是否邪恶。

有些人很擅长操作现有数据去预估接下来的数据变革,大概是多维度的调查,也大概是有了足够的数据样本;可是,数据会变,我们会变,假如你迷信数据而忽视本质,那么大数据就不能用于预测,只能预测有领悟的预测。

相关文章

谈谈大数据认知

谈谈大数据认知

大数据(big data),IT行业术语,是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的...

从数据到大数据,数据技术工具的演变

从数据到大数据,数据技术工具的演变

编辑导语:大数据近些年来是一个十分火热的话题,关于大数据的文章也是数不胜数。本文作者通过梳理本身看过的大数据相关的资料和书籍,为我们先容了从“小数据”演化为“大数据”的进程是奈何的?而且分享了一些数据...

大数据时代个人隐私可以随便查?大数据时代怎么保护个人隐私

以国家互联网为重点,网络运营商不断优化互联网接入速度,手机制造商不断优化互联网接入体验。 整体的努力,为了扩大信息的阅读速度变得更快更简单。 大数据时代个人隐私可以随便查?大数据时代怎么保护个人隐私...

这10个评价指标,可以带你认识推荐系统

这10个评价指标,可以带你认识推荐系统

跟着移动互联网的飞速成长,网络中的信息量呈指数式增长,大量的商品、资讯、常识、视频、音乐等内容和资源可供用户选择,信息过载问题日益突出。 而推荐系统是办理信息过载最有效的方法,因此,基于大数据的推荐...

齐向东谈保密领域网络安全三大焦点问题

当前,随着新技术的发展,云计算、大数据、物联网等技术在保密信息系统中得到广泛应用,也带来了新的安全威胁和风险。齐向东表示,APT攻击和人员行为的安全隐患构成了对保密要害系统的两大威胁。  ...

大数据杀熟网络黑公关 需完善互联网领域守信激励失信惩戒机制

全媒体记者 侯建斌电商平台频现大数据“杀熟”乱象,网络“黑公关”事件愈演愈烈,网络谣言呈现“病毒”变异式传播态势……在互联网时代,大数据、新技术在为人们带来便捷的同时,也引发诚信缺失问题。  形形色色...