机器学习 - Machine Learning是时下最火热的技术名词之一。
逃学博士一直在不断丰富自己的知识,将学到的知识消化吸收,并且写成文字发表出来。这是一个学习的过程,利人利己,何乐不为。
另外,做个小宣传。这位加拿大Bob大叔是一个经营着农场的高中老师,顺便教大家生活中的英语。浑厚的美式大叔发音,有兴趣的可以去学习下。
加拿大Bob大叔
言归正传,这篇文章我们一起来简单了解一下:
这些是机器学习的基础,打好基础我们再聊高深的知识。
机器学习
信息时代,数据为王。我们首先要弄清楚,为什么现在的科技公司都称自己是“数据公司”。整天收集那么多数据做什么呢?
我们一步一步来!
每天我们自己都会贡献很多数据,比如你上网浏览了什么网页,你在 *** 上查看了什么产品,你去过什么地方(手机GPS),今日头条上看过什么主题的文章或者视频等等。不要以为没有用,科技公司靠着这些数据可是赚的盆满钵满的。
对我们个人来说”时间就是金钱!“
对于数据公司来说”数据就是金矿!”
这些推送可不是头条工作人员给你手动推送的,而是通过后台的算法,认为你大概率对羽毛球相关视频感兴趣,所以才推送给你。毕竟你点开视频,头条才能赚钱。
那我们就从这个推送问题,来说说机器学习吧!
图1:原创,转载注明出处
假设你有1000个人的数据,分别是他们对运动的喜好,包括:
图1的 *** 是 机器学习的一种 *** ,叫决策树(Decision Tree)。这个数据分析的目的是找出喜欢羽毛球和喜欢篮球之间的关系。
如果这个机器学习模型表现好的话,我们完全可以从一个人是否喜欢羽毛球,一步一步推断出他是否也喜欢篮球。
这就是一个简单的机器学习过程。那么,机器学习最重要两步是什么呢?
我们一起来做一个简单的机器学习模型,研究目标是 糖的摄入量和肥胖之间的关系;
瞎掰的数据
不要在意数据,都是我瞎掰的。
我们看到,糖摄入量和体重是存在一个正相关的关系。这就是最基本的线性规划的问题(Linear Regression)。
数据间的关系
机器学习的核心之一是依靠数据定模型找关系,也就是用数据去训练(Training)模型。
上图所示,体重 = 1.6493 * 糖摄入量 + 45.877
为什么我们要去找这个关系呢?
因为我们要依靠已有的数据,去预测未来可能会发生的事,这就是机器学习的核心之二:定模型关系预测。
比方说,这时候有一个人说我每天吃 20 克的糖,这样我们可以利用上面找到的关系,算出这个人的体重大概在78.863 千克。
Cross Validation(交叉验证),又一个高大上的名字。不要被唬住,其实道理说白了很简单。
比方说我们手上有1000个人的糖摄入量和体重的数据,我们并不能用全部的数据去建立模型。
一般来说,
有的同学说,我可以用建立模型的数据去验证啊!
打个比方,你的数据 - 100个男人里,有98个怕老婆,2个不怕(因为没老婆),那你建立的模型结论是 98%的男人怕老婆!
如果你用建模型的数据去检测,你当然会发现这个模型太准了。但事实是这样吗?
因此,一般来说,会将已有数据分成两份:
交叉验证
如上图,我们一共有20个数据。我们将其中5个数据拉出来用于检验模型,另外15个建立模型。也就是说,数据被分成了4份,每一份5个数据。
Machine Learning的 *** 太多了,什么SVM,Random forest,K-nearest Neighbor等等,你怎么去比较哪一种 *** 更好呢?
建模 + 验证
是这样没错,但是你怎么能保证你挑选出来用于建立和验证模型的数据就是最合理的呢?
仔细观察上图,20个数据点,10个红球,10个绿球。
前5个数据用于验证,后15个数据用于建模(8个红的,7个绿的),这样去建立的模型,红球出现的概率更高。这就和真实情况有出入,因为红球和绿球明明一样多。
这就引出了 交叉验证 了。
把数据分成4份,标注为A,B,C,D。
这样做我们就可以保证:
对挑选的几种 机器学习的 *** 都这样处理一遍,然后给模型总体表现排序,更好的自然就是我们所要用的 *** 了。
分成四份,如上例,叫做 4倍交叉验证(Four-Fold Cross Validation)。
K-Fold Cross Validation
一般实际应用的时候,数据被分成10份,就是10倍交叉验证。
逃学博士一直觉得,很多看似高深的知识背后,都是基础知识的延伸,只不过被套上了很多高大上的专有名词。
介绍机器学习,先给你整一堆 专有名词,听众觉得完全听不懂,但是感觉好厉害的样子。
专业的划分不是知识的划分,是看怎么把知识点包装成只有专业内的人才能听得懂的形式。
比方说:
我们今天拿到了一批数据,先做一个10倍交叉验证,看看选什么 *** ,是SVM还是Random Forest,最后给我一个分析报告。
如果你没有看这篇文章,之一次见这段话是不是懵逼。
希望大家喜欢我的文章。
“逃学博士”:理工科直男一枚,在冰天雪地的加拿大攻读工程博士。闲暇之余分享点科学知识和学习干货。
基督徒向神倾心吐意,一定要奉耶稣基督的名,而喊了“阿门”大家就睁开眼睛,阿门是不是结束信号词?或者另有他意呢? 其实不明白为什么要“奉耶稣基督的名”祷告的人很多,不明白“阿门”是什么意思的人也不...
老徐说话总是头头是道,要是你刚认识他,你会觉得这个人有点水平。 时间长了,你就会发现他有点问题。 首先,他总是喜欢说。其实喜欢说话的人一般比较开朗,能有什么错?确实,不能说这是个问题,继续...
曾经形容广东人没有什么不敢吃的,只有你想不到的,但如此重口味,看完这些变态的食物后,你敢吃吗? 第一种,牛欢喜 牛欢喜其实就是母牛的生殖器官,对,这个广东人也吃,牛欢喜有很多种做法,但不管是烫...
常有朋友问小编,信用卡利息是怎么计算的? 这个问题看似很简单,但是深究起来,门道却很多。 其实有不少信用卡“达人”也未必能搞清楚信用卡利息的具体计算方式。要知道,有些用卡多年的人,常常在信用卡利息...
文化,是一个民族的根基与命脉,是一个国家传承的精神支柱。《诗经》曾言:"周虽旧邦,其命维新。"传统文化只有顺应时代发展的潮流,在实践中不断被赋予新的内涵,才能永葆生机,延续其独特的魅力。...
大部分老年人都会通过佩戴假牙的方式来恢复正常咀嚼能力,不管使用什么类型假牙,必须要好好的呵护。假牙使用不当会让全部牙齿脱落,引起口腔疾病,甚至诱发慢性病。 镶牙后要注意什么?应避开这3大误区!...