从算法到产品:NLP技术的应用演变

访客4年前黑客文章1156

文章回顾了近几年NLP的发展历程,从项目实施的两个阶段中带我们梳理了NLP技术的应用演变。

从算法到产品:NLP技术的应用演变

之一个与大家分享的Case,基于NLP展开。分为3个部分,分别是NLP的发展、项目叙述、以及Lesson Learned。

讲述NLP的发展,是为了更好地理解这门技术,为项目的展开做铺垫。Lesson Learned是笔者总结整个项目下来自己的收获。

笔者本身并非计算机课班,对理论知识的理解难免不深刻,以及可能会有偏差,请大家不吝指教。

目录:

NLP的发展

项目阐述

Lesson Learned

一、NLP的发展 1.1 NLP的定义

The field of study that focuses on the interactions between human language and computers is called Natural Language Processing, or NLP for short. It sits at the intersection of computer science, artificial intelligence, and computational linguistics ( Wikipedia)

总结一下 *** 对NLP的定义, NLP关注人类语言与电脑的交互。

使用语言,我们可以精确地描绘出大脑中的想法与事实,我们可以倾诉我们的情绪,与朋友沟通。

电脑底层的状态,只有两个,分别为0和1。

那么,机器能不能懂人类语言呢?

1.2 NLP的发展历史

NLP的发展史,走过两个阶段。之一个阶段,由”鸟飞派“主导,第二个阶段,由”统计派“主导。

我们详细了解一下,这两个阶段区别,

阶段一,学术届对自然语言处理的理解为:要让机器完成翻译或者语音识别等只有人类才能做的事情,就必须先让计算机理解自然语言,而做到这一点就必须让计算机拥有类似我们人类这样的职能。这样的 *** 论被称为“鸟飞派”,也就是看鸟怎样飞,就能模仿鸟造出飞机。

阶段二,今天,机器翻译已经做得不错,而且有上亿人使用过,NLP领域取得如此成就的背后靠的都是数学,更准确地说,是靠统计。

阶段一到阶段二的转折时间点在1970年,推动技术路线转变的关键人物叫做弗里德里克. 贾里尼克和他领导的IBM华生实验室。(对IBM华生实验室感兴趣的朋友可以阅读吴军老师的《浪潮之巅》,书中有详细讲述。)

我们今天看到的与NLP有关的应用,其背后都是基于统计学。那么,当前NLP都有哪些应用呢?

1.3 目前NLP的主要应用

当前NLP在知识图谱、智能问答、机器翻译等领域,都得到了广泛的使用。

二、项目阐述 2.1 业务背景

说明:在项目阐述中,具体细节已经隐去。

客户是一家提供金融投融资数据库的科技公司。在其的产品线中,有一款产品叫做人物库,其中包括投资人库和创始人库。

创始人库供投资人查看,使用场景,当投资人考察是否要投资创业者,因此会关注创业者的学校(是否名校)、工作(大厂)、以及是否是连续创业者、是否获得荣誉,如“30 under 30”。

投资人库供创业者查看,使用场景:当创业者需要投资人,会考察投资人的投资情况。因此会关注投资者的学校(是否名校)、工作(大厂)、投资案例、投资风格等

我提供的服务,便是为这两条产品线服务。因为本项目主要关注,相关人物的履历信息,因此该项目代号为「人物履历信息抽取」。

需要抽取的人物履历信息,由5个部分组成:学校、工作、投资(案例)、创业经历、获取荣誉。

2.2 项目指标

项目指标包括算法指标与工程指标。

2.2.1 算法指标

算法层面,指标使用的是Recall和Precision。为了避免大家对这两个指标不太熟悉,我带大家一起回顾一下。

我们先来认识一下混淆矩阵(confusion matrix)。混淆矩阵就是分别统计分类模型归错类,归对类的观测值个数,然后把结果放在一个表里展示出来。矩阵中的每一行,代表的是预测的类别,每一列,代表的是真实的类别。

通过混淆矩阵,我们可以直观地看到系统是否混淆了两个类别。

我们可以举一个混淆矩阵的例子:

从算法到产品:NLP技术的应用演变

0代表Negative,1代表 Positve。

TN:当真实值为0,且预测值为0,即为TN(True Negative)

FN:当真实值为1,而预测值为0,即为FN(False Negative)

TP: 当真实值为1,且预测值为1,即为TP(True Positive)

TN:当真实值为0,而预测值为1,即为FP(False Positive)

除了上面,我们还需要了解下面三个指标,分别为Recall、Precision、和F1。

Recall(召回率)是说我们的Predicted Class中,被预测为1的这个item的数量,占比Actual Class中类别为1的item的数量。如果,我们完全不考虑其他的因素,我们可以将所有的item都预测为1,那么我们的Recall就会很高,为1。但是在实际生产环境中,是不可以这样操作的。

Precision(精准率)是说,我们预测的Class中,正确预测为1的item的数量,占比我们预测的所有为1item的数量。

F1是两者的调和平均。

Ok~了解了上面这些衡量算法模型用到的基础概念之后,我们来看看本项目的指标。

模型算法指标为:recall 90;precision 60。

相关文章

黑客帝国2分辨率(黑客帝国2看不懂)

黑客帝国2分辨率(黑客帝国2看不懂)

黑客帝国觉醒怎么调画质 操作步骤:1、打开剪辑软件,点击+号雹吵选择视频。2、选好视频,根据需求去剪辑。3、剪辑好视频斗团,点击上方的分辨率。4、根据需求,调节分辨率数值即可。空肆橘黑客帝国1,2,3...

找黑客同步老婆微信聊天记录-黑客网络技术论坛(网络技术论坛排行榜

黑客的核心是什么有没有能防止黑客盗qq的软件(如何防止黑客攻击)计算机黑客能看到什么普通人怎么加入洪门(普通人怎么修炼灵力)黑客引流方法是什么手机黑客专用软件盗qq(wifi入侵手机黑客软件)电脑黑客...

女星私照被黑客公开(美国明星黑客)

女星私照被黑客公开(美国明星黑客)

本文目录一览: 1、为什么詹姆斯和女明星惨遭黑客勒索,不给钱就拍卖他们的个人隐私? 2、泰国王妃诗妮娜上千张私照被外泄,这是如何泄露的? 3、“艳照门”过去12年,那些被暴露隐私的女星们,如今...

乌鲁木齐外围女微信群朱之柔

乌鲁木齐外围女学妹微信群【朱之柔】,上海是一座成功人士的聚集地,对商业模特的需求也是比较大的,今天明星商务分享模特访梦,年龄济南 女 33,婚姻:未婚,学历:高中,气质:乌鲁木齐外围女学妹微信群寻找方...

微信号能修改名称吗,微信号名称怎么修改

小编向大家介绍下怎么修改微信群名称。 1、在群聊的对话框页面 2、点击右上角【双人头】功能键 3、进入群设置页面,可设置或修改群名称。 以上内容就是怎么修改微信群名称。...

通告是什么意思?通告与通知的区别

通告是什么意思?通告与通知的区别

公文中有这么一对常考的“好兄弟”让众多考生头痛万分,那就是通告和通知,在考生眼中,两者难解难分,接下来,老师就为各位考生总结了两者主要有以下不同:   1.适用范围不同。通知适用于发布、传达要求下...