编辑导语:诗词的创作需要遵循许多的端正,因此诗歌是有纪律的。本文作者运用多种文本挖掘要领,敌手头的诗歌语料库举办了深入的挖掘和阐明,让我们一起来看看作者是如何完成文本数据的摸索任务。
楔子:
很多年之后,面临书桌上的两句残词,贬居黄州的东坡居士将会追念起,他在家园眉山见到朱姓老尼的谁人遥远的下午。彼时的东坡还不是东坡,还只是一个七岁孩童。有一天,他在家四周偶遇一位年约九十的朱姓老尼。
老尼看到苏轼天资聪颖,就跟他聊起本身年青时的经验。她曾跟从师父进入后蜀主孟昶的宫中。一日,天酷热,孟昶和他的妃子花蕊夫人深夜乘凉于摩诃池上。面临此情此景,蜀主即兴赋词一首,老尼将她印象中仅存的打头两句汇报了苏轼.
四十年后,苏轼贬居于黄州,想起这段旧事,遗憾于孟昶的词只余两句,突发奇想要将这两句词续写完整。他先揣摩出这首词的词牌名——“洞仙歌令”,但要还原整首词作,必需深刻团结写词人其时之脸色以及陪伴而来的意境。
苏轼因而循着仅存的两句词,按照老尼给他的描写,勉力在脑海中还原蜀主其时的创作场景和心境,最终将词续完,成绩名作《洞仙歌》:
冰肌玉骨,自清凉无汗。水殿风来暗香满。绣帘开,一点明月窥人,人未寝,倚枕钗横鬓乱。
起来携素手,庭户无声,时见疏星渡河汉。试问夜如何,夜已三更,金波淡,玉绳低转。但屈指西风几时来,又不道流年黑暗掉包。
以上就是文学史上有名的“东坡续词”,虽说是文学史上的一段韵事,但笔者从中隐约看到了数理思维的影子。
诗词的创作进程有如在求解一个“更优化问题”:在必然的约束条件下,如诗词要遵守的平仄、押韵、对仗/对偶、五七变式、词谱、情境等,诗词创作者用文字将本身心田的真实打动用语言文字表达出来;在“戴着镣铐在跳舞”的环境下,勉力到达音韵美、精辟美、言辞美、昏黄美、感情美、绘画美和形式美的至臻地步。
此时,诗词之精细和数理之严密是可以完美团结的。
既然诗歌的创作是有纪律的,那么,通过必然的数据挖掘手段,我们是可以或许从中发明一些insight的。
在本文中,笔者循着这个思路,将运用若干文本挖掘要领敌手头的诗歌语料库(该诗歌原始语料库地点为https://github.com/Werneror/Poetry)举办深入挖掘和阐明,该诗歌语料库的根基统计数据如下:
从上表可以看到,该诗歌语料库 *** 计近85万余首诗歌,诗歌作者数量达29377位之多;个中,字段包罗“题目”、“朝代”、“作者”和“内容(诗歌)”。
为了利便后续的阐明,笔者仅取个中的律诗和绝句,且仅取个中的五言和七言,排律(如《春江花月夜》、《长恨歌》等)、杂言(如李白的将进酒)等就不在本文的阐明范畴之内。
颠末数据清洗后,最终得诗544,443,占到原数据库的59.1%,以下别离是清洗后的诗歌数据统计功效和部门样例:
针对上述数据,笔者在本文中主要有两个大方针:
构建一个包括热门题材标签的诗歌语料库,用于后续的诗歌题材分类和诗歌生成任务;
基于上述诗歌语料库的种种文本挖掘和语义阐明,以期获得有趣味的发明。
针对上述方针,本文的实现蹊径图,同时也是本文的行文脉络,如下所示(点击图片可放大查察):
值得留意的是,上述实现路径中,涉及到自然语言处理惩罚的两大构成部门,即自然语言领略(分词、语义建模、语义相似度、聚类和分类等)和自然语言生成(诗歌生成和诗歌翻译),看完也会对自然语言处理惩罚有必然的相识。
信息量大,请耐性享用。
1. 诗歌分词和热词发明给定一首诗歌文本,在个中随机取一个片断,如何判定这个片断是否是一个有意义的词汇呢?
本文导读目录: 1、如何做迷你世界的黑客? 2、迷你世界是不是真有黑客? 3、求我的世界大战迷你世界的故事 4、迷你世界十大诡异传说? 5、迷你世界如果真有黑客入侵怎么办? 如何做迷...
俄宣布在南千岛群岛部署新型防空导弹 新华社莫斯科12月1日电(记者吴刚)俄罗斯东部军区1日发布公告说,S-300V4新型防空导弹系统在南千岛群岛进入战斗值班。 公告说,S-300V4新型...
本文目录一览: 1、怎样防范黑客攻击? 2、怎样防黑客 3、防止黑客攻击的方法有哪些? 4、怎样预防黑客入侵电脑 5、防范黑客攻击的措施有哪些? 6、黑客攻击主要有哪些手段? 怎...
牛奶是不是越浓越好? 各种品类的奶怎么挑? 每天要喝多少牛奶好? …… 今天,小薇就来个详细解答! 经常有人说: 现在的牛奶越来越淡,一点奶味都没有! 其实,牛奶浓不...
session 简介 session 是我们 jsp 九大隐含对象的一个对象。 session 称作域对象,他的作用是保存一些信息,而 session 这个域对象是一次会话期间使用同一个对象。所以...
可能是另一方手机出现难题,拨打别人的电話查验手机上是不是能够听见响声,假如能听见,那麼表明自身的手机上没有问题;次之很有可能处在电梯轿厢,停车位等数据信号较差的地区,能够到应用手机上机器设备少人,而且...