中国有嘻哈丨数据分析谁是押韵轰炸机
Yo!Yo!Yo! What‵s up! 这里是朝阳35处Lottelyn,AKA插画师,Bang!Bang!Bang!
《中国有嘻哈》已经在一片混乱中收官,双冠军的结果你满意吗?中文说唱来到大众视野,让押韵这件小事也变得很秀。嘻哈文化来自美国贫民窟非裔和拉丁裔青年,但是,中文作为全世界唯一表音、表意、表形的三维文字,和嘻哈简直是最强混搭,古有MC曹植七步成诗freestyle,今天就来看看中文嘻哈check it out。
普通中文流行歌也有简单的押韵结构,但是嘻哈是真正让押韵变成一种技术和艺术的音乐类型。押韵不仅增加了作词难度,也提升了韵律上的美感,甚至用在battle骂人中也起到了如虎添翼的效果。
今天就让我们为技术和艺术疯狂打call,看一看怎样押韵才是真正的OG(大佬)。DJ drop the beat!
假设押韵程度会影响嘻哈歌曲的热门程度(取评论数),我们在网易云音乐中抓取666首有【中文嘻哈】标签的歌曲歌词和评论数作为数据样本。
接下来,我们要判断一首嘻哈歌曲拥有像钻石版稀有的花式押韵技巧,根据现在流传甚广的押韵检查规则和音乐游戏得分规则,结出如下押韵得分方法(由于非是音乐专业,总结的方式和说法可能与业内有些出入,有任何不妥的地方,请各位Rapper写歌diss我):
看不懂的同学请抱紧我,我为大家一一解释这些计分项目。
1. 句尾连续押韵
中文的押韵指的是拼音中的韵母相同,单压、双压、三压等的是使用了通一个韵母押韵的字数,如下,第一行末尾的【迈步】和第二行末尾的【态度】拥有相同的韵母,于是完成了双压*2次。
2. 句尾隔句押韵
也是句尾押韵,但中间并没有连续出现而是隔了一句则算句尾隔句押韵,如下图,第一行的【脚下踩】和第三行的【老爸买】完成了三压*2次。
眼尖的同学可能发现了,脚下踩和老爸买的韵母并不是完全相同的,但是在读音上非常接近。为了容纳这种情况,我们引入了模糊押韵的概念,即读音类似的韵母也算是押韵,参考了新韵部押韵表并稍微做了调整,照顾了部分有口音的Rapper。这样类似的韵母也算是同一种押韵了,例如,(a,ia,ua)(ai,uai)(an,ian,uan,üan)。
3. 句内重复押韵
在一句中根据flow也有可能出现押韵的组合(因为单个韵母出现重复的概率高,所以双压及以上才进行计分),如下图,同一句中出现的【一招带跑】【几秒败倒】【击倒菜鸟】就完成了四压*3次,可以说是标准的押韵狂魔了。
4. 邻句对仗押韵
上下相邻两句同样位置也会出现押韵(也是双压及以上才计分)的情况,记为对仗押韵,如第一句的【词烂】和第二句的【实弹】,记为双压*2。
5. 同韵连续押韵
末尾最大连续押韵次数,以此体现rapper们词库的深度,是否是语言的中东油田。
6. 押韵变化种类
使用韵脚的种类数量,以此体现rapper们词库的广度,是否是行走的《新华字典》。
另外,在设计时还发现,hook副歌部分会有大量的重复计分情况,于是相同的bar小节只进行一次计分。另外此模型无法计算英文的押韵,或者中英文互压,如,受害和go
die,怪兽和live show。
在制定了规则之后,利用Python将666首中文嘻哈歌曲作为数据集,采用Gradient Boosting回归方法,得出六类得分的系数,并选择几位热门Rapper的歌进行打分,得出如下结果。
平均得分排名,以下排名不知道是否与你心中的押韵轰炸机一致:
-
113.209 贝贝(场外选手)
-
105.187 Jony J(有嘻哈第四名)
-
88.215 Vava (有嘻哈第五)
-
69.793 PG one(有嘻哈并列第一)
-
66.410 Tizzy T (有嘻哈第六)
-
49.886 Gai(有嘻哈并列第一)
另外,根据已有数据进行统计,发现rapper们押韵的小规律,采用四种不同类型押韵的比例分别是:
平均最大同韵连续combo为22.84,如果全部使用双压,则会重复11.42次,大脑里的词库可以说非常可观了。
一首歌中,平均会换韵11.34次,韵脚的转换让歌曲增加新鲜感和丰富感。
平均有效行数54.58行,并且还去除了重复的hook部分,基本是一般流行歌曲歌词的2-3倍了,rapper高冷的外表下都是亲切的话唠。
当然了,评价一首说唱歌曲不仅仅是押韵了,为了听起来不单调,flow的变化和break的处理也非常关键,再加上不同风格的beats配合,和喊麦以及数来宝有着本质的不同。最重要的是歌曲表达的内容,rapper作为keep real的代表,通常歌曲也会反映和直面现实社会问题,甚至有很多歌曲描写家暴,歧视,单亲家庭,校园暴力等一般流行歌曲不会去涉及的领域。Rapper作为创作者和艺术家,在hippop文化传播率高的国家都拥有较高的地位。嘻哈文化还有很多经典的元素,例如,炫富, underground, beef,diss,
freestyle,厂牌,等都很值得有更多了解。
2013年,百度就曾经研发一款“为你写诗”的应用,在自然语言处理飞速发展并广泛应用的今天,发明一款“为你freestyle”, “跟你battle” 的嘻哈机器人其实也不再遥远了。另外,现在各大平台都有一些免费的自然语言处理开放接口,如词法分析,情感倾向分析,相似度分析,关键词提取等,拿来分析一下嘻哈歌曲也很有意思。
词性识别(来自BosenNLP):
实例识别(来自BosenNLP):
情感分析(来自BosenNLP):
关键词提取(来自BosenNLP):
语义联想(来自BosenNLP):
其实,最早构思本片文章时是想做在线押韵检测应用,后来发现实在太中文博大精深了,另外由于时间比较紧,只是简单做了规则和小样本的统计,请大家随意感受一下中文嘻哈之美。《中国有嘻哈》对于我的最大收获是,很久不听中文歌的我,歌单中突然出现很多单曲循环的曲子。
原创文章,转载请注明出处:光环大数据
大数据培训、人工智能培训、Python培训、大数据培训机构、大数据培训班、数据分析培训、大数据可视化培训,就选光环大数据!光环大数据,聘请专业的大数据领域知名讲师,确保教学的整体质量与教学水准。讲师团及时掌握时代潮流技术,将前沿技能融入教学中,确保学生所学知识顺应时代所需。通过深入浅出、通俗易懂的教学方式,指导学生更快的掌握技能知识,成就上万个高薪就业学子。 更多问题咨询,欢迎点击------>>>>在线客服!