大数据分析:王者荣耀英雄背景下的分词报告

编辑:光环大数据 来源: 互联网 时间: 2017-10-25 13:37 阅读:

大数据

 

中文分词在中文信息处理中是最最基础的,无论机器翻译亦或信息检索还是其他相关应用,如果涉及中文,都离不开中文分词,因此中文分词具有极高的地位。


NLP刚入门,想找个东西练练手,于是便看到了手边的农药。。。


思路


  • 使用Python爬取王者荣耀官网所有英雄的背景资料文本信息

  • 使用RMM最大逆向匹配分词算法对文本进行分词处理,计算词频

  • 使用Excel出具简单的可视化报告


结果


爬取了王者荣耀官方网站-腾讯游戏


71位英雄的英雄故事文本


共计59793个字符


排名前20的高频词汇:

 

大数据


【自己】一词出现了194次,词频为0.48%,高居榜首。


王者荣耀团队在介绍英雄时,多以第一人称视角进行故事叙述和情感宣泄。


有利于用户更好地理解英雄背景,触发共情效果,有利于提高用户的整体游戏体验。


如苏烈的英雄故事中,【自己】就出现了4次,图片所截区域不全,仅作展示说明。

 

大数据


男女词汇比例


大数据


男性词汇: 他 他们 男 男子 男人 少年 爹爹;出现次数704次,词频为1.74%。


女性词汇: 她 她们 少女 女 妻子 太后 女娲 小女孩 女郎 女孩 女婴 女战士;出现次数263次,词频为0.65%。


男女词汇比例为73:27,男女英雄数量比例为72:28,几乎一致王者荣耀的英雄更迭与故事发展主要与男性英雄相关


如铠的英雄背景中,【他】出现了31次,【她】出现了1次

 

大数据


在同为长城小队队员的花木兰英雄背景中,【他】出现了12次,而【她】出现了1次

 

大数据


主要情节均由男性角色推动。


排名前20的地点词汇:

 

大数据


【长安】、【长城】和【大唐】稳居榜首前三,占据了前20地名中46.67%的词频


繁华盛世和战乱边疆都是孕育无数英雄豪杰的好地方,兼容并蓄的社会环境和攘外安内的国家政策迸发出一批又一批的青年才俊。


王者荣耀的游戏策划也是深谙此道。


目前所有的英雄均来自于王者大陆的魔幻土地之上,如城镇、废墟、地下、森林、深渊、寺院和戈壁等。


官方人员在设计新的英雄时,不妨把视角转向浩渺的天空。


如Dota中的双头龙、精灵龙、寒冰飞龙、死灵飞龙和凤凰等角色,来为游戏注入新的活力,进一步加强游戏本身的趣味性和可玩性。

 

大数据


正负面情感词汇比例

 

大数据


正负面词汇比例为65:35,英雄们多因外族入侵、魔道猖獗、国破家亡和希望破灭等因素,为了国家安定和梦想实现,不得不拿起手中刀剑,奔向战场


天降大任于斯人也,必先苦其心志,劳其筋骨,饿其体肤,空乏其身,行指乱其所为,所以动心忍性,曾益其所不能。


正面词汇: 爱 仁 和平 信任 胜利 希望 微笑 荣耀 伟大 辉煌 美丽 自信 等;出现次数425次,词频为1.04%。

 


负面词汇: 魔 魔道 黑暗 愤怒 背叛 可怕 恐惧 失去 死亡 危险 吞噬 邪恶 残忍 嘲笑 折磨 战乱 等;出现次数780次,词频为1.91%。

 


数据分析数据分析培训,就选光环大数据!

  原创文章,转载请注明出处:光环大数据


 


大数据培训、人工智能培训、Python培训、大数据培训机构、大数据培训班、数据分析培训、大数据可视化培训,就选光环大数据!光环大数据,聘请专业的大数据领域知名讲师,确保教学的整体质量与教学水准。讲师团及时掌握时代潮流技术,将前沿技能融入教学中,确保学生所学知识顺应时代所需。通过深入浅出、通俗易懂的教学方式,指导学生更快的掌握技能知识,成就上万个高薪就业学子。 更多问题咨询,欢迎点击------>>>>在线客服

你可能也喜欢这些

在线客服咨询

领取资料

X
立即免费领取

请准确填写您的信息

点击领取
#第三方统计代码(模版变量) '); })();
'); })();