运营商,大数据核心建模能力需要自我掌控
光环大数据,拥有16年的程序员培训经验,上市公司品牌,口碑极好,一线名师授课,强大的教研团队研制开发最新的课程,与中关村软件园战略合作保障人才输出,与学员签订就业协议保障就业问题!真正的靠谱品牌!
“大数据建模就是将原始数据加工成信息和知识的过程,好比采油炼油过程,光有数据而没有采集分析能力,就像躺在地底下的石油却没法开采加工一样毫无价值”。这是对于大数据建模价值的通俗解释。这里的建模较传统意义上的建模概念更为广泛,特指大数据领域的数据采集(ETL)+融合建模(DW)+数据挖掘(DM)完整的过程。
大数据时代的挑战
随着大数据时代的到来,当前情况开始发生变化。大数据带来的影响,不仅仅是指技术革命带来的的数据爆炸,更是思维方式的一次革命: 在传统通信领域,网络和市场能力是运营商的抓手,而大数据的抓手是什么呢。一方面当然是硬实力即大数据平台能力,而另一方面则是软实力,挖掘数据价值的能力,即建模能力。“没有一家大数据公司通过大数据建模工作外包而获得成功”,“大数据建模能力需要自我掌控”,这是浙江移动敏锐的观察到建模之于大数据运营意义之后,对于大数据软实力提出的期望,更是大数据运营要实现创新突破的重要前提。进入DT时代,运营商想在大数据上有所作为,为什么数据建模核心能力需要自我掌控呢? 这是有其原因的: 当前不仅是BAT,大量的大数据公司如雨后春笋般的发展起来,所有的公司都在疯狂的搜集数据,运营商的数据也许几年之后就可能大量贬值。即使是现在,运营商的数据优势可能也仅在于全面性,就以位置数据为例,运营商的位置数据由于基站精度问题与GPS等数据相比没有更多优势,只有与运营商客户数据的整合才能体现出差异化优势。举例来说,百度的基于GPS信息形成的客流图精度也许远高于运营商的客流图。但当前,百度也许还无法形成基于客户细分的客流图,其无法精确分析30-40岁商务人士的客流图,而这一点运营商却能做到。但随着未来互联网信息共享与交换体系的形成,也许优势也不会存在,但运营商如果当前连基于自身的数据进行建模和整合的能力都没有,谈何差异化优势。况且,三家运营商数据割裂,同一个运营商还区分为30多个经营实体数据的情况下,对于数据建模的要求又是何其之高。
不可或缺的能力
1、组织保障
大数据是一把手工程没错,任何战略性的措施没有最高层的支持不太可能成功。基于这个目的,运营商需要成立相对独立的数据管理组织,专注于企业级大数据统一采集、建模及挖掘,从而为大数据运营奠定基础。组织上的设置也体现了公司对于建模工作专业性和重要性的认可,IT部门的数据建模师在运营商内部内获得了真正的身份,归属感对于数据人员讲,还是非常重要的,你的公司会有这个岗位吗?
2、团队建设
数据建模对于人员的综合素质要求较高,一般来说,人员专业跨度越大,越有利于数据创新。比如运营商,需要采取社会招聘、内部人才流动、全员推荐等方式广纳人才,汇聚包括网络、计费、通信、经分、其他行业等各专业人才,同时,建议联合在数据建模领域的顶尖合作伙伴,制定数据建模师的培养路径图,为建模师创造良好的成长和交流环境。同时鼓励数据建模师进行创新,给员工赋能。
3、数据采集
运营商需要打破部门壁垒,联手网络部等部门,以企业级的视野对于O/B/M三域系统和数据进行全面的盘点,形成较为完整的企业级数据字典,为大数据平台数据实际采集奠定坚实的基础。 O域系统图示例 接口级梳理示例 通过研究各类数据特点,需要明确数据在三大资源池部署规范(包括HADOOP、 MPP及流处理资源池),实时的数据进入流处理资源池,静态的数据全部进HADOOP,其中交叉关联的核心数据也让它进入MPP吧,只读数据按照不同特点进入不同的技术池,不同类型的数据只有在不同的资源池中,才能发挥出应有的价值。数据部署的合理性很大程度依赖于数据库(也许说资源池更好一点)的特点及特定的的应用场景。
数据资源池示例
4、建模标准
无论是传统报表系统、还是数据仓库或是现今的大数据平台,如果你有幸从头开始建设一个系统,那么数据标准化是需要核心解决的问题。人类通过定义了标准语言来有效传递信息,那么在数据领域,模型标准化就起到同样的作用。我们需要花大力气制定数据建模的基本规范,对于数据分类、定义、命名等各个方面做大量标准化定义,不再会出现一个数据的要素有两个名字等情况出现,这个工作意义巨大,只有做到数据的“书同文,车同轨”,我们数据沟通效率就会更好,管理成本就会越低。任何做数据建模工作的人都清楚,数据的定义如果事先不规范好,其后面带来的传承成本和沟通成本是巨大的,下面简要的摘录了规范的一页,各个企业都应该有这样一本法典。 数据建模规范示例
5、数据建模
(1)总体设计原则与方法:高层级可以从低层级获取数据,但低层级不允许从高层级获取数据。
(2)数据整合层的设计思路
(3)统一视图层的设计思路 在主题层面,运营商要尝试着突破传统通信领域,以客户为核心来构建融合模型体系,同时,基于流处理构建实时模型。因为对外运营需要我们的模型更加客户化和实时化,大数据时代的建模挑战完全不同于以往。
以客户为核心的数据模型
以事件为核心的实时模型
6、数据挖掘
有了数据模型,数据挖掘也就有了有源之水,健壮的数据模型可以有效提升数据挖掘的效率。大数据建模师需要基于社会热点和自身的思考,需要基于价值变现的需求,采用数据建模的手段来挖掘客户特征,揭示社会规律,比如在浙江移动大数据梦工场的公众号上,建模师陆续发布了“你来我往-揭秘交通”、“大数据窥探俄罗土风波”、“揭秘双11狂欢节”、“数说国际(杭州)毅行大会”、“大数据帮你解析疯狂的科技园”、“杭州人在路上”、“寻找未来的霸道总裁”、“大数据与星座”、“大数据揭秘儿童医院”等系列文章,在实践中能沉淀下来大量的模型标签,比如轨迹模型、身份模型(大学生、白领、医生、护士等)、偏好模型(比如爱好跑步)、社交模型(比如亲密度)等,这些能成为企业宝贵的标签资产。 杭州人在路上示例 疯狂加班科技园示例 双十一报告示例
展望未来
大数据培训,大数据培训,就选光环大数据!
原创文章,转载请注明出处:光环大数据 http://hadoop.aura.cn
大数据培训、人工智能培训、Python培训、大数据培训机构、大数据培训班、数据分析培训、大数据可视化培训,就选光环大数据!光环大数据,聘请专业的大数据领域知名讲师,确保教学的整体质量与教学水准。讲师团及时掌握时代潮流技术,将前沿技能融入教学中,确保学生所学知识顺应时代所需。通过深入浅出、通俗易懂的教学方式,指导学生更快的掌握技能知识,成就上万个高薪就业学子。 更多问题咨询,欢迎点击------>>>>在线客服!