大数据分析_数据分析中容易遇到的误区
大数据分析_数据分析中容易遇到的误区。光环大数据,拥有16年的程序员培训经验,上市公司品牌,口碑极好,一线名师授课,强大的教研团队研制开发最新的课程,与中关村软件园战略合作保障人才输出,与学员签订就业协议保障就业问题!真正的靠谱品牌!数据分析,我一直觉得这属于很多人不知道Ta有多重要、一部分人知道Ta重要但并不重视,只有极少数人真正在工作中重视Ta并且运用Ta。
说一个东西重要,肯定要讲为什么,不然绝对是要被拿着刀追几条街的。
那么,数据分析为什么重要呢?至少有以下好处:
相比“似乎”、“好像”,能够更加客观的呈现真实现状;
相比“我以为”、“我觉得”,数据的改变是对产品”改变”做出的最直观、最无声的投票,数据可以佐证“改变”是否正确、恰当以及效果如何;
相比所谓的“经验”、“年纪”、“职位”,数据能够排除掉这些太不可控的“主观”的影响/压力,作为另一个相对客观的决策依据;
说的更加大白话一些的,那就是:
你刚接手个新业务,搞不清现状,小伙伴也东一嘴西一嘴的讲的碎碎的,你可以看数据;
如果你想做某个需求,人家不给你做,你可以甩数据给他看,证明需求的必要性;
如果你不想做某个需求,但人家硬要你做,你还是可以甩数据,证明需求无意义或者效果不理想;
如果你做了需求不知道要不要继续迭代下去,你还是可以看数据,去看用户的无声投票如何;
数据是产品、运营、技术日常装备中必不可少的矛和盾。至于什么时候是矛,什么时候是盾,那就看不同场合不同情况了。
//补充:数据分析辅助决策,但并不是决策的唯一要素。我并不鼓吹数据分析天下第一,请注意,合理使用才是王道。
数据的最大天坑
数据分析,字面意思,数据分析由两个部分组成:一是数据,二是分析,看起来跟废话一样,但却也是绝大多数人都忽略的。
大多数人在讲到数据分析的时候,更加注重的是分析,而并不是数据本身,这就造成了数据分析最大的误区:不关心数据怎么来,使劲儿做无用功。
举个简单的例子呗?
在App的新版本上,产品经理新加了个子频道。版本上了一段时间数据稳定后,产品经理从数据发现,哎哟,这个子频道很吊炸天啊,点击率、登录比等数据同比甩其他子频道N条街啊,恩,说明这个子频道用户很需要呀,以后要接着往这个方向上做。
看似,产品经理好像做了正确决策吧?
然而,oh,no,不幸的消息来了!
程序员在数据埋点的时候不小心埋错了,他把另一个热门子频道的数据和这个新频道埋在了一起,数据计算的是这两个频道的总和!(抱歉,程序员又一次实力背锅,之后会为你们正名)
因为错误的数据,得出了错误的分析结果,并且还做了后续错误方向的工作,这在日常中其实并不少见,虽然真的很蠢。
有效数据分析的前提,是对正确的数据做分析。
分析的最大天坑
数据怎么来的,是基础。得来的数据怎么分析,是进阶。光有数据不分析,假把式,还糟蹋了人家的SQL。
这就引来了一个重要问题:为什么要分析?
用基本的分析去了解现状以及趋势;
用针对的分析去验证或者踢翻自己的想法;
看似很简单,实际做起来却一点儿都不简单。又要举个常见例子呗:
新版本发布了一段时间,数据也稳定了,产品经理让实习生A、B、C分别做一份用户对新版本各项修改内容的数据分析反馈报告。
实习生A:这个简单啊,数据组的同学一定有数据,拿过来就是了。
最后他把各种原始数据表发给了产品经理;
产品经理内心独白:X,我要你有个啥用?
实习生B:这个工作,数据同学说不定已经做了,直接找他问就好了嘛。
最后他把数据挖掘童鞋的口述内容写成了报告发给了产品经理;
产品经理内心独白:虽然比之前的那个好,但依旧X,你自己的脑子呢?
实习生C:这个报告不是那么好写的,至少得:
看下新增、优化、影响了哪些地方做重点观察;
围绕着这些地方,分别列好目标和可能的猜想;
找数据挖掘童鞋聊并且记录根据他的角度数据处于什么样的情况,还得记得拿原始数据;
自己再做一次针对性的数据分析工作;
得出一些结论,保留一些疑惑等;
最后他把根据以上步骤得出的观点做成了报告发给了产品经理,同时附带了原始数据的各种变形计算;
产品经理内心独白:这个上道,可以的可以的。
实习生A、B其实都属于没有搞清楚为什么要分析,分析的目的到底是什么。没有想清楚这一环节,自然给到的分析结果也没什么用了。
分析目的是指南针,只有方向对了,后续的各种分析方法以及分析结果才有意义。
上文举的例子,其实一部分说明了数据分析过程中除了以上两大坑之外的一些其他小坑坑,下面也来简单列一列:
1.小团队的数据正确性很难被保证
这个就是上文举例的时候我说会为开发同学正名的部分。大公司暂且不说,毕竟,光是数据支持团队就比人家小公司一整个团队的人还要多了。
小公司往往没有资源去组建自己的数据团队,这个时候就要使用各种第三方的统计软件来做数据埋点。然而,各个统计软件又有各自的问题:
GA:需要翻墙,数据会计漏;
百度:额,不说了;
友盟:统计大的数据ok,但是在细致的用户行为方面就比较菜了,代码埋点也是个坑,数据也不图表化!(好久前用的,可能现在已经慢慢有图表了吧?);
fabric:和友盟其实差不多,但是强在程序报错上,另外数据图表化做的也是很炫酷,但,还是坑爹的代码埋点;
growingio/诸葛io:强于细致的用户行为数据分析,同时宣称可以无代码埋点。然而无代码埋点又是另一个不亚于代码埋点的大坑,必须符合他的框架写法才行,不然数据统计不上或者出错。然而,框架写法又没有明确的文本说明,开发也不一定能改掉自己的写法。另外,细致的用户行为数据分析,在实际分析操作上也是很蛋疼的;
完蛋,扯远了,这块如果感兴趣,可以专门搞篇文章写写。想说的是,代码埋点会产生很多问题,例如:
可能因为不同程序员的页面代码写法不同,计算结果不同;
可能因为埋点过程中没有沟通好,出现理解偏差,计算结果不同;
可能因为开发不小心埋错点,计算结果不同;
可能因为版本迭代修改了某个地方,导致计算结果不同;
非常多可能性,导致埋点错误,从而导致数据错误。每次看移动端数据,都要ios和android端一起对着看,谁能懂?特么的跟侦探一样样的。
2.存在已久并不代表一定正确
这个存在已有,不仅是指数据,同样也指分析结果。
某个数据存在已有,所有人都对Ta没有质疑,这就能说明这个数据没错了么?
其实不一定哦,也许这个数据从未被人注意过,也有可能大家都把质疑数据的正确性这个前提给忽略掉了。
所以,如果在分析的过程中发现,数据的横向对比或者纵向对比,结果存在一定的违背,那么这个时候就要注意了。
至于分析结果的存在已久嘛,没啥好说的,产品功能、产品运营手法都有可能导致数据的大变动,分析时段自然要比较新鲜才有用。
3.数据条件很重要
数据条件是什么意思?说白了就是放在数据这两字前的定语,即:什么样的数据。(这是定语还是形容词,傻傻搞不清)
举个例子:
极度活跃用户、一般活跃用户、不活跃用户、沉默用户、流失用户。在用户之前的字就是数据条件。
为啥说数据条件很重要呢?原因在于不同条件的数据在各项指标上可能都会差异非常大,而无法用简单的均值来做概括。例如极度活跃用户在活跃天数、活跃时长、日活跃次数、留存率等上都会甩掉其他用户好几个级别。
当然,更为日常的情况是,在和数据同学沟通的时候,一定要先确保大家的沟通前提处在同一条件下,不然很可能出现的情况是:拿到的数据是正确的,但是条件是偏差的。
4.第一手分析很重要
很多小伙伴喜欢偷懒,觉得有数据挖掘同学分析数据就可以了,但其实并不是这样的。
其一:除了数据本身是客观的之外,对数据做的任何处理都是主观的,不管是用模型还是各种数据之间的变形计算,都是主观的,差别在于主观的程度多少而已,每个人都会站在自己的背景知识去处理数据,如何保证别人的和自己相同呢?
其二:在分析数据的过程中,一般来说,各种横纵向对比,是可以发现一些自己之前没有注意过的结论的。而这点,别人帮你分析的过程中,一般这些信息无形中就不见了。
5.分析具有联动性
绝大多数情况下,单独看某一个数据,一般意义不那么大,或者说达不到更好的效率。
举些例子:
评价某模块做的好不好,只看绝对uv,而不同时看模块登录比,介是耍流氓;
评价内容做的好不好,只看生产的绝对量,而不同时看不同类型内容的分别用户uv占比/生产量,介也是耍流氓;
联动的看数据,才能更加综合的去判断。
感觉写的差不多了,那就先这样呗?虽然还有一些其他小坑,哎哟,以后再写吧。再熬夜,感觉一周都要缓不过去了。
大数据分析培训,数据分析培训,就选光环大数据!
原创文章,转载请注明出处:光环大数据http://hadoop.aura.cn
大数据培训、人工智能培训、Python培训、大数据培训机构、大数据培训班、数据分析培训、大数据可视化培训,就选光环大数据!光环大数据,聘请专业的大数据领域知名讲师,确保教学的整体质量与教学水准。讲师团及时掌握时代潮流技术,将前沿技能融入教学中,确保学生所学知识顺应时代所需。通过深入浅出、通俗易懂的教学方式,指导学生更快的掌握技能知识,成就上万个高薪就业学子。 更多问题咨询,欢迎点击------>>>>在线客服!