在线咨询大数据培训机构

在线咨询

匿名咨询大数据培训机构
匿名咨询光环大数据培训机构

视频下载

匿名咨询大数据培训机构
匿名咨询光环大数据培训机构

公益讲座

微信咨询大数据培训机构
微信咨询光环大数据培训机构

微信咨询

电话咨询大数据培训机构
电话咨询光环大数据培训机构

电话咨询

分享大数据培训机构
分享光环大数据培训机构

一键分享

返回大数据培训

返回顶部

大数据培训机构电话
010-84675811
报名咨询大数据培训机构

报名咨询

大数据培训机构免费入学
免费入学光环大数据培训机构

优惠活动

大数据培训机构课程
光环大数据课程

名师亲授

大数据培训老师
光环大数据培训老师

就业前景

大数据培训机构就业

就业保障

光环大数据培训就业

就业详情

大数据得有理由

大数据的定义
所谓大数据,麦肯锡全球研究所给出的定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。
大数据开发
随着互联网的发展,很多从事数据分析的人已经不满足大型企业很需求。数据可视化所涵盖的技术要广泛的多。大数据可视化实际应用已深入到各个行业,通信、能源、医疗、零售、游戏、体育、影视、旅游、交通行业等各行各业,都可以从其数据的采集、传输、存储、分析等各个环节产生巨大经济价值,全球企业都从中获益。
大数据学习误区
行业真正大数据,82%主讲都是hadoop、spark生态体系、storm实时开发。市面所谓“大数据”机构85%基本讲的都是JAVA/PHP数据或数据库学习(大数据课程含量不超过15%),初学者请务必认清你要学的是不是真正大数据!!!
国家政策支持
经李克强总理签批,国务院日前印发《促进大数据发展行动纲要》李克强在致辞中说,当今世界,信息化浪潮席卷全球,大数据、云计算、物联网等蓬勃发展,使互联网时代迈上一个新台阶。今天的中国要把握住世界科技革命的历史机遇。

不是没有高薪职位,只需学会大数据技术

2017年大数据工程师人均年薪20万

市面大数据培训占比
真正大数据市场价值很高
市面上大数据培训鱼龙混杂,有Java、PHP、数据库大数据等,但真正大数据是hadoop、spark、storm、超大集群调优、机器学习、Docker容器引擎、ElasticSearch、并发编程等,别人不能讲的我们讲,别人能讲的我们讲得很深入。
以北京为例,真正大数据工程师平均年薪达201640-451670
大数据工程师人才缺口大
大数据工程师发展空间巨大
光环
大数据
数据表明,近几年间大数据人才缺口就已高达百万,目前企业高薪都难以找到足够的大数据开发人才,大数据从业者的增长量,远远满足不了市场需求的扩张,大数据人才需求将出现“井喷”现象
大数据行业应用广泛,大数据职业的相关人才匮乏,人才缺口非常大。职业选择多达几十种,要升职加薪很容易!可以说,未来的大数据工作,就意味着高薪、稳定、广泛的职业使用度、优越感……

专注打造企业需求的全栈式大数据开发工程师

价值:“大数据产生价值的核心”

说明:

1.大数据开发所涉及的数据来源于各种不同种类的数据,需要确定数据的输入及产出、数据量,处理效率、可靠性、可维护性

2.大数据开发过程需要明确大数据项目的目标、基于数据做决定、选择使用权、选择合适的数据输出设备

理论+实战的黄金课程体系

大数据课程分为13大阶段90大模块课程+6大企业真实项目实战,每个阶段都有实力案例和项目结合,从简单到专业一步一步带领学生
走进大数据开发的世界,帮助学生顺利走上大数据工程师的道路!

课程
一阶段
JavaSE开发

学习内容:JavaSE实战开发

学习目标:Java面向对象、访问权限、抽象类与接口、
                         异常处理、I/O流与反射、Java网络编程。

完成项目:Java多线程模拟多窗口售票,Java集合框架
                         管理。

课程
二阶段
JavaEE开发

学习内容:JavaEE实战开发

学习目标:Mysql数据库,JDBC,JavaWeb开发、
                         Servlet JSP、Java三大框架核心框架开发

完成项目:京东电商网站项目、2048游戏项目、智能
                         图书管理系统

课程
三阶段
并发编程实战开发

学习内容:并发编程实战开发

学习目标:掌握Socket编程模型、NIO与AIO编程模型
                         Buffer API与通信框架Netty。

完成项目:类QQ聊天室、RPC模拟实现

课程
四阶段
Linux精讲

学习内容:Scala函数、Spark SQL、机器学习

学习目标:搭建负载均衡、高可靠的服务器集群,增
                         大网站并发访问量,保证服务不间断。

完成项目:公司网络拓扑实战、构建企业网站和邮件应
                         用平台 、构建服务器管理监控系统。

课程
五阶段
Hadoop生态体系

学习内容:Hadoop生态体系

学习目标:掌握HDFS原理、操作和应用开发,掌握分
                         布式运算、Hive数据仓库原理及应用。

完成项目:微博数据大数据分析项目、用户行为分析项
                         目、精准广告投放项目。

课程
六阶段
Python实战开发

学习内容:Python实战开发

学习目标:能够编写网络爬虫、Python进行网络编程
                         PythonWeb全栈开发、Python机器学习。

完成项目:Python微博数据爬取、MapReduce设计ETL
                         Hive计数统计分析、SSM框架可视化分析。

课程
七阶段
Storm实时开发

学习内容:Storm实时开发

学习目标:掌握Storm程序的开发及底层原理,具备开
                         发基于Storm的实时计算程序的能力。

完成项目:实时处理新数据和更新数据库,处理密集查询
                         并行搜索处理大集合的数据。

课程
八阶段
Spark生态体系

学习内容:Spark生态体系

学习目标:熟练使用Scala快速开发、Spark进行深入编
                         程,以及spark大数据调优。

完成项目:使用Spark处理离线数据、使用Spark
                         Streaming完成实时计算。

课程
九阶段
ElasticSeach

学习内容:大型综合性大数据项目

学习目标:能够熟练查询DSL、掌握底层索引控制、索
                         引段统计与故障处理。

完成项目:实时索引存储节点,elasticsearch建立索引精
                         准搜索分析。

课程
十阶段
Docker容器引擎

学习内容:大型综合性大数据项目

学习目标:熟练Docker安装配置、掌握Docker核心开
                         发、Docker镜像与数据管理。

完成项目:docker镜像与容器存储结构分析,使用docker
                         容器搭建jenkins集群。

课程
十一阶段
机器学习

学习内容:大型综合性大数据项目

学习目标:熟练模型评估与选择,熟练使用机器学习各
                         种算法,掌握机器学习与大数据的结合。

完成项目:广告CTR预估及投放,智能数据实时监测项目
                         社交图谱大数据分析。

课程
十二阶段
超大集群调优

学习内容:超大集群调优

学习目标:能够熟练进行版本调优、压缩调优、文件调
                         优、参数调优等八大集群调优。

完成项目:大数据并发超大集群调优,服务器大集群架构
                         调优,超大数据资源调优。

课程
十三阶段
大数据项目实战

学习内容:大型综合性大数据项目

学习目标:能够综合运用大数据知识进行非结构化数据
                         开发、分析,能够开发大型项目。

完成项目:某大型网站日志分析,移动业务感知分析,实
                         时检测车辆超速项目,实时非法网站检测项目

大数据开发详细课程内容

宗旨: 光环大数据自成立起,只专注大数据就业培训,紧跟行业发展趋势和企业需求,每2-3月升级完善课程,定期访问名企及已就业学员,确保课程前沿、专业、实用!
课程价值: 1. 所有课程均为全新课程,其中hadoop课程为全新3.0版本,spark课程为全新2.2版本
      2. 超大集群调优、机器学习、Docker容器引擎、ElasticSearch、Python实战开发、并发编程等均为光环大数据研发课程!
授课模式: 1. 拒绝纸上谈兵,所有上课代码全部手敲,现场实战演练!(其他机构大都只教授理论,学生无任何实战能力)
      2. 为保障学员吸收效果,课程中所有模块、流程、原理、阶段等均由老师现场原创画图解读!(其他机构大都按照PPT照本宣读)

JavaSE
课程大纲

点击咨询课程
1.初识Java 2.流程与控制 3.面向对象及方法重载 4.访问权限和继承 5.抽象类与接口
1、Java发展简史,主要特征
2、Java运行机制
3、第一个Java程序,注释
4、Javac,Java,Javadoc等命令
5、标识符与关键字
6、变量的声明,初始化与应用
7、变量的作用域
8、变量重名
9、基本数据类型
10、类型转换与类型提升
11、各种数据类型使用细节
12、转义序列
13、各种运算符的使用
1、选择控制语句if-else
2、选择控制语句switch-case
3、循环控制语句while
4、循环控制语句do-while
5、循环控制语句for与增强型for
6、break,continue,return
7、循环标签
8、数组的声明与初始化
9、数组内存空间分配
10、栈与堆内存
11、二维(多维)数组
12、Arrays类的相关方法
13、main方法命令行参数
1、面向对象的基本思想
2、类与对象
3、成员变量与默认值
4、方法的声明,调用
5、参数传递和内存图
6、方法重载的概念
7、调用原则与重载的优势
8、构造器声明与默认构造器
9、构造器重载
10、this关键字的使用
11、this调用构造器原则
12、实例变量初始化方式
13、可变参数方法
1、包的声明与使用
2、import与import static
3、访问权限修饰符
4、类的封装性
5、static(静态成员变量)
6、final(修饰变量,方法)
7、静态成员变量初始化方式
8、类的继承与成员继承
9、super的使用
10、调用父类构造器
11、方法的重写与变量隐藏
12、继承实现多态和类型转换
13、instanceof
1、抽象类
2、抽象方法
3、继承抽象类
4、抽象类与多态
5、接口的成员
6、静态方法与默认方法
7、静态成员类
8、实例成员类
9、局部类
10、匿名类
11、eclipse的使用与调试
12、内部类对外围类的访问关系
13、内部类的命名
6.Lambda表达式与常用类 7.异常处理与泛型 8.集合(上)和集合(下) 9.I/O流与反射 10.Java网络编程与多线程
1、函数式接口
2、Lambda表达式概念
3、Lambda表达式应用场合
4、使用案例
5、方法引用
6、枚举类型(编译器的处理)
7、包装类型(自动拆箱与封箱)
8、String方法
9、常量池机制
10、String讲解
11、StringBuilder讲解
12、Math,Date使用
13、Calendars使用
1、异常分类
2、try-catch-finally
3、try-with-resources
4、多重捕获multi-catch
5、throw与throws
6、自定义异常和优势
7、泛型背景与优势
8、参数化类型与原生类型
9、类型推断
10、参数化类型与数组的差异
11、类型通配符
12、自定义泛型类和类型擦出
13、泛型方法重载与重写
1 、常用数据结构
2 、Collection接口
3 、List与Set接口
4 、SortedSet与NavigableSet
5 、相关接口的实现类
6 、Comparable与Comparator
7、Queue接口
8 、Deque接口
9 、Map接口
10、NavigableMap
11、相关接口的实现类
12、流操作(聚合操作)
13、Collections类的使用
1 、File类的使用
2 、字节流
3 、字符流
4 、缓存流
5 、转换流
6 、数据流
7、对象流
8、类加载,链接与初始化
9 、ClassLoader的使用
10、Class类的使用
11、通过反射调用构造器
12、安全管理器
1、进程与线程
2、创建线程的方式
3、线程的相关方法
4、线程同步
5、线程死锁
6、线程协作操作
7、计算机网络(IP与端口)
8、TCP协议与UDP协议
9、URL的相关方法
10、访问网络资源
11、TCP协议通讯
12、UDP协议通讯
13、广播

JavaEE
课程大纲

点击咨询课程
1.Mysql 2.Jdbc 3.HTML 4.CSS 5.Javascript
1、数据库基础知识
2、SQL理论基础和数据类型
3、DDL、DML、DQL语句
4、函数和关联查询
5、子查询、约束、视图
6、编程 存储过程,触发器
7、Sql查询案例和优化
1、Jdbc基本概念
2、使用Jdbc连接数据库
3、使用Jdbc进行crud操作
4、使用Jdbc进行多表操作
5、Jdbc驱动类型
6、Jdbc异常和批量处理
7、Jdbc储存过程
1、Html基本介绍
2、HTML语法规范
3、基本标签介绍
4、表单介绍
5、Table标签
6、DIV布局介绍
7、HTML列表详解
1、CSS简介及文字样式
2、盒子模型
3、布局及定位
4、CSS选择器
5、CSS3动画效果
6、CSS3新增选择器
7、案例
1、JavaScript简介
2、基本语法规则
3、if判断语句和for循环语句
4、函数、事件
5、内置对象和自定义对象
6、DOM操作
7、表单验证
6.Jquery 7.Servlet+Jsp 8.Springmvc+ 9.Mybatis 10.Maven+Svn
1、Jquery简介
2、Jquery选择器
3、Jquery中事件操作
4、Jquery的动画效果
5、使用Jquery完成Dom操作
6、Jquery封装函数
7、Jquery案例
1、Servlet简介
2、Request对象
3、Response对象
4、转发和重定向
5、使用Servlet完成Crud
6、Session和Coolie简介
7、ServletContext和Jsp
8、El和Jstl的使用
1、Springmvc简介
2、用Springmvc第一个项目
3、Springmvc执行流程和参数
4、Springmvc
5、Springmvc数据回显
6、结果返回类型
7、文件上传及Ajax
8、拦截器
1、Mybatis简介
2、Mybatis配置文件解析
3、用Mybatis完成crud操作
4、ResultMap的使用
5、Mybatis关联查询
6、动态sql语句
7、Mybatis缓存
8、Mybatis-Generator
1、Ioc、Aop、Ssm整合
2、Svn的简介
3、Svn的安装
4、Svn在集成环境中使用
5、Maven简介及安装
6、使用Maven开发项目

并发编程

点击咨询课程
1.Socket编程编程 2.伪异步IO编程 3.NIO与AIO编程模型 4.Buffer API讲解 5.通信框架Netty
1、网络中进程之间如何通信
2、Socket是什么
3、socket的基本操作
4、socket类型讲解
5、socket基本函数
6、socket高级函数
7、socket中TCP交换分组
8、socket中TCP高级编程
1、用户空间和内核空间
2、同步和异步/阻塞与非阻塞
3、伪异步IO编程基础
4、伪异步IO模型图
5、伪异步式IO创建TimeServer
6、伪异步IO弊端分析
7、伪异步IO编程实战
1、网络编程模型基本认识
2、BIO、NIO、AIO适用场景
3、同步阻塞 I/O
4、同步非阻塞 I/O
5、异步阻塞 I/O
6、异步非阻塞 I/O(AIO)
7、NIO与AIO基本操作
8、高性能IO设计模式
1、缓冲区的四个属性
2、相对存取和绝对存取
3、翻转与释放
4、创建缓冲区
5、缓冲区类型与操作
6、缓冲区比较
7、ByteBuffer 类存取和转化
1、Netty 基本认识
2、Netty 架构特征详解
3、Netty行业应用
4、Netty 框架基本操作
5、Netty 和 Mina比较
6、缓冲区比较
7、ByteBuffer 类存取和转化

Linux
精讲

点击咨询课程
1.Linux安装与配置 2.系统管理与目录管理 3.用户与用户组管理 4.Shell编 程 5.服务器配置
1、安装Linux至硬盘
2、获取信息和搜索应用程序
3、进阶:修复受损的Grub
4、关于超级用户root
5、依赖发行版本的系统管理工具
6、关于硬件驱动程序
7、进阶:配置Grub
8、CSS预处理器LESS框架使用;
9、CSS组件框架编写。
1、Shell基本命令
2、使用命令行补全和通配符
3、find命令、locate命令
4、查找特定程序:whereis
5、Linux文件系统的架构
6、移动、复制和删除
7、文件和目录的权限
8、文件类型与输入输出
9、vmware介绍与安装使用
10、网络管理、分区挂载
1、软件包管理
2、磁盘管理
3、高级硬盘管理RAID和LVM
4、进阶:备份你的工作和系统
5、用户与用户组基础
6、管理、查看、切换用户
7、/etc/...文件
8、进程管理
9、linux VI编辑器,awk,cut,grep,sed,find,unique等
1、 SHELL变量
2、传递参数
3、数组与运算符
4、SHELL的各类命令
5、SHELL流程控制
6、SHELL函数
7、SHELL输入/输出重定向
8、SHELL文件包含
1、系统引导
2、管理守护进程
3、通过xinetd启动SSH服务
4、配置inetd
5、Apache基础
6、设置Apache服务器
7、使用PHP+MySQL

Hadoop
生态体系

点击咨询课程
1. Hadoop起源与安装 2.HDFS分布式文件系统 3.Hadoop文件I/O详解 4.MapReduce工作原理 5.MapReduce编程开发
1、大数据概论
2、 Google与Hadoop模块
3、Hadoop生态系统
4、Hadoop常用项目介绍
5、Hadoop环境安装配置
6、Hadoop安装模式
7、Hadoop配置文件
1、认识HDFS及其HDFS架构
2、Hadoop的RPC机制
3、HDFS的HA机制
4、HDFS的Federation机制
5、 Hadoop文件系统的访问
6、JavaAPI接口与维护HDFS
7、HDFS权限管理
8、hadoop伪分布式
1、Hadoop文件的数据结构
2、 HDFS数据完整性
3、文件序列化
4、Hadoop的Writable类型
5、Hadoop支持的压缩格式
6、Hadoop中编码器和解码器
7、 gzip、LZO和Snappy比较
8、HDFS使用shell+Java API
1、MapReduce函数式编程概念
2、 MapReduce框架结构
3、MapReduce运行原理
4、Shuffle阶段和Sort阶段
5、任务的执行与作业调度器
6、自定义Hadoop调度器
7、 异步编程模型
8、YARN架构及其工作流程
1、WordCount案例分析
2、输入格式与输出格式
3、压缩格式与MapReduce优化
4、辅助类与Streaming接口
5、MapReduce二次排序
6、MapReduce中的Join算法
7、从MySQL读写数据
8、Hadoop系统调优
6.Hive数据仓库工具 7.Hive深入解读 8.Sqoop与Oozie 9.Zookeeper详解 10.开源数据库HBase
1、Hive工作原理、类型及特点
2、Hive架构及其文件格式
3、Hive操作及Hive复合类型
4、Hive的JOIN详解
5、Hive优化策略
6、Hive内置操作符与函数
7、Hive用户自定义函数接口
8、Hive的权限控制
1 、Hive开发环境的搭建
2 、Hive的三种连接方式
3 、Hive的DDL
4 、Hive的DML
5 、Hive数据类型
6 、Hive特殊分隔符处理
7、Hive启动shell配置
8、Hive数据倾斜
1 、安装部署Sqoop
2、Sqoop数据迁移
3、Sqoop使用案例
4、深入了解数据库导入
5、导出与事务
6、导出与SequenceFile
7、Azkaban执行工作流
1、Zookeeper简介
2、Zookeeper的下载和部署
3、Zookeeper的配置与运行
4、Zookeeper的本地模式实例
5、Zookeeper的数据模型
6、Zookeeper命令行操作范例
7、storm在Zookeeper目录结构
1、HBase的特点
2、HBase访问接口
3、HBase存储结构与格式
4、HBase设计
5、关键算法和流程
6、HBase安装
7、HBase的SHELL操作
8、HBase集群搭建
项目实践
项目一:用户行为分析
项目二:精准广告投放

Python
实战开发

点击咨询课程
1. Python入门开发 2.Python核心编程 3.Python网络编程 4.Python Web全栈开发 5.Python机器学习
1、Python对象、数字、序列
2、 Python映像和集合类型
3、Python条件和循环
4、Python文件和输入输出
5、Python错误和异常
6、函数和函数式编程
7、Python面向对象编程
1、Python正则表达式
2、Python函数编程
3、Python多线程编程
4、Python图形用户界面编程
5、Python数据库编程
6、创建Python扩展
7、Python核心编程
1、客户端/服务器架构
2、客户端/服务器网络编程
3、Python面向连接与无连接
4、创建TCP服务器与客户端
5、创建UDP服务器与客户端
6、Socket模块属性
7、Python和FTP/SMTP
1、创建Web客户端
2、 urlparse/urllib/urllib2模块
3、高级Web客户端
4、建立CGI应用程序
5、建立Web服务器
6、全面交互的Web站点
7、高级CGI
1、机器学习基础技巧
2、 科学计算 Python 软件包
3、使用 Python 学习机器学习
4、Python 机器学习基本算法
5、Python 进阶机器学习算法
6、Python 深度学习
7、 Python 机器学习实战
项目实战
项目一:Python微博数据爬取
项目二:MapReduce设计ETL
项目三:Hive计数统计分析
项目四:SSM框架可视化分析

Storm
实时开发

点击咨询课程
1. storm简介与基本知识 2.拓扑详解与组件详解 3.spout详解 与bolt详解 4.storm安装与集群搭建 5.Kafka
1、storm的诞生诞生与成长
2、storm的优势与应用
3、storm基本知识概念和配置
4、序列化与容错机制
5、可靠性机制—保证消息处理
6、storm开发环境与生产环境
7、storm拓扑的并行度
8、storm命令行客户端
1、流分组和拓扑运行
2、拓扑的常见模式
3、本地模式与stormsub的对比
4、 使用非jvm语言操作storm
5、hook、组件基本接口
6、基本抽象类
7、事务接口
8、组件之间的相互关系
1、spout获取数据的方式
2、常用的spout
3、学习编写spout类
4、bolt概述
5、可靠的与不可靠的bolt
6、复合流与复合anchoring
7、 使用其他语言定义bolt
8、学习编写bolt类
1、storm集群安装步骤与准备
2、本地模式storm配置命令
3、配置hosts文件、安装jdk
4、zookeeper集群的搭建
5、部署节点
6、storm集群的搭建
7、zookeeper应用案例
8、Hadoop高可用集群搭建
1、Kafka介绍和安装
2、整合Flume
3、Kafka API
4、Kafka底层实现原理
5、Kafka的消息处理机制
6、数据传输的事务定义
7、Kafka的存储策略
6.Flume 7.Redis
1、Flume介绍和安装
2、Flume Source讲解
3、Flume Channel讲解
4、Flume Sink讲解
5、flume部署种类、流配置
6、单一代理、多代理说明
7、flume selector相关配置
1、Redis介绍和安装、配置
2、Redis数据类型
3、Redis键、字符串、哈希
4、Redis列表与集合
5、Redis事务和脚本
6、Redis数据备份与恢复
7、Redis的SHELL操作

Spark
生态体系

点击咨询课程
1.Scala编程开发 2.Scala深入解析 3.SparKcore编程 4. Sparkcore深入编程 5.SparkSQL
1、Scala语法基础
2、idea工具安装
3、maven工具配置
4、条件结构、循环、高级for循环
5、数组、映射、元组
6、类、样例类、对象、伴生对象
7、高阶函数与函数式编程
1、 柯里化、闭包
2、模式匹配、偏函数
3、类型参数
4、协变与逆变
5、隐式转换、隐式参数、隐式值
6、Actor机制
7、高级项目案例
1、Spark四大特性
2、Wordcount案例演示
3、什么是RDD
4、Spark架构
5、Spark集群搭建/HA集群搭建
6、Spark任务提交
7、TransFormation和Action
1、算子演示(Scale、jdk7、jdk8)
2、RDD持久化
3、宽依赖和窄依赖
4、累加变量和共享变量
5、Spark运行模式
6、二次排序
7、综合案例演示
1、Spark的前世今生
2、什么是DataFrame
3、什么是DataSet
4、RDD转换为DataSet
5、load/save
6、数据源之json
6.深入SparkSQL 7.Spark Streaming 8.SparkGraphX 9.Spark源码导读 10.Spark调优
1、数据源之parquet
2、数据源之Hive/Hbase/Mysql
3、thrift服务
4、开窗函数
5、UDF、UDAF编程
6、综合案例演示
1、Spark Streaming运行流程
2、什么是DStream
3、UpdateStateByKey算子演示
4、CheckPoint与DriverHA实现
5、Transform算子演示
6、ForeachRDD重点算子详解
7、与Kafka和Flume整合
1、GraphX应用背景
2、GraphX的框架
3、GraphX实现分析
4、GraphX图计算
5、GraphX核心概念解释
6、GraphX框架实现分析
7、GraphX案例演示
1、启动脚本流程分析
2、Mater和Worker启动流程
3、资源分配算法
4、SparkContext初始化
5、TaskScheduler运行
6、task位置算法与分配算法
7、DagScheduler运行流程
8、stage划分算法
1、JVM调优
2、开发调优
3、数据倾斜调优
4、资源调优
5、shuffle调优
6、sparkSQL调优
7、sparkStreaming调优
项目实践
项目一:大数据分布式爬虫
项目二:大型电商日志分析

Elastic
Search

点击咨询课程
1.ElasticSearch简介 2.查询DSL进阶 3.底层索引控制 4.索引段统计与故障处理 5.ElasticSearch Java API
1、Lucene的总体架构
2、Lucene查询语言
3、ElasticSearch简介
4、ElasticSearch的基本概念
5、ElasticSearch架构背后的关键
6、ElasticSearch的工作流程
1、Apache Lucene评分公式解释
2、何时文档被匹配上
3、TF/IDF评分公式
4、查询改写与二次评分
5、前缀查询范例与查询改写属性
6、数据更新API
7、使用过滤器优化查询
1、相似度模型配置
2、实时、提交、更新及事务日志
3、深入理解数据处理
4、控制索引合并
5、分布式索引架构
6、调整默认的分片分配行为
7、调整分片分配
1、segments API简介
2、 索引段信息的可视化
3、过滤器缓存与字段数据缓存
4、处理垃圾回收问题
5、UNIX中避免内存交换
6、关于I/O调节与热点线程
7、用预热器提升查询速度
1、ElasticSearch Java API简介
2、连接到集群
3、API剖析与CRUD操作
4、ElasticSearch查询
5、批量执行多个操作
6、构造JSON格式的查询和文档
7、管理API

Docker
容器引擎

点击咨询课程
1.初识容器与Docker 2.核心概念与安装配置 3.Docker镜像使用 4.Docker数据管理 5.Docker与大数据
1、基本容器认识
2、虚拟化技术与容器
3、容器关键技术介绍
4、Docker 基本认识
5、Docker 特征
6、Docker 组件与元素
7、虚拟化与Docker
1、Docker核心概念
2、使用脚本安装 Docker
3、启动docker 后台服务
4、CentOS Docker 安装
5、使用脚本安装 Docker
6、Windows Docker 安装
7、运行 Docker
1、Docker镜像关键概念
2、Docker镜像操作解析
3、Docker容器的迁移方法
4、存储驱动的功能与管理
5、Docker架构概览
6、client模式与daemon模式
7、Docker高级实践技巧
1、数据卷与数据卷容器
2、 Docker数据容器
3、挂载本地的目录到容器里
4、挂载数据卷
5、定义数据卷容器
6、数据卷的备份与恢复
7、数据卷容器迁移数据
1、在Docker创建Hadoop镜像
2、获取Docker镜像库
3、SSH功能镜像文件生成
4、生成Hadoop镜像库文件
5、Docker配置三节点Hdfs集群
6、Docker配置三节点Yarn集群
7、Docker配置三节点spark集群

机器学习

点击咨询课程
1.模型评估与选择 2.线性模型与决策树 3.K邻算法 4.贝叶斯分类器 5.机器学习与大数据
1、机器学习基本认识
2、经验误差与过拟合
3、评估方法
4、性能度量
5、比较检验
6、偏差与方差
1、基本形式与线性回归
2、对数几率回归
3、线性判别分析与多分类学习
4、决策树基本流程
5、决策树划分选择与剪枝处理
6、连续与缺失值
7、多变量决策树
1、K邻算法概念介绍
2、K邻算法偏差与方差
3、K邻算法邻搜索
4、K邻算法K近邻搜索
5、K邻算法算法原理
6、K邻算法各类算法实现
7、K邻算法案例演示
1、贝叶斯决策论
2、极大似然估计
3、朴素贝叶斯分类器
4、半朴素贝叶斯分类器
5、贝叶斯网
6、EM算法
1、机器学习的范围
2、大数据下的机器学习
3、大数据对机器学习的影响
4、机器学习与大数据项目
5、模式识别与大数据
6、深度学习与大数据
7、机器学习与大数据

超大集群调优

点击咨询课程

真实项目贯穿全程

为提高学员的实战能力,专门引进各大合作企业的实战项目

NO. 1     互联网电商数据爬虫项目

项目简介

该项目使用hadoop分布式爬虫爬取互联网各大电商网站数据,通过各类海量数据的爬行抓取,前台实现实时对数据的快速精准查询和商品对比以及业务分析。

项目特色

该项目包含商品页面抓取和解析,分布式爬虫设计细节,分析URL链接和页面内容如何存储,分布式爬虫监控功能。爬虫频繁爬取数据IP被封问题解决方案,爬虫爬取失败URL如何处理,抓取需要登录的网站数据。使用solr实现海量数据精准查询,使用hbase实现海量数据精准快速查询。本项目包含的大数据技术有:Java、HttpClient、Redis、Solr、HBase、Zookeeper、HighChart、HTMLEmail。

NO. 2     高频数据实时处理项目

项目简介

该项目实现对数据系统的高频日志数据进行实时收集和业务处理,在高峰期每秒钟会有近万HTTP请求发送到服务器上,这些请求包含了用户行为和个性化推荐请求。从这些数据中快速挖掘用户兴趣偏 好并作出效果不错的推荐。

项目特色

Web应用云包含了所有直接面对用户的Web服务,每个Web应用都会产生Web日志以及其他实时数据,这些数据一 方面会及时交由实时计算框架进行处理,另一方面也会定期同步至离线计算框架;实时计算框架会处理接收到的实时数据,并将处理结果输出到数据查询框架或者离 线计算框架。

NO. 3     某大型网站日志分析项目

项目简介

通过大数据工具将互联网中的日志采集、清洗、分析统计出常见的互联网指标;开发出各种维度UV的分析报表、各个指标每日、每月指标报表分析,用于对产品做出正确的决策,数据的正确性校对问题,临时性图标的开发。

项目特色

使用hadoop、mapreduce、hive清理和分析UV、PV、登陆、留存等常见指标,使用storm实时分析充值、消费等趋势,各个维度的趋势对比、各个指标每日、月指标报表生成,使用kettle数据的正确性校对问题和邮件报警。日志数据的实时采集优先采用Flume-Ng组件,Flume是一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。

NO. 4     移动业务感知项目

项目简介

该项目主要利用hadoop集群强大的计算能力对移动的大批量离线话单数据进行分析,统计移动使用业务(流量套餐、话费套餐、铃声套餐等)情况,达到感知用户行为和使用习惯,确定移动业务推广走向的一套系统。

项目特色

使用MR对多个小区GN口五类数据进行分析完成和移动用户通话时长、2G/3G业务流量使用进行一级汇总,列出小区流量使用排名,使用hive完成用户维度关联汇总,统计话单使用情况,使用spark完成APP下载top排名统计,使用sparkstreaming实时处理,根据用户使用APP,实时统计排名,使用sqoop导入oracle完成的web页面2G/3G业务使用排名和流量排名。

NO. 5     用户画像分析系统项目

项目简介

通过jdbc的方式连接spark的thriftserver,通过集群进行HDFS上的大宽表的运算求count。这样便可以定位相应的客户数量,从而进行客户群、标签的分析,产品的策略匹配从而精准营销。

项目特色

1、数据指标的的梳理来源于各个系统日常积累的日志记录系统,通过sqoop导入hdfs,或者spark的jdbc连接传统数据库进行数据的cache。
2、通过hive编写UDF 或者hiveql 根据业务逻辑拼接ETL,使用户对应上不同的用户标签数据,生成相应的源表数据,以便于后续用户画像系统,通过不同的规则进行标签宽表的生成。

NO. 6     实时非法网站监测系统项目

项目简介

针对现有技术的缺陷,提供一种基于实时日志的网站威胁检测方法及系统,能够提高日志数据的处理能力及时效性,提高网站威胁检测与反应的及时性,降低网站运行的风险,为网络的信息安全提供有力的保障。

项目特色

日志数据实时采集单元,用于实时采集监控网站日志服务器上的日志数据,日志数据实时转换与分发单元,用于对日志数据进行转换与实时分发;日志数据实时处理与检测单元,用于对日志数据进行实时处理与检测;日志数据实时监控单元,用于对所述网站威胁检测结果进行展示,并根据所述检测结果的严重程度进行预警。

大数据培训机构合作院校

哈尔滨工业大学

东北石油大学

黑龙江外国语大学

北京工业大学

内蒙古民族大学

山西大学

中国石油大学

内蒙古财经大学

太原理工大学