产品邦

 找回密码
 立即注册

QQ登录

只需一步,快速开始

开启左侧

大数据从入门到进阶十节精讲视频课程

[复制链接]
644 13

立即注册,下载精品资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x

大数据从入门到进阶十节精讲视频课程

大数据从入门到进阶十节精讲视频课程

游客,如果您要查看本帖隐藏内容请回复


大数据从入门到进阶十节精讲视频课程第一讲:大数据入门
第一节:为什么要学习大数据
                1、目的:很好工作
                2、对比:Java开发和大数据开发

        第二节:什么是大数据?
                举例:
                1、商品推荐: 问题:(1)大量的订单如何存储?    (2)大量的订单如何计算?
                2、天气预报: 问题:(1)大量的天气数据如何存储?(2)大量的天气数据如何计算?
               
                什么是大数据,本质?
                (1)数据的存储:分布式文件系统(分布式存储)   
                (2)数据的计算:分布式计算

        第三节:Java和大数据是什么关系?
                1、Hadoop:基于Java语言开发
                2、Spark: 基于Scala语言,Scala基于Java语言

        第四节:学习大数据需要的基础和路线
                1、学习大数据需要的基础:Java基础(JavaSE)---> 类、继承、I/O、反射、泛型*****
                                         Linux基础(Linux的操作)  ---> 创建文件、目录、vi编辑器***
                                                                 
                2、学习路线:
                        (1)Java基础和Linux基础
                        (2)Hadoop的学习:体系结构、原理、编程
                                        (*)第一阶段:HDFS、MapReduce、HBase(NoSQL数据库)
                                        (*)第二阶段:数据分析引擎 ---> Hive、Pig
                                                       数据采集引擎 ---> Sqoop、Flume
                                        (*)第三阶段:HUE:Web管理工具
                                                       ZooKeeper:实现Hadoop的HA
                                                                   Oozie:    工作流引擎
                        (3)Spark的学习
                                        (*)第一个阶段:Scala编程语言
                                        (*)第二个阶段:Spark Core-----> 基于内存,数据的计算
                                        (*)第三个阶段:Spark SQL -----> 类似Oracle中的SQL语句
                                        (*)第四个阶段:Spark Streaming ---> 进行实时计算(流式计算):比如:自来水厂
                                       
                        (4)Apache Storm:类似Spark Streaming ---> 进行实时计算(流式计算):比如:自来水厂
                                        (*)NoSQL:Redis基于内存的数据库

大数据从入门到进阶十节精讲视频课程第二讲:Hadoop的背景起源一: GFS: Google File System
一、什么是大数据,本质?
                (1)数据的存储:分布式文件系统(分布式存储)-----> HDFS: Hadoop Distributed File System
                (2)数据的计算:分布式计算
               
        二、如何解决大数据的存储?----> 分布式文件系统(HDFS,来源于GFS)
                举例:网盘
                (1) GFS: 没有硬盘的,数据只能存在内存中
                (2) Hadoop的安装模式
                        (*)本地模式  :1台
                        (*)伪分布模式:1台
                        (*)全分布模式:3台

大数据从入门到进阶十节精讲视频课程第三讲:Hadoop的背景起源二:MapReduce
一、什么是大数据,本质?
                (1)数据的存储:分布式文件系统(分布式存储)-----> HDFS: Hadoop Distributed File System
                (2)数据的计算:分布式计算
               
        二、如何解决大数据的计算?分布式计算
                (1)什么是PageRank(MapReduce的问题的来源)
                        (*) 搜索排名
               
                (2)MapReduce(Java语言实现)基础编程模型: 把一个大任务拆分成小任务,再进行汇总
                        (*) 更简单一点例子

大数据从入门到进阶十节精讲视频课程第四讲:Hadoop的背景起源三 : BigTable ----> 大表  ----> NoSQL数据库:HBase
第一节:关系型数据库(Oracle、MySQL、SQL Server)的特点
        1、什么是关系型数据库?基于关系模型(基于二维表)所提出的一种数据库
        2、ER(Entity-Relationalship)模型:通过增加外键来减少数据的冗余
        3、举例:学生-系

第二节:什么是BigTable?: 把所有的数据保存到一张表中,采用冗余 ---> 好处:提高效率
        1、因为有了bigtable的思想:NoSQL:HBase数据库
        2、HBase基于Hadoop的HDFS的
        3、描述HBase的表结构

大数据从入门到进阶十节精讲视频课程第五讲:搭建Hadoop的环境
准备实验的环境:
        1、安装Linux、JDK
        2、配置主机名、免密码登录
        3、约定:安装目录:/root/training

        安装:
        1、解压 : tar -zxvf hadoop-2.4.1.tar.gz -C /root/training/
        2、设置环境变量: vi ~/.bash_profile
                        HADOOP_HOME=/root/training/hadoop-2.4.1
                        export HADOOP_HOME

                        PATH=$HADOOP_HOME/bin: $HADOOP_HOME/sbin: $PATH
                        export PATH
                        
                生效环境变量: source ~/.bash_profile

        第一节:Hadoop的目录结构

        第二节:Hadoop的本地模式
                1、特点:不具备HDFS,只能测试MapReduce程序
                2、修改hadoop-env.sh
               
                   修改第27行:export JAVA_HOME=/root/training/jdk1.7.0_75
                  
                3、演示Demo: $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.4.1.jar
                        命令:hadoop jar hadoop-mapreduce-examples-2.4.1.jar wordcount /root/data/input/data.txt  /root/data/output/wc
                        日志:17/08/04 23:28:38 INFO mapreduce.Job:  map 100% reduce 100%
               
                        注意:MR有一个默认的排序规则

        第三节:Hadoop的伪分布模式
                1、特点:具备Hadoop的所有功能,在单机上模拟一个分布式的环境
                         (1)HDFS:主:NameNode,数据节点:DataNode
                                 (2)Yarn:容器,运行MapReduce程序
                                            主节点:ResourceManager
                                                        从节点:NodeManager
                                                        
                2、步骤:
                (1)hdfs-site.xml
                        <!--配置HDFS的冗余度-->
                        <property>
                          <name>dfs.replication</name>
                          <value>1</value>
                        </property>

                        <!--配置是否检查权限-->
                        <property>
                          <name>dfs.permissions</name>
                          <value>false</value>
                        </property>        

                (2)core-site.xml
                        <!--配置HDFS的NameNode-->
                        <property>
                          <name>fs.defaultFS</name>
                          <value>hdfs://192.168.88.11:9000</value>
                        </property>

                        <!--配置DataNode保存数据的位置-->
                        <property>
                          <name>hadoop.tmp.dir</name>
                          <value>/root/training/hadoop-2.4.1/tmp</value>
                        </property>               

                (3) mapred-site.xml
                        <!--配置MR运行的框架-->
                        <property>
                          <name>mapreduce.framework.name</name>
                          <value>yarn</value>
                        </property>               
                        
                (4) yarn-site.xml
                        <!--配置ResourceManager的地址-->
                        <property>
                          <name>yarn.resourcemanager.hostname</name>
                          <value>192.168.88.11</value>
                        </property>

                        <!--配置NodeManager执行任务的方式-->
                        <property>
                          <name>yarn.nodemanager.aux-services</name>
                          <value>mapreduce_shuffle</value>
                        </property>               
                        
                (5) 格式化NameNode
                    hdfs namenode -format
                        日志:Storage directory /root/training/hadoop-2.4.1/tmp/dfs/name has been successfully formatted.
                        
(6) 启动:start-all.sh
                           (*) HDFS: 存储数据
                                   (*) Yarn:执行计算
                                   
                (7) 访问:(*)命令行
                          (*)Java API
                                  (*)Web Console:
                                                HDFS:http://192.168.88.11:50070
                                                Yarn:http://192.168.88.11:8088

大数据从入门到进阶十节精讲视频课程第六讲:HDFS的基本操作
第一节:HDFS的相关命令
        -mkdir            在HDFS创建目录    hdfs dfs -mkdir /data
        -ls               查看当前目录      hdfs dfs -ls /
        -ls -R            查看目录与子目录
        -put              上传一个文件      hdfs dfs -put data.txt /data/input
        -moveFromLocal    上传一个文件,会删除本地文件:ctrl + X
        -copyFromLocal    上传一个文件,与put一样
        -copyToLocal      下载文件  hdfs dfs -copyToLocal /data/input/data.txt
        -get              下载文件  hdfs dfs -get /data/input/data.txt
        -rm               删除文件  hdfs dfs -rm /data/input/data.txt
        -getmerge         将目录所有的文件先合并,再下载
        -cp               拷贝: hdfs dfs -cp /data/input/data.txt  /data/input/data01.txt
        -mv               移动: hdfs dfs -mv /data/input/data.txt  /data/input/data02.txt
        -count            统计目录下的文件个数
        -text、-cat       查看文件的内容  hdfs dfs -cat /data/input/data.txt
        -balancer         平衡操作

第二节:HDFS的Java API
        (*)在HDFS上创建一个目录:
                依赖的jar包:
                /root/training/hadoop-2.4.1/share/hadoop/common/lib
                /root/training/hadoop-2.4.1/share/hadoop/common/
               
                /root/training/hadoop-2.4.1/share/hadoop/hdfs/lib
                /root/training/hadoop-2.4.1/share/hadoop/hdfs/

大数据从入门到进阶十节精讲视频课程第七讲:MapReduce入门
第一节:回顾:MapReduce的编程模型

        第二节:WordCount的流程分析
                1、伪分布环境运行WordCount
                   hadoop jar hadoop-mapreduce-examples-2.4.1.jar wordcount /data/input/data.txt /data/output/wc
                        日志:
                                17/08/05 01:12:24 INFO mapreduce.Job:  map 0% reduce 0%
                                17/08/05 01:12:30 INFO mapreduce.Job:  map 100% reduce 0%
                                17/08/05 01:12:35 INFO mapreduce.Job:  map 100% reduce 100%
               
                2、分析的数据流动的过程(重要): 运行原理和机制

大数据从入门到进阶十节精讲视频课程第八讲:开发WordCount程序
依赖jar:
        /root/training/hadoop-2.4.1/share/hadoop/common/lib
        /root/training/hadoop-2.4.1/share/hadoop/common/
        
        /root/training/hadoop-2.4.1/share/hadoop/mapreduce/lib
        /root/training/hadoop-2.4.1/share/hadoop/mapreduce/

大数据从入门到进阶十节精讲视频课程第九讲:Spark基础
第一节:什么是Spark?Spark的特点和结构
        1、什么是Spark?
           Spark是一个针对大规模数据处理的快速通用引擎。
           类似MapReduce,都进行数据的处理
           
        2、Spark的特点:
                (1)基于Scala语言、Spark基于内存的计算
                (2)快:基于内存
                (3)易用:支持Scala、Java、Python
                (4)通用:Spark Core、Spark SQL、Spark Streaming
                           MLlib、Graphx
                (5)兼容性:完全兼容Hadoop

        3、Spark体系结构:主从结构
                (1)主节点:Master
                (2)从节点:Worker

第二节:搭建Spark的伪分布模式环境
        1、解压:tar -zxvf spark-2.1.0-bin-hadoop2.4.tgz -C ~/training/
        2、配置参数文件: conf/spark-env.sh
            export JAVA_HOME=/root/training/jdk1.7.0_75
                export SPARK_MASTER_HOST=bigdata11
        export SPARK_MASTER_PORT=7077
               
                conf/slaves ----> 从节点的主机信息
                bigdata11
               
        3、启动Spark伪分布环境
            sbin/start-all.sh
               
           Spark Web Console: http://192.168.88.11:8080

大数据从入门到进阶十节精讲视频课程第十讲:Spark编程基础

举报

回复

13 个评论

lanpangpang    发表于 2019-6-10 14:57:01  | 显示全部楼层
请大佬支持可观看视频
PM_CHM    发表于 2019-6-10 16:47:06  | 显示全部楼层
请大佬支持可观看视频
huangc1979    发表于 2019-6-11 09:45:38  | 显示全部楼层
请大佬支持可观看视频
kven    发表于 2019-6-11 10:20:35  | 显示全部楼层
请大佬支持可观看视频
CHNJames    发表于 2019-6-22 14:29:56  | 显示全部楼层

请大佬支持可观看视频
luxixi1985    发表于 2019-7-10 09:09:49  | 显示全部楼层
学习一下,好多东西!
linqiuqiu666    发表于 2019-7-16 09:35:40  | 显示全部楼层
谢谢你的分享,万分感谢
kangyuansh    发表于 2019-7-26 16:22:50  | 显示全部楼层
请大佬支持,观看视频!~
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

图文热点

更多

社区学堂

更多

客服中心

关于我们
关于我们
友情链接
联系我们
帮助中心
网友中心
购买须知
支付方式
服务支持
资源下载
售后服务
定制流程
关注我们
官方微博
官方空间
官方微信
快速回复 返回顶部 返回列表