1、安装java 选择适合自己的jdk 我选择的是jdk7,下载地址如下

解压

配置环境变量 vim /etc/profile

---------------------

JAVA_HOME=/usr/java/jdk1.7.0_45

JRE_HOME=/usr/java/jdk1.7.0_45/jre

PATH=$PATH:$JAVA_HOME/bin:$JRE_HOME/bin

CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:$JRE_HOME/lib

export JAVA_HOME JRE_HOME PATH CLASSPATH

---------------------

source /etc/profile

================jdk 在线安装====

1.查找java相关得列表

[qyf@localhost ~]$ yum -y list java*

2.使用root用户安装

安装时提醒必须使用root用户,sudo都不行。

[qyf@localhost ~]$ yum -y install java-1.7.0-openjdk*

3.确认是否安装成功

[qyf@localhost ~]$ java -version

4.默认情况下jdk安装得路径

/usr/lib/jvm

==========================

2、安装scala

scala下载地址:

解压到/root/software

配置环境变量

vim /etc/profile

添加

SCALA_HOME=/root/software/scala-2.10.4

PATH=$SCALA_HOME/bin:$PATH

source /etc/profile

3、安装spark可以参考下面的

3、安装hadoop 

转载来自:

hadoop下载网址:

wget 

1)修改下主机名为master

sudo vim  /etc/sysconfig/network

修改结果后:

重启电脑:

Linux centos重启命令:

  •   1、reboot

  •   2、shutdown -r now 立刻重启(root用户使用)

  •   3、shutdown -r 10 过10分钟自动重启(root用户使用)

  •   4、shutdown -r 20:35 在时间为20:35时候重启(root用户使用)

查看结果:

修改主机名成功

2)修改hosts中的主机名:

修改后:

3)配置SSH

进入.ssh目录并生成authorized_keys文件:

授权.ssh/文件夹权限为700,authorized_keys文件权限为600(or 644):

ssh验证:

4)hadoop安装:

去官网下载hadoop最新安装包:

下载并解压后:

hadoop-2.6.0.tar.gz 放在/root/software文件中

解压

tar zvxf hadoop-2.6.0.tar.gz

配置系统环境

vim /etc/profile

----------------------------

export HADOOP_INSTALL=/root/sherry/hadoop-2.6.0

export PATH=$PATH:$HADOOP_INSTALL/bin

export PATH=$PATH:$HADOOP_INSTALL/sbin

export HADOOP_MAPRED_HOME=$HADOOP_INSTALL

export HADOOP_COMMON_HOME=$HADOOP_INSTALL

export HADOOP_HDFS_HOME=$HADOOP_INSTALL

-------------------------------

source /etc/profile

在hadoop目录下创建文件夹:

接下来开始修改hadoop的配置文件,首先进入hadoop2.6配置文件夹:

第一步修改配置文件hadoop-env.sh,加入"JAVA-HOME",如下所示:

指定我们安装的“JAVA_HOME”:

第二步修改配置文件"yarn-env.sh",加入"JAVA_HOME",如下所示:

指定我们安装的“JAVA_HOME”:

第三步 修改配置文件“mapred-env.sh”,加入“JAVA_HOME”,如下所示:

指定我们安装的“JAVA_HOME”:

第四步 修改配置文件slaves,如下所示:

设置从节点为master,因为我们是伪分布式,如下所示:

第五步 修改配置文件core-site.xml,如下所示:

修改core-site.xml文件后:

目前来说,core-site.xml文件的最小化配置,core-site.xml各项配置可参考:

我自己的配置如下:

--------------------

<configuration>

<property>

<name>fs.defaultFS</name>

<value>hdfs://10.118.46.22:9000</value>

</property>

<property>

<name>io.file.buffer.size</name>

<value>131072</value>

</property>

<property>

<name>hadoop.tmp.dir</name>

<value>file:/root/sherry/tmp</value>

<description>Abase for other temporary directories.</description>

</property>

<property>

<name>hadoop.proxyuser.hduser.hosts</name>

<value>*</value>

</property>

<property>

<name>hadoop.proxyuser.hduser.groups</name>

<value>*</value>

</property>

<property>

<name>ha.zookeeper.quorm</name>

<value>slave4:2181</value>

</property>

</configuration>

----------------------

第六步 修改配置文件 hdfs-site.xml,如下所示:

hdfs-site.xml文件修改后:

上述是hdfs-site.xml文件的最小化配置,hdfs-site.xml各项配置可参考:

我自己的配置

---------------------------

<configuration>

<property>

<name>dfs.namenode.secondary.http-address</name>

<value>localhost:9001</value>

</property>

<property>

<name>dfs.namenode.name.dir</name>

<value>file:/hdfs/namenode</value>

</property>

<property>

<name>dfs.datanode.data.dir</name>

<value>file:/hdfs/datanode</value>

</property>

<property>

<name>dfs.replication</name>

<value>3</value>

</property>

<property>

<name>dfs.webhdfs.enable</name>

<value>true</value>

</property>

</configuration>

---------------------------

第七步 修改配置文件 mapred-site.xml,如下所示:

copy mapred-site.xml.template命名为mapred-site.xml,打开mapred-site.xml,如下所示:

mapred-site.xml 修改后:

上述是mapred-site.xml最小化配置,mapred-site.xml各项配置可参考:

我自己的配置

-----------------

<configuration>

<property>

<name>mapreduce.framework.name</name>

<value>yarn</value>

</property>

</configuration>

------------------

第八步 配置文件yarn-site.xml,如下所示:

yarn-site.xml修改后:

上述内容是yarn-site.xml的最小化配置,yarn-site文件配置的各项内容可参考:

也可以增加spark_shuffle,配置如下

<property>
  <name>yarn.nodemanager.aux-services</name>
  <value>mapreduce_shuffle,spark_shuffle</value>
</property>
<property>
  <name>yarn.nodemanager.aux-services.mapreduce_shuffle.class</name>
  <value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
<property>
  <name>yarn.nodemanager.aux-services.spark_shuffle.class</name>
  <value>org.apache.spark.network.yarn.YarnShuffleService</value>
</property>
PS: 当提交hadoop MR 就启用,mapreduce_shuffle,当提交spark作业 就使用spark_shuffle,但个人感觉spark_shuffle 效率一般,shuffle是很大瓶颈,还有 如果你使用spark_shuffle 你需要把spark-yarn_2.10-1.4.1.jar 这个jar copy 到HADOOP_HOME/share/hadoop/lib下 ,否则 hadoop 运行报错 class not find exeception

我自己的配置

------------------------------------

<configuration>

<!-- Site specific YARN configuration properties -->

<property>

<name>yarn.resourcemanager.hostname</name>

<value>localhost</value>

</property>

<property>

<name>yarn.nodemanager.aux-services</name>

<value>mapreduce_shuffle</value>

</property>

</configuration>

-----------------------------------

5、启动并验证hadoop伪分布式

新版启动:

进入hadoop/sbin  

start-all.sh

关闭:

stop-all.sh 

验证启动是否成功

jps

第一步:格式化hdfs文件系统:

第二步:进入sbin中启动hdfs,执行如下命令:

此刻我们发现在master上启动了NameNode、DataNode、SecondaryNameNode

此刻通过web控制台查看hdfs,