導航:首頁 > IDC知識 > hadoop伺服器配置

hadoop伺服器配置

發布時間:2021-01-27 10:08:34

1、阿里雲雲伺服器linux可以部署hadoop么

通過命令行下載 ,我下載的版本是1.2.1,版本穩定且方便學習。
[plain] view plain copy
wget http://mirror.bit.e.cn/apache/hadoop/common/hadoop-1.2.1/hadoop-1.2.1.tar.gz

下載完成後,將hadoop安裝包轉移至要安裝的目錄
[plain] view plain copy
mv hadoop-1.2.1.tar.gz /usr/hadoop/
cd /usr/hadoop/
解壓
[plain] view plain copy
tar -zxvf hadoop-1.2.1.tar.gz

配置Hadoop
配置文件在 hadoop的conf文件夾下
首先修改 hadoop-env.sh 文件

[plain] view plain copy
vim hadoop-env.sh

找到 # export JAVA_HOME=…..
修改為 export JAVA_HOME=/usr/Java/java8
注意 // 如果忘記java的路徑,可以通過命令 echo $JAVA_HOME查看
其次修改 core-site.xml 文件
其實 修改 hadoop-env.sh
[plain] view plain copy
vim hadoop-env.sh
修改內容為
[html] view plain copy
<configuration>
<property>
<name>hadoop.tmp.dir</name>
<value>/hadoop</value>
</property>
<property>
<name>dfs.name.dir</name>
<value>/hadoop/name</value>
</property>
<property>
<name>fs.default.name</name>
<value>hdfs://canghong:9000</value>
</property>
</configuration>

然後修改 hdfs-site.xml
[html] view plain copy
<configuration>
<property>
<name>dfs.data.dir</name>
<value>/hadoop/data</value>
</property>
</configuration>
最後修改 mapred-site.xml
[html] view plain copy
<configuration>
<property>
<name>mapred.job.tracker</name>
<value>canghong:9001</value>
</property>
</configuration>

配置完成後,告訴系統hadoop的安裝目錄
[plain] view plain copy
vim ~/.bashrc

export HADOOP_HOME=/usr/hadoop/hadoop-1.2.1
在 export PATH 中 加入 HADOOP_HOME
export PATH=${JAVA_HOME}/bin:$HADOOP_HOME/bin:$PATH

測試
在命令行輸入 hadoop
出現

10015 JobTracker
9670 TaskTracker
9485 DataNode
10380 Jps
9574 SecondaryNameNode
9843 NameNode

則表示成功

格式化文件系統

[plain] view plain copy
cd /usr/hadoop/hadoop-1.2.1/bin
hadoop namenode -formate

啟動

啟動 bin下的 start-all.sh
start-all.sh

測試
在命令行 輸入 jps 查看hadoop是否正常運行

2、hadoop集群搭建在阿里雲伺服器上 雲伺服器配置要求是多少

?

3、如何配置hive訪問其他伺服器的hadoop

1、下載hive(http://archive.cloudera.com/cdh/testing/hive-0.3.99.1+0.tar.gz),解包把它放到目錄 /usr/local/hadoop/contrib並改名為hive,改屬主(chown -R hadoop:hadoop).
2、下載ant (http://labs.xiaonei.com/apache-mirror/ant/binaries/apache-ant-1.7.1-bin.tar.gz),解包並把它放置到目錄/usr/local/hadoop.
3、修改文件 /etc/profile,添加如下的行:
export HADOOP_HOME=/usr/local/hadoopexport ANT_HOME=$HADOOP_HOME/apache-ant-1.7.1export PATH=$PATH:/usr/local/hadoop/bin:$JAVA_HOME/bin:$HADOOP_HOME/contrib/hive/bin:$ANT_HOME/bin

export ANT_LIB=$HADOOP_HOME/apache-ant-1.7.1/lib
export HADOOP=$HADOOP_HOME/bin/hadoop4、修改hive配置文件 /usr/local/hadoop/contrib/hive/conf/hive-default.xml,只要改一個地方,使其內容為:/usr/local/hadoop/contrib/hive/lib/hive_hwi.war。昨天我把它書寫成 「hive-hwi.war」,瀏覽器訪問,就只列出文件目錄,死活都不對,唉!
5、啟動hive web服務: $ hive –service hwi & .監聽埠默認是9999,也可以自己到hive-default.xml定製。瀏覽器的訪問url為 http:/hadoop:9999/hwi.
註:hive表的存放地為hdfs,默認是 /user/hive .這個路徑只有通過hadoop shell才能看見(不是/usr)

4、hadoop怎麼搭建web後端伺服器

web應用是實時的應用。而hadoop平台是用來處理非實時數據的。 所以,通常是超大數據用hadoop處理,結果返回資料庫(或hbase)中,web應用調用資料庫。

5、"[簡答題]為什麼我們在搭建Hadoop集群伺服器修改主機名稱的時候不用hostname?

感覺不太對吧??應該是使用hostname吧,不用IP,這樣是為了方便維護

6、hadoop伺服器配置需要ssd嗎

像raid 0之類的肯定是能明顯提高磁碟的讀寫速度的。
當然 hadoop本身也是具有一定這樣的能力,而且hadoop本身還有多復本。
所以說如果是為了數據安全的話,到時不太用考慮raid。

7、如何在浪潮伺服器上部署hadoop

據國外媒體消息,為應對海量數據浪潮,VMware啟動Serengeti開放原始碼計劃,便於企業在VMware vSphere虛擬化平台上快速部署與管理Apache Hadoop集群,部署虛擬化技術與分布式計算混用的基礎架構。
通過Serengeti計劃,VMware開放一組工具組,可在Apache 2.0網頁免費下載,讓企業IT人員利用指令介面(Command Line Interface,CLI)在vSphere平台建立、設定、啟用與管理Hadoop集群,包括Hadoop共通組件如Apache Pig與Apache Hive等。例如,IT人員可用這些工具組設定單台虛擬計算節配置多少內存、存儲與網路資源。目前VMware已和Cloudera、Greenplum、Hortonworks、IBM及MapR等Hadoop廠商合作推廣Serengeti計劃。
此外,VMware還為Hadoop放出新的原始碼,包括HDFS(Hadoop Distributed File System)和Hadoop MapRece項目的擴展組件,可在虛擬化平台當中,將數據和計算任務分散到不同虛擬計算節點。並且VMware發布了Spring for Apache Hadoop分布式計算開發平台的更新版本,讓企業開發人員整合HBase資料庫、Cascading函數庫及Hadoop安全功能,來開發采Hadoop技術的應用系統。

8、學習hadoop 要多少台伺服器

這個要看你自己的條件了
條件好的,弄幾台舊的PC,比如3台或以上,一個版nanenode兩個datanode
條件一般的,就弄台好點權的機子,裝2-3個虛擬機,至少也得8G內存
條件差的,就用一台機,既做namenode又做datanode,不過,這樣很多效果沒法驗證

9、為什麼我們在搭建Hadoop集群伺服器修改主機名稱時侯不用hostname命令修改?

應該hostname命令是臨時修改,機器重啟之後就不生效了

10、搭建Hadoop集群,一個月6T的數量需要幾台伺服器

最好是兩個做成HA
關於硬碟:
6T的數據容量,看你副本數量設置是多少,一般默認為3,那麼僅這些就需要18T硬碟,稍微大一點20T吧;這僅僅是HDFS存儲;(這里我說的是一個月的,你數據保存幾個月,就乘幾倍)
如果你集群上面要跑計算,MR計算出來的數據要保存HDFS的,所以,還是要根據你的結果數據來做判斷,大小就看你計算任務了.
一般是這樣計算硬碟大小

(原始數據+中間數據+結果數據)*副本數量=總硬碟大小

關於內存:
namenode不用說了,主要就是用內存保存block和node之間對應關系的,也是要根據數據大小計算的,6T/Block大小(默認為128M)=有多少block-->M個

一個block佔多少內存: 保守地設置每一百萬數據塊需要1000MB內存
namenode總內存(兆M)=M*1000MB/100萬

datanode的內存: 一般問題不大,一般都是用於mr的計算,這個東西根據你性能的需要設置

關於多少台機器?
根據Task任務的數量和你的性能指標來做決定

一個Block對應一個Mapper任務,上面算出來M個Block了,mapper任務也是那麼多

實際測試一下,一定數據量在x台機器上運行時間,根據你的指標去評定要多少台機器

hadoop集群的性能和節點個數近似成正向關系

與hadoop伺服器配置相關的知識