關於hadoop是什麼

來源:果殼範文吧 2.59W

Hadoop的框架最核心的設計就是:HDFS和MapReduce。下面本站小編為大家收集整理的相關資料。歡迎大家閱讀!!!

關於hadoop是什麼
關於hadoop是什麼

Hadoop是一個由Apache基金會所開發的分散式系統基礎架構。使用者可以在不瞭解分散式底層細節的情況下,開發分散式程式。充分利用叢集的威力進行高速運算和儲存。 Hadoop實現了一個分散式檔案系統(Hadoop Distributed File System),簡稱HDFS。HDFS有高容錯性的特點,並且設計用來部署在低廉的(low-cost)硬體上;而且它提供高吞吐量(high throughput)來訪問應用程式的資料,適合那些有著超大資料集(large data set)的應用程式。HDFS放寬了(relax)POSIX的要求,可以以流的形式訪問(streaming access)檔案系統中的資料。

hadoop優點

Hadoop是一個能夠對大量資料進行分散式處理的軟體框架。但是 Hadoop 是以一種可靠、高效、可伸縮的方式進行處理的。Hadoop 是可靠的,因為它假設計算元素和儲存會失敗,因此它維護多個工作資料副本,確保能夠針對失敗的節點重新分佈處理。Hadoop 是高效的,因為它以並行的方式工作,通過並行處理加快處理速度。Hadoop 還是可伸縮的,能夠處理 PB 級資料。此外,Hadoop 依賴於社群伺服器,因此它的'成本比較低,任何人都可以使用。

Hadoop是一個能夠讓使用者輕鬆架構和使用的分散式計算平臺。使用者可以輕鬆地在Hadoop上開發和執行處理海量資料的應用程式。它主要有以下幾個優點:

⒈高可靠性。Hadoop按位儲存和處理資料的能力值得人們信賴。

⒉高擴充套件性。Hadoop是在可用的計算機集簇間分配資料並完成計算任務的,這些集簇可以方便地擴充套件到數以千計的節點中。

⒊高效性。Hadoop能夠在節點之間動態地移動資料,並保證各個節點的動態平衡,因此處理速度非常快。

⒋高容錯性。Hadoop能夠自動儲存資料的多個副本,並且能夠自動將失敗的任務重新分配。

Hadoop帶有用 Java 語言編寫的框架,因此執行在 Linux 生產平臺上是非常理想的。Hadoop 上的應用程式也可以使用其他語言編寫,比如 C++。

Hadoop 3.0新特性預覽

1. Hadoop 3.0簡介

Hadoop 2.0是基於JDK 1.7開發的,而JDK 1.7在2015年4月已停止更新,這直接迫使Hadoop社群基於JDK 1.8重新發佈一個新的Hadoop版本,而這正是hadoop 3.0。

Hadoop 3.0的alpha版預計今年夏天釋出,GA版本11月或12月釋出。

Hadoop 3.0中引入了一些重要的功能和優化,包括HDFS 可擦除編碼、多Namenode支援、MR Native Task優化、YARN基於cgroup的記憶體和磁碟IO隔離、YARN container resizing等。

2. Hadoop 3.0新特性

Hadoop 3.0在功能和效能方面,對hadoop核心進行了多項重大改進,主要包括:

2.1 Hadoop Common

(1)精簡Hadoop核心,包括剔除過期的API和實現,將預設元件實現替換成最高效的實現(比如將FileOutputCommitter預設實現換為v2版本,廢除hftp轉由webhdfs替代,移除Hadoop子實現序列化庫rds

(2)Classpath isolation以防止不同版本jar包衝突,比如google Guava在混合使用Hadoop、HBase和Spark時,很容易產生衝突。()

(3)Shell指令碼重構。 Hadoop 3.0對Hadoop的管理指令碼進行了重構,修復了大量bug,增加了新特性,支援動態命令等。

2.2 Hadoop HDFS

(1)HDFS支援資料的擦除編碼,這使得HDFS在不降低可靠性的前提下,節省一半儲存空間。()

(2)多NameNode支援,即支援一個叢集中,一個active、多個standby namenode部署方式。注:多ResourceManager特性在hadoop 2.0中已經支援。()

2.3 Hadoop MapReduce

(1)Tasknative優化。為MapReduce增加了C/C++的map output collector實現(包括Spill,Sort和IFile等),通過作業級別引數調整就可切換到該實現上。對於shuffle密集型應用,其效能可提高約30%。()

(2)MapReduce記憶體引數自動推斷。在Hadoop 2.0中,為MapReduce作業設定記憶體引數非常繁瑣,涉及到兩個引數:mapreduce.{map,reduce}和mapreduce.{map,reduce},一旦設定不合理,則會使得記憶體資源浪費嚴重,比如將前者設定為4096MB,但後者卻是“-Xmx2g”,則剩餘2g實際上無法讓java heap使用到。()

2.4 Hadoop YARN

(1)基於cgroup的記憶體隔離和IO Disk隔離()

(2)用curator實現RM leader選舉()

(3)containerresizing()

(4)Timelineserver next generation ()

3. Hadoop3.0總結

Hadoop 3.0的alpha版預計今年夏天釋出,GA版本11月或12月釋出。

Hadoop 3.0中引入了一些重要的功能和優化,包括HDFS 可擦除編碼、多Namenode支援、MR Native Task優化、YARN基於cgroup的記憶體和磁碟IO隔離、YARN container resizing等。

熱門標籤