關於hadoop是什麼

來源：果殼範文吧 2.59W

Hadoop的框架最核心的設計就是：HDFS和MapReduce。下面本站小編為大家收集整理的相關資料。歡迎大家閱讀!!!

關於hadoop是什麼

Hadoop是一個由Apache基金會所開發的分散式系統基礎架構。使用者可以在不瞭解分散式底層細節的情況下，開發分散式程式。充分利用叢集的威力進行高速運算和儲存。 Hadoop實現了一個分散式檔案系統(Hadoop Distributed File System)，簡稱HDFS。HDFS有高容錯性的特點，並且設計用來部署在低廉的(low-cost)硬體上;而且它提供高吞吐量(high throughput)來訪問應用程式的資料，適合那些有著超大資料集(large data set)的應用程式。HDFS放寬了(relax)POSIX的要求，可以以流的形式訪問(streaming access)檔案系統中的資料。

hadoop優點

Hadoop是一個能夠對大量資料進行分散式處理的軟體框架。但是 Hadoop 是以一種可靠、高效、可伸縮的方式進行處理的。Hadoop 是可靠的，因為它假設計算元素和儲存會失敗，因此它維護多個工作資料副本，確保能夠針對失敗的節點重新分佈處理。Hadoop 是高效的，因為它以並行的方式工作，通過並行處理加快處理速度。Hadoop 還是可伸縮的，能夠處理 PB 級資料。此外，Hadoop 依賴於社群伺服器，因此它的'成本比較低，任何人都可以使用。

Hadoop是一個能夠讓使用者輕鬆架構和使用的分散式計算平臺。使用者可以輕鬆地在Hadoop上開發和執行處理海量資料的應用程式。它主要有以下幾個優點：

⒈高可靠性。Hadoop按位儲存和處理資料的能力值得人們信賴。

⒉高擴充套件性。Hadoop是在可用的計算機集簇間分配資料並完成計算任務的，這些集簇可以方便地擴充套件到數以千計的節點中。

⒊高效性。Hadoop能夠在節點之間動態地移動資料，並保證各個節點的動態平衡，因此處理速度非常快。

⒋高容錯性。Hadoop能夠自動儲存資料的多個副本，並且能夠自動將失敗的任務重新分配。

Hadoop帶有用 Java 語言編寫的框架，因此執行在 Linux 生產平臺上是非常理想的。Hadoop 上的應用程式也可以使用其他語言編寫，比如 C++。

Hadoop 3.0新特性預覽

1. Hadoop 3.0簡介

Hadoop 2.0是基於JDK 1.7開發的，而JDK 1.7在2015年4月已停止更新，這直接迫使Hadoop社群基於JDK 1.8重新發佈一個新的Hadoop版本，而這正是hadoop 3.0。

Hadoop 3.0的alpha版預計今年夏天釋出，GA版本11月或12月釋出。

Hadoop 3.0中引入了一些重要的功能和優化，包括HDFS 可擦除編碼、多Namenode支援、MR Native Task優化、YARN基於cgroup的記憶體和磁碟IO隔離、YARN container resizing等。

2. Hadoop 3.0新特性

Hadoop 3.0在功能和效能方面，對hadoop核心進行了多項重大改進，主要包括：

2.1 Hadoop Common

(1)精簡Hadoop核心，包括剔除過期的API和實現，將預設元件實現替換成最高效的實現(比如將FileOutputCommitter預設實現換為v2版本，廢除hftp轉由webhdfs替代，移除Hadoop子實現序列化庫rds

(2)Classpath isolation以防止不同版本jar包衝突，比如google Guava在混合使用Hadoop、HBase和Spark時，很容易產生衝突。()

(3)Shell指令碼重構。 Hadoop 3.0對Hadoop的管理指令碼進行了重構，修復了大量bug，增加了新特性，支援動態命令等。

2.2 Hadoop HDFS

(1)HDFS支援資料的擦除編碼，這使得HDFS在不降低可靠性的前提下，節省一半儲存空間。()

(2)多NameNode支援，即支援一個叢集中，一個active、多個standby namenode部署方式。注：多ResourceManager特性在hadoop 2.0中已經支援。()

2.3 Hadoop MapReduce

(1)Tasknative優化。為MapReduce增加了C/C++的map output collector實現(包括Spill，Sort和IFile等)，通過作業級別引數調整就可切換到該實現上。對於shuffle密集型應用，其效能可提高約30%。()

(2)MapReduce記憶體引數自動推斷。在Hadoop 2.0中，為MapReduce作業設定記憶體引數非常繁瑣，涉及到兩個引數：mapreduce.{map,reduce}和mapreduce.{map,reduce}，一旦設定不合理，則會使得記憶體資源浪費嚴重，比如將前者設定為4096MB，但後者卻是“-Xmx2g”，則剩餘2g實際上無法讓java heap使用到。()

2.4 Hadoop YARN

(1)基於cgroup的記憶體隔離和IO Disk隔離()

(2)用curator實現RM leader選舉()

(3)containerresizing()

(4)Timelineserver next generation ()

3. Hadoop3.0總結

Hadoop 3.0的alpha版預計今年夏天釋出，GA版本11月或12月釋出。

hadoop