大數(shù)據(jù)和Hadoop簡介
數(shù)據(jù)每天都呈指數(shù)級增長,隨著數(shù)據(jù)的增長,需要利用這些數(shù)據(jù)。和以前一樣,我們過去用軟驅(qū)來存儲數(shù)據(jù),數(shù)據(jù)傳輸也很慢,但現(xiàn)在,這些都不夠了,云存儲被使用,因為我們有TB的數(shù)據(jù)。當今世界,社交媒體對數(shù)據(jù)增長的貢獻最大。它包括人們的行為、心態(tài)和其他幾個方面。據(jù)說每分鐘有300小時的視頻上傳到Y(jié)ouTube上,超過2000萬張照片上傳到Facebook和其他許多網(wǎng)站上。此外,上傳的數(shù)據(jù)沒有適當?shù)慕Y(jié)構(gòu),這是處理這些數(shù)據(jù)的最大挑戰(zhàn)。
隨著海量數(shù)據(jù)的高速生成,傳統(tǒng)的RDBMS系統(tǒng)無法處理如此快速的增長。此外,它們也無法處理非結(jié)構(gòu)化數(shù)據(jù)。處理如此大量快速增長的異構(gòu)數(shù)據(jù)并以高速處理這些數(shù)據(jù)變得非常困難。因此,需要這樣一個能夠高效處理大型數(shù)據(jù)集的系統(tǒng)。因此,為了解決這個問題,Hadoop應(yīng)運而生。HDFS是Hadoop的組件,通過使用分布式存儲解決了大型數(shù)據(jù)集的存儲問題,而YARN則是解決處理問題的組件,大大縮短了處理時間。
Hadoop、數(shù)據(jù)科學(xué)、統(tǒng)計和;其他
Hadoop是一個開源軟件框架,用于使用分布式大型商用硬件集群存儲和處理大數(shù)據(jù)集。它由Doug Cutting和Michael J.Cavarella開發(fā),并在Apache下獲得許可。它是用Java編寫的,是基于Google在MapReduce系統(tǒng)上寫的論文開發(fā)的,它應(yīng)用了函數(shù)式編程的概念。它可靠、經(jīng)濟、靈活、可擴展。
Hadoop的核心組件
核心組件如下所示
HDFS
HDFS或Hadoop分布式文件系統(tǒng)有Namenode和data node。Namenode是運行主守護進程的主節(jié)點,它管理數(shù)據(jù)節(jié)點并跟蹤所有操作。數(shù)據(jù)節(jié)點是實際存儲數(shù)據(jù)的從屬節(jié)點。
紗線
紗線由兩個主要成分組成:
1。ResourceManager:它在主節(jié)點上運行,管理所有資源,并調(diào)度所有應(yīng)用程序。它有調(diào)度器&;應(yīng)用程序管理器。
2。NodeManager:它在每個從屬節(jié)點上運行,負責管理容器和監(jiān)控資源利用率。
這類熱門課程
Hadoop的幾個組件
有幾個組件,如豬、蜂巢、sqoop、水槽、mahout、oozie、zookeeper、HBase等。
- Sqoop–它用于將數(shù)據(jù)從RDBMS導(dǎo)入和導(dǎo)出到Hadoop,反之亦然</李>
- Flume–它用于將實時數(shù)據(jù)拉入Hadoop</李>
- 卡夫卡–這是一個用于路由實時數(shù)據(jù)的消息傳遞系統(tǒng)</李>
- Pig–它被用作數(shù)據(jù)處理的腳本語言</李>
- Hive–它是一個基于HDFS的數(shù)據(jù)倉庫框架,讓熟悉SQL的用戶可以執(zhí)行查詢以獲取數(shù)據(jù)。這些查詢稱為HiveQL</李>
- Oozie–它用于安排作業(yè)的工作流在指定的事件或時間上運行</李>
- Hbase–它是作為Apache Hadoop的一部分提供的無SQL數(shù)據(jù)庫</李>
- Spark–它用于執(zhí)行內(nèi)存處理,比Hadoop map reduce快得多</李>
Hadoop提供者
有很多公司提供Hadoop發(fā)行版。
以下是幾個最好的供應(yīng)商:
- 克勞德拉
- 霍頓工廠
- MapR
學(xué)習(xí)Hadoop有幾個先決條件。有Java和腳本語言經(jīng)驗者優(yōu)先。盡管它已經(jīng)有了自己的高級編程語言,比如pig和hive,它們可以生成后端代碼以供進一步處理,但仍然可以用Ruby、Python、Perl甚至C編程等任何編程語言創(chuàng)建自己的map reduce程序。
Bigdata和Hadoop在當今市場上的需求量很大。在接下來的幾天里,這將增加更多。很多組織已經(jīng)開始使用Hadoop,而那些沒有使用Hadoop的組織將很快開始使用Hadoop。目前有一份報告稱,大公司已經(jīng)開始投資大數(shù)據(jù)分析。大數(shù)據(jù)營銷預(yù)測總是處于上升趨勢,而且根本不是一種短命狀態(tài)。除此之外,與其他技術(shù)相比,Hadoop和大數(shù)據(jù)領(lǐng)域的工作總是提供高薪。
頂級大數(shù)據(jù)和Hadoop公司
以下是雇傭人數(shù)最多的幾家頂級公司:
- 領(lǐng)英
- 雅虎
- 亞馬遜
- 蘇格蘭皇家銀行
- 英國航空公司
- Expedia
- 沃爾瑪
很多公司都在使用大數(shù)據(jù)應(yīng)用程序。這些是:
諾基亞
它使用Cloudera和Hadoop組件,比如應(yīng)用程序的HDFS、HBase、Sqoop和Scribe。它有效地使用用戶數(shù)據(jù)來理解和改善用戶體驗。它使用數(shù)據(jù)處理和復(fù)雜分析來構(gòu)建具有預(yù)測交通和分層高程模型的地圖。
SAS
它與Hadoop合作,通過提供一個提供視覺和交互體驗的環(huán)境,幫助數(shù)據(jù)科學(xué)家獲得更好的洞察力,從而幫助探索新趨勢。分析程序從數(shù)據(jù)中提取有意義的見解,內(nèi)存技術(shù)有助于更快地訪問數(shù)據(jù)。
還有很多其他公司使用大數(shù)據(jù)平臺進行各種分析。這些是航空業(yè)黑匣子的飛行數(shù)據(jù)分析,股票市場的差異分析,等等。
Hadoop的優(yōu)勢
以下是Hadoop的一些優(yōu)點:
- 可擴展性–與傳統(tǒng)的RDBMS不同,它是一個高度可擴展的平臺,因為它可以在并行運行的商品硬件上以分布式集群存儲大型數(shù)據(jù)集</李>
- 經(jīng)濟高效——對于RDBMS來說,存儲數(shù)據(jù)的成本太高,而Hadoop已經(jīng)減輕了這一成本</李>
- 快速靈活——它通過分布式文件系統(tǒng)提供快速訪問數(shù)據(jù)的功能。它還提供從半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)中獲取業(yè)務(wù)見解的功能</李>
- 容錯——每當任何數(shù)據(jù)被發(fā)送到一個節(jié)點時,相同的數(shù)據(jù)都會被復(fù)制到其他節(jié)點,在第一個節(jié)點出現(xiàn)故障時可以訪問這些節(jié)點</李>
總結(jié)——什么是大數(shù)據(jù)和Hadoop
數(shù)據(jù)在不斷增長,因此總是需要大數(shù)據(jù)和Hadoop來利用這些數(shù)據(jù)。因此,具備Hadoop技能的專業(yè)人士在未來幾天內(nèi)總能找到大量機會,并且可以成為推動企業(yè)發(fā)展和職業(yè)生涯的重要資產(chǎn)。
推薦文章
這是關(guān)于什么是大數(shù)據(jù)和Hadoop的指南。這里我們討論了大數(shù)據(jù)和Hadoop的基本概念和組件。您還可以閱讀以下文章了解更多信息——