培訓(xùn)無憂網(wǎng)合作機(jī)構(gòu) > 學(xué)校機(jī)構(gòu) > 長沙牛耳教育歡迎您!
長沙大數(shù)據(jù)培訓(xùn)需要掌握哪些內(nèi)容
發(fā)布時間:2022-01-22 11:52:57
一、數(shù)據(jù)采集與預(yù)處理
數(shù)據(jù)采集就是將這些包括移動互聯(lián)網(wǎng)數(shù)據(jù)、社交網(wǎng)絡(luò)的數(shù)據(jù)等各種來源的數(shù)據(jù),寫入數(shù)據(jù)倉庫中,把零散的數(shù)據(jù)整合在一起,對這些數(shù)據(jù)進(jìn)行綜合分析。Flume NG作為實時日志收集系統(tǒng),支持在日志系統(tǒng)中定制各類數(shù)據(jù)發(fā)送方,用于收集數(shù)據(jù),同時,對數(shù)據(jù)進(jìn)行簡單處理,并寫到各種數(shù)據(jù)接收方(比如文本,HDFS,Hbase等)。NDC,Netease Data Canal,直譯為網(wǎng)易數(shù)據(jù)運河系統(tǒng),是網(wǎng)易針對結(jié)構(gòu)化數(shù)據(jù)庫的數(shù)據(jù)實時遷移、同步和訂閱的平臺化解決方案。Logstash是開源的服務(wù)器端數(shù)據(jù)處理管道,能夠同時從多個來源采集數(shù)據(jù)、轉(zhuǎn)換數(shù)據(jù),然后將數(shù)據(jù)發(fā)送到您最喜歡的 “存儲庫” 中。
Sqoop,用來將關(guān)系型數(shù)據(jù)庫和Hadoop中的數(shù)據(jù)進(jìn)行相互轉(zhuǎn)移的工具,可以將一個關(guān)系型數(shù)據(jù)庫(例如Mysql、Oracle)中的數(shù)據(jù)導(dǎo)入到Hadoop(例如HDFS、Hive、Hbase)中,也可以將Hadoop(例如HDFS、Hive、Hbase)中的數(shù)據(jù)導(dǎo)入到關(guān)系型數(shù)據(jù)庫(例如Mysql、Oracle)中。Strom集群結(jié)構(gòu)是有一個主節(jié)點(nimbus)和多個工作節(jié)點(supervisor)組成的主從結(jié)構(gòu),主節(jié)點通過配置靜態(tài)指定或者在運行時動態(tài)選舉,nimbus與supervisor都是Storm提供的后臺守護(hù)進(jìn)程,之間的通信是結(jié)合Zookeeper的狀態(tài)變更通知和監(jiān)控通知來處理。Zookeeper是一個分布式的,開放源碼的分布式應(yīng)用程序協(xié)調(diào)服務(wù),提供數(shù)據(jù)同步服務(wù)。
二、數(shù)據(jù)存儲
Hadoop作為一個開源的框架,專為離線和大規(guī)模數(shù)據(jù)分析而設(shè)計,HDFS作為其核心的存儲引擎,已被廣泛用于數(shù)據(jù)存儲。HBase,是一個分布式的、面向列的開源數(shù)據(jù)庫,可以認(rèn)為是hdfs的封裝,本質(zhì)是數(shù)據(jù)存儲、NoSQL數(shù)據(jù)庫。Phoenix,相當(dāng)于一個Java中間件,幫助開發(fā)工程師能夠像使用JDBC訪問關(guān)系型數(shù)據(jù)庫一樣訪問NoSQL數(shù)據(jù)庫HBase。Yarn是一種Hadoop資源管理器,可為上層應(yīng)用提供統(tǒng)一的資源管理和調(diào)度,它的引入為集群在利用率、資源統(tǒng)一管理和數(shù)據(jù)共享等方面帶來了巨大好處。Mesos是一款開源的集群管理軟件,支持Hadoop、ElasticSearch、Spark、Storm 和Kafka等應(yīng)用架構(gòu)。Redis是一種速度非?斓姆顷P(guān)系數(shù)據(jù)庫,可以存儲鍵與5種不同類型的值之間的映射,可以將存儲在內(nèi)存的鍵值對數(shù)據(jù)持久化到硬盤中,使用復(fù)制特性來擴(kuò)展性能,還可以使用客戶端分片來擴(kuò)展寫性能。Atlas是一個位于應(yīng)用程序與MySQL之間的中間件。Kudu是圍繞Hadoop生態(tài)圈建立的存儲引擎,Kudu擁有和Hadoop生態(tài)圈共同的設(shè)計理念,它運行在普通的服務(wù)器上、可分布式規(guī);渴、并且滿足工業(yè)界的高可用要求。
三、數(shù)據(jù)清洗
MapReduce作為Hadoop的查詢引擎,用于大規(guī)模數(shù)據(jù)集的并行計算,”Map(映射)”和”Reduce(歸約)”,是它的主要思想。它極大的方便了編程人員在不會分布式并行編程的情況下,將自己的程序運行在分布式系統(tǒng)中。
隨著業(yè)務(wù)數(shù)據(jù)量的增多,需要進(jìn)行訓(xùn)練和清洗的數(shù)據(jù)會變得越來越復(fù)雜,這個時候就需要任務(wù)調(diào)度系統(tǒng),比如oozie或者azkaban,對關(guān)鍵任務(wù)進(jìn)行調(diào)度和監(jiān)控。
四、數(shù)據(jù)查詢分析
Hive的核心工作就是把SQL語句翻譯成MR程序,可以將結(jié)構(gòu)化的數(shù)據(jù)映射為一張數(shù)據(jù)庫表,并提供 HQL(Hive SQL)查詢功能。Hive是為大數(shù)據(jù)批量處理而生的,Hive的出現(xiàn)解決了傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(MySql、Oracle)在大數(shù)據(jù)處理上的瓶頸Impala是對Hive的一個補(bǔ)充,可以實現(xiàn)高效的SQL查詢。使用Impala來實現(xiàn)SQL on Hadoop,用來進(jìn)行大數(shù)據(jù)實時查詢分析。Spark擁有Hadoop MapReduce所具有的特點,它將Job中間輸出結(jié)果保存在內(nèi)存中,從而不需要讀取HDFS。Spark 啟用了內(nèi)存分布數(shù)據(jù)集,除了能夠提供交互式查詢外,它還可以優(yōu)化迭代工作負(fù)載。Nutch 是一個開源Java 實現(xiàn)的搜索引擎。它提供了我們運行自己的搜索引擎所需的全部工具,包括全文搜索和Web爬蟲。Solr用Java編寫、運行在Servlet容器(如Apache Tomcat或Jetty)的一個獨立的企業(yè)級搜索應(yīng)用的全文搜索服務(wù)器。Elasticsearch是一個開源的全文搜索引擎,基于Lucene的搜索服務(wù)器,可以快速的儲存、搜索和分析海量的數(shù)據(jù)。
五、數(shù)據(jù)可視化
對接一些BI平臺,將分析得到的數(shù)據(jù)進(jìn)行可視化,用于指導(dǎo)決策服務(wù)。主流的BI平臺比如,國外的敏捷BI Tableau、Qlikview、PowrerBI等,國內(nèi)的SmallBI和新興的網(wǎng)易有數(shù)等。大數(shù)據(jù)技術(shù)的體系龐大且復(fù)雜,每年都會涌現(xiàn)出大量新的技術(shù),目前大數(shù)據(jù)行業(yè)所涉及到的核心技術(shù)主要就是:數(shù)據(jù)采集、數(shù)據(jù)存儲、數(shù)據(jù)清洗、數(shù)據(jù)查詢分析和數(shù)據(jù)可視化。
以上文章由長沙牛耳教育課程顧問整理編輯發(fā)布,部分文章來自網(wǎng)絡(luò)內(nèi)容真實性請自行核實或聯(lián)系我們,了解相關(guān)專業(yè)課程信息您可在線咨詢也可免費申請試課。關(guān)注官方微信了解更多:150 3333 6050