精通Hadoop 版權(quán)信息
- ISBN:9787115411051
- 條形碼:9787115411051 ; 978-7-115-41105-1
- 裝幀:一般膠版紙
- 冊數(shù):暫無
- 重量:暫無
- 所屬分類:>>
精通Hadoop 本書特色
本書是一本循序漸進(jìn)的指導(dǎo)手冊,重點(diǎn)介紹了hadoop的高級概念和特性。內(nèi)容涵蓋了hadoop 2.x版的改進(jìn),mapreduce、pig和hive等的優(yōu)化及其高級特性,hadoop 2.0的專屬特性(如yarn和hdfs聯(lián)合),以及如何使用hadoop
2.0版本擴(kuò)展hadoop的能力。
如果你想拓展自己的hadoop知識和技能,想應(yīng)對具有挑戰(zhàn)性的數(shù)據(jù)處理問題,想讓hadoop作業(yè)、pig腳本和hive查詢運(yùn)行得更快,或者想了解升級hadoop的好處,那么本書便是你的不二選擇。
通過閱讀本書,你將能夠:
理解從hadoop 1.0到hadoop 2.0的變化
定制和優(yōu)化hadoop 2.0中的mapreduce作業(yè)
探究hadoop i/o和不同的數(shù)據(jù)格式
深入學(xué)習(xí)yarn和storm,并通過yarn集成hadoop和storm
基于亞馬遜elastic
mapreduce部署hadoop
探究hdfs替代品,學(xué)習(xí)hdfs聯(lián)合
掌握hadoop安全方面的主要內(nèi)容
使用mahout和rhadoop進(jìn)行hadoop數(shù)據(jù)分析
精通Hadoop 內(nèi)容簡介
hadoop是大數(shù)據(jù)處理的同義詞。hadoop的編程模型簡單,“一次編碼,任意部署”,且生態(tài)圈日益完善,已成為一個(gè)可供不同技能水平的程序員共同使用的全方位平臺。今天,面臨著處理和分析大數(shù)據(jù)的任務(wù),hadoop成了理所當(dāng)然的工具。hadoop 2.0擴(kuò)展了羽翼,能覆蓋各種類型的應(yīng)用模式,并解決更大范圍的問題。
精通Hadoop 目錄
第1章 hadoop 2.x 11.1 hadoop的起源 11.2 hadoop的演進(jìn) 21.3 hadoop 2.x 61.3.1 yet another resource negotiator(yarn) 71.3.2 存儲層的增強(qiáng) 81.3.3 支持增強(qiáng) 111.4 hadoop的發(fā)行版 111.4.1 選哪個(gè)hadoop發(fā)行版 121.4.2 可用的發(fā)行版 141.5 小結(jié) 16第2章 mapreduce進(jìn)階 172.1 mapreduce輸入 182.1.1 inputformat類 182.1.2 inputsplit類 182.1.3 recordreader類 192.1.4 hadoop的“小文件”問題 202.1.5 輸入過濾 242.2 map任務(wù) 272.2.1 dfs.blocksize屬性 282.2.2 中間輸出結(jié)果的排序與溢出 282.2.3 本地reducer和combiner 312.2.4 獲取中間輸出結(jié)果——map 側(cè) 312.3 reduce任務(wù) 322.3.1 獲取中間輸出結(jié)果——reduce側(cè) 322.3.2 中間輸出結(jié)果的合并與溢出 332.4 mapreduce的輸出 342.5 mapreduce作業(yè)的計(jì)數(shù)器 342.6 數(shù)據(jù)連接的處理 362.6.1 reduce側(cè)的連接 362.6.2 map側(cè)的連接 422.7 小結(jié) 45第3章 pig進(jìn)階 473.1 pig對比sql 483.2 不同的執(zhí)行模式 483.3 pig的復(fù)合數(shù)據(jù)類型 493.4 編譯pig腳本 503.4.1 邏輯計(jì)劃 503.4.2 物理計(jì)劃 513.4.3 mapreduce計(jì)劃 523.5 開發(fā)和調(diào)試助手 523.5.1 describe命令 523.5.2 explain命令 533.5.3 illustrate命令 533.6 pig 操作符的高級特性 543.6.1 foreach操作符進(jìn)階 543.6.2 pig的特殊連接 583.7 用戶定義函數(shù) 613.7.1 運(yùn)算函數(shù) 613.7.2 加載函數(shù) 663.7.3 存儲函數(shù) 683.8 pig的性能優(yōu)化 693.8.1 優(yōu)化規(guī)則 693.8.2 pig腳本性能的測量 713.8.3 pig的combiner 723.8.4 bag數(shù)據(jù)類型的內(nèi)存 723.8.5 pig的reducer數(shù)量 723.8.6 pig的multiquery模式 733.9 *佳實(shí)踐 733.9.1 明確地使用類型 743.9.2 更早更頻繁地使用投影 743.9.3 更早更頻繁地使用過濾 743.9.4 使用limit操作符 743.9.5 使用distinct操作符 743.9.6 減少操作 743.9.7 使用algebraic udf 753.9.8 使用accumulator udf 753.9.9 剔除數(shù)據(jù)中的空記錄 753.9.10 使用特殊連接 753.9.11 壓縮中間結(jié)果 753.9.12 合并小文件 763.10 小結(jié) 76第4章 hive進(jìn)階 774.1 hive架構(gòu) 774.1.1 hive元存儲 784.1.2 hive編譯器 784.1.3 hive執(zhí)行引擎 784.1.4 hive的支持組件 794.2 數(shù)據(jù)類型 794.3 文件格式 804.3.1 壓縮文件 804.3.2 orc文件 814.3.3 parquet文件 814.4 數(shù)據(jù)模型 824.4.1 動態(tài)分區(qū) 844.4.2 hive表索引 854.5 hive查詢優(yōu)化器 874.6 dml進(jìn)階 884.6.1 group by操作 884.6.2 order by與sort by 884.6.3 join類型 884.6.4 高級聚合 894.6.5 其他高級語句 904.7 udf、udaf和udtf 904.8 小結(jié) 93第5章 序列化和hadoop i/o 955.1 hadoop數(shù)據(jù)序列化 955.1.1 writable與writablecomparable 965.1.2 hadoop與java序列化的區(qū)別 985.2 avro序列化 1005.2.1 avro與mapreduce 1025.2.2 avro與pig 1055.2.3 avro與hive 1065.2.4 比較avro與protocol buffers/thrift 1075.3 文件格式 1085.3.1 sequence文件格式 1085.3.2 mapfile格式 1115.3.3 其他數(shù)據(jù)結(jié)構(gòu) 1135.4 壓縮 1135.4.1 分片與壓縮 1145.4.2 壓縮范圍 1155.5 小結(jié) 115第6章 yarn——其他應(yīng)用模式進(jìn)入hadoop的引路人 1166.1 yarn的架構(gòu) 1176.1.1 資源管理器 1176.1.2 application master 1186.1.3 節(jié)點(diǎn)管理器 1196.1.4 yarn客戶端 1206.2 開發(fā)yarn的應(yīng)用程序 1206.2.1 實(shí)現(xiàn)yarn客戶端 1206.2.2 實(shí)現(xiàn)am實(shí)例 1256.3 yarn的監(jiān)控 1296.4 yarn中的作業(yè)調(diào)度 1346.4.1 容量調(diào)度器 1346.4.2 公平調(diào)度器 1376.5 yarn命令行 1396.5.1 用戶命令 1406.5.2 管理員命令 1406.6 小結(jié) 141第7章 基于yarn的storm——hadoop中的低延時(shí)處理 1427.1 批處理對比流式處理 1427.2 apache storm 1447.2.1 apache storm的集群架構(gòu) 1447.2.2 apache storm的計(jì)算和數(shù)據(jù)模型 1457.2.3 apache storm用例 1467.2.4 apache storm的開發(fā) 1477.2.5 apache storm 0.9.1 1537.3 基于yarn的storm 1547.3.1 在yarn上安裝apache storm 1547.3.2 安裝過程 1547.4 小結(jié) 161第8章 云上的hadoop 1628.1 云計(jì)算的特點(diǎn) 1628.2 云上的hadoop 1638.3 亞馬遜elastic mapreduce 1648.4 小結(jié) 175第9章 hdfs替代品 1769.1 hdfs的優(yōu)缺點(diǎn) 1769.2 亞馬遜aws s3 1779.3 在hadoop中實(shí)現(xiàn)文件系統(tǒng) 1799.4 在hadoop中實(shí)現(xiàn)s3原生文件系統(tǒng) 1799.5 小結(jié) 189第10章 hdfs聯(lián)合 19010.1 舊版hdfs架構(gòu)的限制 19010.2 hdfs聯(lián)合的架構(gòu) 19210.2.1 hdfs聯(lián)合的好處 19310.2.2 部署聯(lián)合namenode 19310.3 hdfs高可用性 19510.3.1 從namenode、檢查節(jié)點(diǎn)和備份節(jié)點(diǎn) 19510.3.2 高可用性——共享edits 19610.3.3 hdfs實(shí)用工具 19710.3.4 三層與四層網(wǎng)絡(luò)拓?fù)洹 ?9710.4 hdfs塊放置策略 19810.5 小結(jié) 200第11章 hadoop安全 20111.1 安全的核心 20111.2 hadoop中的認(rèn)證 20211.2.1 kerberos認(rèn)證 20211.2.2 kerberos的架構(gòu)和工作流 20311.2.3 kerberos認(rèn)證和hadoop 20411.2.4 http接口的認(rèn)證 20411.3 hadoop中的授權(quán) 20511.3.1 hdfs的授權(quán) 20511.3.2 限制hdfs的使用量 20811.3.3 hadoop中的服務(wù)級授權(quán) 20911.4 hadoop中的數(shù)據(jù)保密性 21111.5 hadoop中的日志審計(jì) 21611.6 小結(jié) 217第12章 使用hadoop進(jìn)行數(shù)據(jù)分析 21812.1 數(shù)據(jù)分析工作流 21812.2 機(jī)器學(xué)習(xí) 22012.3 apache mahout 22212.4 使用hadoop和mahout進(jìn)行文檔分析 22312.4.1 詞頻 22312.4.2 文頻 22412.4.3 詞頻-逆向文頻 22412.4.4 pig中的tf-idf 22512.4.5 余弦相似度距離度量 22812.4.6 使用k-means 的聚類 22812.4.7 使用apache mahout進(jìn)行k-means聚類 22912.5 rhadoop 23312.6 小結(jié) 233附錄 微軟windows中的hadoop 235
展開全部
精通Hadoop 作者簡介
Sandeep Karanth
Scibler公司聯(lián)合創(chuàng)始人,負(fù)責(zé)數(shù)據(jù)智能產(chǎn)品的架構(gòu);DataPhi Labs公司聯(lián)合創(chuàng)始人兼首席架構(gòu)師,專注于構(gòu)建和實(shí)施軟件系統(tǒng)。他擁有14年以上的軟件行業(yè)從業(yè)經(jīng)驗(yàn),既設(shè)計(jì)過企業(yè)數(shù)據(jù)應(yīng)用,也開發(fā)過新一代移動應(yīng)用。他曾就職于微軟總部和微軟印度研究院。他的Twitter賬號是@karanths,GitHub賬號是https://github.com/Karanth。