書馨卡幫你省薪 2024個(gè)人購書報(bào)告 2024中圖網(wǎng)年度報(bào)告
歡迎光臨中圖網(wǎng) 請 | 注冊

精通Hadoop

出版社:人民郵電出版社出版時(shí)間:2016-01-01
開本: 16開 頁數(shù): 249
中 圖 價(jià):¥24.0(4.9折) 定價(jià)  ¥49.0 登錄后可看到會員價(jià)
加入購物車 收藏
運(yùn)費(fèi)6元,滿39元免運(yùn)費(fèi)
?新疆、西藏除外
溫馨提示:5折以下圖書主要為出版社尾貨,大部分為全新(有塑封/無塑封),個(gè)別圖書品相8-9成新、切口
有劃線標(biāo)記、光盤等附件不全詳細(xì)品相說明>>
本類五星書更多>

精通Hadoop 版權(quán)信息

精通Hadoop 本書特色

本書是一本循序漸進(jìn)的指導(dǎo)手冊,重點(diǎn)介紹了hadoop的高級概念和特性。內(nèi)容涵蓋了hadoop 2.x版的改進(jìn),mapreduce、pig和hive等的優(yōu)化及其高級特性,hadoop 2.0的專屬特性(如yarn和hdfs聯(lián)合),以及如何使用hadoop 2.0版本擴(kuò)展hadoop的能力。   如果你想拓展自己的hadoop知識和技能,想應(yīng)對具有挑戰(zhàn)性的數(shù)據(jù)處理問題,想讓hadoop作業(yè)、pig腳本和hive查詢運(yùn)行得更快,或者想了解升級hadoop的好處,那么本書便是你的不二選擇。   通過閱讀本書,你將能夠:   理解從hadoop 1.0到hadoop 2.0的變化 定制和優(yōu)化hadoop 2.0中的mapreduce作業(yè) 探究hadoop i/o和不同的數(shù)據(jù)格式 深入學(xué)習(xí)yarn和storm,并通過yarn集成hadoop和storm 基于亞馬遜elastic mapreduce部署hadoop 探究hdfs替代品,學(xué)習(xí)hdfs聯(lián)合 掌握hadoop安全方面的主要內(nèi)容 使用mahout和rhadoop進(jìn)行hadoop數(shù)據(jù)分析

精通Hadoop 內(nèi)容簡介

hadoop是大數(shù)據(jù)處理的同義詞。hadoop的編程模型簡單,“一次編碼,任意部署”,且生態(tài)圈日益完善,已成為一個(gè)可供不同技能水平的程序員共同使用的全方位平臺。今天,面臨著處理和分析大數(shù)據(jù)的任務(wù),hadoop成了理所當(dāng)然的工具。hadoop 2.0擴(kuò)展了羽翼,能覆蓋各種類型的應(yīng)用模式,并解決更大范圍的問題。

精通Hadoop 目錄

第1章 hadoop 2.x  11.1 hadoop的起源  11.2 hadoop的演進(jìn)  21.3 hadoop 2.x  61.3.1 yet another resource negotiator(yarn)  71.3.2 存儲層的增強(qiáng)  81.3.3 支持增強(qiáng)  111.4 hadoop的發(fā)行版  111.4.1 選哪個(gè)hadoop發(fā)行版  121.4.2 可用的發(fā)行版  141.5 小結(jié)  16第2章 mapreduce進(jìn)階  172.1 mapreduce輸入  182.1.1 inputformat類  182.1.2 inputsplit類  182.1.3 recordreader類  192.1.4 hadoop的“小文件”問題  202.1.5 輸入過濾  242.2 map任務(wù)  272.2.1 dfs.blocksize屬性  282.2.2 中間輸出結(jié)果的排序與溢出  282.2.3 本地reducer和combiner  312.2.4 獲取中間輸出結(jié)果——map 側(cè)  312.3 reduce任務(wù)  322.3.1 獲取中間輸出結(jié)果——reduce側(cè)  322.3.2 中間輸出結(jié)果的合并與溢出  332.4 mapreduce的輸出  342.5 mapreduce作業(yè)的計(jì)數(shù)器  342.6 數(shù)據(jù)連接的處理  362.6.1 reduce側(cè)的連接  362.6.2 map側(cè)的連接  422.7 小結(jié)  45第3章 pig進(jìn)階  473.1 pig對比sql  483.2 不同的執(zhí)行模式  483.3 pig的復(fù)合數(shù)據(jù)類型  493.4 編譯pig腳本  503.4.1 邏輯計(jì)劃  503.4.2 物理計(jì)劃  513.4.3 mapreduce計(jì)劃  523.5 開發(fā)和調(diào)試助手  523.5.1 describe命令  523.5.2 explain命令  533.5.3 illustrate命令  533.6 pig 操作符的高級特性  543.6.1 foreach操作符進(jìn)階  543.6.2 pig的特殊連接  583.7 用戶定義函數(shù)  613.7.1 運(yùn)算函數(shù)  613.7.2 加載函數(shù)  663.7.3 存儲函數(shù)  683.8 pig的性能優(yōu)化  693.8.1 優(yōu)化規(guī)則  693.8.2 pig腳本性能的測量  713.8.3 pig的combiner  723.8.4 bag數(shù)據(jù)類型的內(nèi)存  723.8.5 pig的reducer數(shù)量  723.8.6 pig的multiquery模式  733.9 *佳實(shí)踐  733.9.1 明確地使用類型  743.9.2 更早更頻繁地使用投影  743.9.3 更早更頻繁地使用過濾  743.9.4 使用limit操作符  743.9.5 使用distinct操作符  743.9.6 減少操作  743.9.7 使用algebraic udf  753.9.8 使用accumulator udf  753.9.9 剔除數(shù)據(jù)中的空記錄  753.9.10 使用特殊連接  753.9.11 壓縮中間結(jié)果  753.9.12 合并小文件  763.10 小結(jié)  76第4章 hive進(jìn)階  774.1 hive架構(gòu)  774.1.1 hive元存儲  784.1.2 hive編譯器  784.1.3 hive執(zhí)行引擎  784.1.4 hive的支持組件  794.2 數(shù)據(jù)類型  794.3 文件格式  804.3.1 壓縮文件  804.3.2 orc文件  814.3.3 parquet文件  814.4 數(shù)據(jù)模型  824.4.1 動態(tài)分區(qū)  844.4.2 hive表索引  854.5 hive查詢優(yōu)化器  874.6 dml進(jìn)階  884.6.1 group by操作  884.6.2 order by與sort by  884.6.3 join類型  884.6.4 高級聚合  894.6.5 其他高級語句  904.7 udf、udaf和udtf  904.8 小結(jié)  93第5章 序列化和hadoop i/o  955.1 hadoop數(shù)據(jù)序列化  955.1.1 writable與writablecomparable  965.1.2 hadoop與java序列化的區(qū)別   985.2 avro序列化  1005.2.1 avro與mapreduce  1025.2.2 avro與pig  1055.2.3 avro與hive  1065.2.4 比較avro與protocol buffers/thrift  1075.3 文件格式  1085.3.1 sequence文件格式  1085.3.2 mapfile格式  1115.3.3 其他數(shù)據(jù)結(jié)構(gòu)  1135.4 壓縮  1135.4.1 分片與壓縮  1145.4.2 壓縮范圍  1155.5 小結(jié)  115第6章 yarn——其他應(yīng)用模式進(jìn)入hadoop的引路人  1166.1 yarn的架構(gòu)  1176.1.1 資源管理器  1176.1.2 application master  1186.1.3 節(jié)點(diǎn)管理器  1196.1.4 yarn客戶端  1206.2 開發(fā)yarn的應(yīng)用程序  1206.2.1 實(shí)現(xiàn)yarn客戶端  1206.2.2 實(shí)現(xiàn)am實(shí)例  1256.3 yarn的監(jiān)控  1296.4 yarn中的作業(yè)調(diào)度  1346.4.1 容量調(diào)度器  1346.4.2 公平調(diào)度器  1376.5 yarn命令行  1396.5.1 用戶命令  1406.5.2 管理員命令  1406.6 小結(jié)  141第7章 基于yarn的storm——hadoop中的低延時(shí)處理  1427.1 批處理對比流式處理  1427.2 apache storm  1447.2.1 apache storm的集群架構(gòu)  1447.2.2 apache storm的計(jì)算和數(shù)據(jù)模型  1457.2.3 apache storm用例  1467.2.4 apache storm的開發(fā)  1477.2.5 apache storm 0.9.1  1537.3 基于yarn的storm  1547.3.1 在yarn上安裝apache storm  1547.3.2 安裝過程  1547.4 小結(jié)  161第8章 云上的hadoop  1628.1 云計(jì)算的特點(diǎn)  1628.2 云上的hadoop  1638.3 亞馬遜elastic mapreduce  1648.4 小結(jié)  175第9章 hdfs替代品  1769.1 hdfs的優(yōu)缺點(diǎn)  1769.2 亞馬遜aws s3  1779.3 在hadoop中實(shí)現(xiàn)文件系統(tǒng)  1799.4 在hadoop中實(shí)現(xiàn)s3原生文件系統(tǒng)  1799.5 小結(jié)  189第10章 hdfs聯(lián)合  19010.1 舊版hdfs架構(gòu)的限制  19010.2 hdfs聯(lián)合的架構(gòu)  19210.2.1 hdfs聯(lián)合的好處  19310.2.2 部署聯(lián)合namenode  19310.3 hdfs高可用性  19510.3.1 從namenode、檢查節(jié)點(diǎn)和備份節(jié)點(diǎn)  19510.3.2 高可用性——共享edits  19610.3.3 hdfs實(shí)用工具  19710.3.4 三層與四層網(wǎng)絡(luò)拓?fù)洹 ?9710.4 hdfs塊放置策略  19810.5 小結(jié)  200第11章 hadoop安全  20111.1 安全的核心  20111.2 hadoop中的認(rèn)證  20211.2.1 kerberos認(rèn)證  20211.2.2 kerberos的架構(gòu)和工作流  20311.2.3 kerberos認(rèn)證和hadoop  20411.2.4 http接口的認(rèn)證  20411.3 hadoop中的授權(quán)  20511.3.1 hdfs的授權(quán)  20511.3.2 限制hdfs的使用量  20811.3.3 hadoop中的服務(wù)級授權(quán)  20911.4 hadoop中的數(shù)據(jù)保密性  21111.5 hadoop中的日志審計(jì)  21611.6 小結(jié)  217第12章 使用hadoop進(jìn)行數(shù)據(jù)分析   21812.1 數(shù)據(jù)分析工作流  21812.2 機(jī)器學(xué)習(xí)  22012.3 apache mahout  22212.4 使用hadoop和mahout進(jìn)行文檔分析  22312.4.1 詞頻  22312.4.2 文頻  22412.4.3 詞頻-逆向文頻  22412.4.4 pig中的tf-idf  22512.4.5 余弦相似度距離度量  22812.4.6 使用k-means 的聚類  22812.4.7 使用apache mahout進(jìn)行k-means聚類  22912.5 rhadoop  23312.6 小結(jié)  233附錄 微軟windows中的hadoop  235
展開全部

精通Hadoop 作者簡介

Sandeep Karanth Scibler公司聯(lián)合創(chuàng)始人,負(fù)責(zé)數(shù)據(jù)智能產(chǎn)品的架構(gòu);DataPhi Labs公司聯(lián)合創(chuàng)始人兼首席架構(gòu)師,專注于構(gòu)建和實(shí)施軟件系統(tǒng)。他擁有14年以上的軟件行業(yè)從業(yè)經(jīng)驗(yàn),既設(shè)計(jì)過企業(yè)數(shù)據(jù)應(yīng)用,也開發(fā)過新一代移動應(yīng)用。他曾就職于微軟總部和微軟印度研究院。他的Twitter賬號是@karanths,GitHub賬號是https://github.com/Karanth。 

商品評論(0條)
暫無評論……
書友推薦
本類暢銷
編輯推薦
返回頂部
中圖網(wǎng)
在線客服