中圖網(wǎng)

>

程序設(shè)計(jì)

>

其他

精通Hadoop

作者：(印)卡倫斯(SandeepKaran

出版社：人民郵電出版社出版時(shí)間：2016-01-01

開本： 16開 頁數(shù)： 249

本類榜單：計(jì)算機(jī)/網(wǎng)絡(luò)銷量榜

中圖價(jià):¥24.0(4.9折) 定價(jià) ~~¥49.0~~ 登錄后可看到會員價(jià)

加入購物車收藏

運(yùn)費(fèi)6元，滿39元免運(yùn)費(fèi)

?新疆、西藏除外

溫馨提示：5折以下圖書主要為出版社尾貨，大部分為全新（有塑封/無塑封），個(gè)別圖書品相8-9成新、切口
有劃線標(biāo)記、光盤等附件不全詳細(xì)品相說明>>

本類五星書更多>

>
決戰(zhàn)行測5000題(言語理解與表達(dá))

決戰(zhàn)行測5000題(言語理解與表達(dá))

¥38.8¥88
>
軟件性能測試.分析與調(diào)優(yōu)實(shí)踐之路

軟件性能測試.分析與調(diào)優(yōu)實(shí)踐之路

¥49.3¥69
>
第一行代碼Android

第一行代碼Android

¥58.4¥99
>
深度學(xué)習(xí)

深度學(xué)習(xí)

¥92.4¥168
>
Unreal Engine 4藍(lán)圖完全學(xué)習(xí)教程

Unreal Engine 4藍(lán)圖完全學(xué)習(xí)教程

¥72.2¥168
>
深入理解計(jì)算機(jī)系統(tǒng)-原書第3版

深入理解計(jì)算機(jī)系統(tǒng)-原書第3版

¥104.3¥139
>
Word/Excel PPT 2013辦公應(yīng)用從入門到精通-(附贈1DVD.含語音視頻教學(xué)+辦公模板+PDF電子書)

Word/Excel PPT 2013辦公應(yīng)用從入門到精通-(附贈1DVD.含語音視頻教學(xué)+辦公模板+PDF電子書)

¥21¥49.9

商品詳情
商品評論(0條)

中圖價(jià):¥24.0 加入購物車

版權(quán)信息
本書特色
內(nèi)容簡介
目錄
作者簡介

精通Hadoop 版權(quán)信息

ISBN：9787115411051
條形碼：9787115411051 ; 978-7-115-41105-1
裝幀：一般膠版紙
冊數(shù)：暫無
重量：暫無
所屬分類：
計(jì)算機(jī)/網(wǎng)絡(luò)
>
程序設(shè)計(jì)
>
其他

精通Hadoop 本書特色

本書是一本循序漸進(jìn)的指導(dǎo)手冊，重點(diǎn)介紹了hadoop的高級概念和特性。內(nèi)容涵蓋了hadoop 2.x版的改進(jìn)，mapreduce、pig和hive等的優(yōu)化及其高級特性，hadoop 2.0的專屬特性（如yarn和hdfs聯(lián)合），以及如何使用hadoop 2.0版本擴(kuò)展hadoop的能力。如果你想拓展自己的hadoop知識和技能，想應(yīng)對具有挑戰(zhàn)性的數(shù)據(jù)處理問題，想讓hadoop作業(yè)、pig腳本和hive查詢運(yùn)行得更快，或者想了解升級hadoop的好處，那么本書便是你的不二選擇。通過閱讀本書，你將能夠：理解從hadoop 1.0到hadoop 2.0的變化定制和優(yōu)化hadoop 2.0中的mapreduce作業(yè) 探究hadoop i/o和不同的數(shù)據(jù)格式深入學(xué)習(xí)yarn和storm，并通過yarn集成hadoop和storm 基于亞馬遜elastic mapreduce部署hadoop 探究hdfs替代品，學(xué)習(xí)hdfs聯(lián)合掌握hadoop安全方面的主要內(nèi)容使用mahout和rhadoop進(jìn)行hadoop數(shù)據(jù)分析

精通Hadoop 內(nèi)容簡介

hadoop是大數(shù)據(jù)處理的同義詞。hadoop的編程模型簡單，“一次編碼，任意部署”，且生態(tài)圈日益完善，已成為一個(gè)可供不同技能水平的程序員共同使用的全方位平臺。今天，面臨著處理和分析大數(shù)據(jù)的任務(wù)，hadoop成了理所當(dāng)然的工具。hadoop 2.0擴(kuò)展了羽翼，能覆蓋各種類型的應(yīng)用模式，并解決更大范圍的問題。

精通Hadoop 目錄

第1章　hadoop 2.x　　11.1　hadoop的起源　　11.2　hadoop的演進(jìn)　　21.3　hadoop 2.x　　61.3.1　yet another resource negotiator（yarn）　　71.3.2　存儲層的增強(qiáng)　　81.3.3　支持增強(qiáng)　　111.4　hadoop的發(fā)行版　　111.4.1　選哪個(gè)hadoop發(fā)行版　　121.4.2　可用的發(fā)行版　　141.5　小結(jié)　　16第2章　mapreduce進(jìn)階　　172.1　mapreduce輸入　　182.1.1　inputformat類　　182.1.2　inputsplit類　　182.1.3　recordreader類　　192.1.4　hadoop的“小文件”問題　　202.1.5　輸入過濾　　242.2　map任務(wù)　　272.2.1　dfs.blocksize屬性　　282.2.2　中間輸出結(jié)果的排序與溢出　　282.2.3　本地reducer和combiner　　312.2.4　獲取中間輸出結(jié)果——map 側(cè)　　312.3　reduce任務(wù)　　322.3.1　獲取中間輸出結(jié)果——reduce側(cè)　　322.3.2　中間輸出結(jié)果的合并與溢出　　332.4　mapreduce的輸出　　342.5　mapreduce作業(yè)的計(jì)數(shù)器　　342.6　數(shù)據(jù)連接的處理　　362.6.1　reduce側(cè)的連接　　362.6.2　map側(cè)的連接　　422.7　小結(jié)　　45第3章　pig進(jìn)階　　473.1　pig對比sql　　483.2　不同的執(zhí)行模式　　483.3　pig的復(fù)合數(shù)據(jù)類型　　493.4　編譯pig腳本　　503.4.1　邏輯計(jì)劃　　503.4.2　物理計(jì)劃　　513.4.3　mapreduce計(jì)劃　　523.5　開發(fā)和調(diào)試助手　　523.5.1　describe命令　　523.5.2　explain命令　　533.5.3　illustrate命令　　533.6　pig 操作符的高級特性　　543.6.1　foreach操作符進(jìn)階　　543.6.2　pig的特殊連接　　583.7　用戶定義函數(shù)　　613.7.1　運(yùn)算函數(shù)　　613.7.2　加載函數(shù)　　663.7.3　存儲函數(shù)　　683.8　pig的性能優(yōu)化　　693.8.1　優(yōu)化規(guī)則　　693.8.2　pig腳本性能的測量　　713.8.3　pig的combiner　　723.8.4　bag數(shù)據(jù)類型的內(nèi)存　　723.8.5　pig的reducer數(shù)量　　723.8.6　pig的multiquery模式　　733.9　*佳實(shí)踐　　733.9.1　明確地使用類型　　743.9.2　更早更頻繁地使用投影　　743.9.3　更早更頻繁地使用過濾　　743.9.4　使用limit操作符　　743.9.5　使用distinct操作符　　743.9.6　減少操作　　743.9.7　使用algebraic udf　　753.9.8　使用accumulator udf　　753.9.9　剔除數(shù)據(jù)中的空記錄　　753.9.10　使用特殊連接　　753.9.11　壓縮中間結(jié)果　　753.9.12　合并小文件　　763.10　小結(jié)　　76第4章　hive進(jìn)階　　774.1　hive架構(gòu)　　774.1.1　hive元存儲　　784.1.2　hive編譯器　　784.1.3　hive執(zhí)行引擎　　784.1.4　hive的支持組件　　794.2　數(shù)據(jù)類型　　794.3　文件格式　　804.3.1　壓縮文件　　804.3.2　orc文件　　814.3.3　parquet文件　　814.4　數(shù)據(jù)模型　　824.4.1　動態(tài)分區(qū)　　844.4.2　hive表索引　　854.5　hive查詢優(yōu)化器　　874.6　dml進(jìn)階　　884.6.1　group by操作　　884.6.2　order by與sort by　　884.6.3　join類型　　884.6.4　高級聚合　　894.6.5　其他高級語句　　904.7　udf、udaf和udtf　　904.8　小結(jié)　　93第5章　序列化和hadoop i/o　　955.1　hadoop數(shù)據(jù)序列化　　955.1.1　writable與writablecomparable　　965.1.2　hadoop與java序列化的區(qū)別　　 985.2　avro序列化　　1005.2.1　avro與mapreduce　　1025.2.2　avro與pig　　1055.2.3　avro與hive　　1065.2.4　比較avro與protocol buffers/thrift　　1075.3　文件格式　　1085.3.1　sequence文件格式　　1085.3.2　mapfile格式　　1115.3.3　其他數(shù)據(jù)結(jié)構(gòu)　　1135.4　壓縮　　1135.4.1　分片與壓縮　　1145.4.2　壓縮范圍　　1155.5　小結(jié)　　115第6章　yarn——其他應(yīng)用模式進(jìn)入hadoop的引路人　　1166.1　yarn的架構(gòu)　　1176.1.1　資源管理器　　1176.1.2　application master　　1186.1.3　節(jié)點(diǎn)管理器　　1196.1.4　yarn客戶端　　1206.2　開發(fā)yarn的應(yīng)用程序　　1206.2.1　實(shí)現(xiàn)yarn客戶端　　1206.2.2　實(shí)現(xiàn)am實(shí)例　　1256.3　yarn的監(jiān)控　　1296.4　yarn中的作業(yè)調(diào)度　　1346.4.1　容量調(diào)度器　　1346.4.2　公平調(diào)度器　　1376.5　yarn命令行　　1396.5.1　用戶命令　　1406.5.2　管理員命令　　1406.6　小結(jié)　　141第7章　基于yarn的storm——hadoop中的低延時(shí)處理　　1427.1　批處理對比流式處理　　1427.2　apache storm　　1447.2.1　apache storm的集群架構(gòu)　　1447.2.2　apache storm的計(jì)算和數(shù)據(jù)模型　　1457.2.3　apache storm用例　　1467.2.4　apache storm的開發(fā)　　1477.2.5　apache storm 0.9.1　　1537.3　基于yarn的storm　　1547.3.1　在yarn上安裝apache storm　　1547.3.2　安裝過程　　1547.4　小結(jié)　　161第8章　云上的hadoop　　1628.1　云計(jì)算的特點(diǎn)　　1628.2　云上的hadoop　　1638.3　亞馬遜elastic mapreduce　　1648.4　小結(jié)　　175第9章　hdfs替代品　　1769.1　hdfs的優(yōu)缺點(diǎn)　　1769.2　亞馬遜aws s3　　1779.3　在hadoop中實(shí)現(xiàn)文件系統(tǒng)　　1799.4　在hadoop中實(shí)現(xiàn)s3原生文件系統(tǒng)　　1799.5　小結(jié)　　189第10章　hdfs聯(lián)合　　19010.1　舊版hdfs架構(gòu)的限制　　19010.2　hdfs聯(lián)合的架構(gòu)　　19210.2.1　hdfs聯(lián)合的好處　　19310.2.2　部署聯(lián)合namenode　　19310.3　hdfs高可用性　　19510.3.1　從namenode、檢查節(jié)點(diǎn)和備份節(jié)點(diǎn)　　19510.3.2　高可用性——共享edits　　19610.3.3　hdfs實(shí)用工具　　19710.3.4　三層與四層網(wǎng)絡(luò)拓?fù)洹　?9710.4　hdfs塊放置策略　　19810.5　小結(jié)　　200第11章　hadoop安全　　20111.1　安全的核心　　20111.2　hadoop中的認(rèn)證　　20211.2.1　kerberos認(rèn)證　　20211.2.2　kerberos的架構(gòu)和工作流　　20311.2.3　kerberos認(rèn)證和hadoop　　20411.2.4　http接口的認(rèn)證　　20411.3　hadoop中的授權(quán)　　20511.3.1　hdfs的授權(quán)　　20511.3.2　限制hdfs的使用量　　20811.3.3　hadoop中的服務(wù)級授權(quán)　　20911.4　hadoop中的數(shù)據(jù)保密性　　21111.5　hadoop中的日志審計(jì)　　21611.6　小結(jié)　　217第12章　使用hadoop進(jìn)行數(shù)據(jù)分析　　 21812.1　數(shù)據(jù)分析工作流　　21812.2　機(jī)器學(xué)習(xí)　　22012.3　apache mahout　　22212.4　使用hadoop和mahout進(jìn)行文檔分析　　22312.4.1　詞頻　　22312.4.2　文頻　　22412.4.3　詞頻－逆向文頻　　22412.4.4　pig中的tf-idf　　22512.4.5　余弦相似度距離度量　　22812.4.6　使用k-means 的聚類　　22812.4.7　使用apache mahout進(jìn)行k-means聚類　　22912.5　rhadoop　　23312.6　小結(jié)　　233附錄微軟windows中的hadoop　　235

展開全部

精通Hadoop 作者簡介

Sandeep Karanth Scibler公司聯(lián)合創(chuàng)始人，負(fù)責(zé)數(shù)據(jù)智能產(chǎn)品的架構(gòu)；DataPhi Labs公司聯(lián)合創(chuàng)始人兼首席架構(gòu)師，專注于構(gòu)建和實(shí)施軟件系統(tǒng)。他擁有14年以上的軟件行業(yè)從業(yè)經(jīng)驗(yàn)，既設(shè)計(jì)過企業(yè)數(shù)據(jù)應(yīng)用，也開發(fā)過新一代移動應(yīng)用。他曾就職于微軟總部和微軟印度研究院。他的Twitter賬號是@karanths，GitHub賬號是https://github.com/Karanth。

商品評論(0條)

寫書評賺書幣

暫無評論……

書友推薦