Easticsearch集成Hadoop最佳實踐 版權信息
- ISBN:9787302469674
- 條形碼:9787302469674 ; 978-7-302-46967-4
- 裝幀:暫無
- 冊數:暫無
- 重量:暫無
- 所屬分類:>>
Easticsearch集成Hadoop最佳實踐 本書特色
ElasticSearch是一個開源的分布式搜索引擎,具有高可靠性,支持非常多的企業(yè)級搜索用例。Elasticsearch Hadoop作為一個完美的工具,用來連接 Elasticsearch 和 Hadoop 的生態(tài)系統(tǒng)。通過Kibana技術,Elasticsearch Hadoop很容易從Hadoop 生態(tài)系統(tǒng)中獲得大數據分析的結果。
本書全面介紹Elasticsearch Hadoop技術用于大數據分析以及數據可視化的方法。內容共分7章,包括Hadoop、Elasticsearch、 Marvel和 Kibana 安裝;通過編寫 MapReduce 作業(yè),把Hadoop數據導入 Elasticsearch;全面分析 Elasticsearch本質,如全文本搜索分析、 查詢、 篩選器和聚合;使用 Kibana創(chuàng)建各種可視化和交互式儀表板,并使用Storm和 Elasticsearch分類現實世界的流數據以及相關的其他主題。
本書適合從事大數據分析人員、大數據應用開發(fā)的人員參考,也適合高等院校及培訓機構相關專業(yè)的師生教學參考。
Easticsearch集成Hadoop最佳實踐 內容簡介
Hadoop已經是業(yè)界公認的大數據處理的事實標準,對海量數據的存儲與處理都是不在話下,不過,隨著業(yè)務的復雜化以及需求的多變,分析師們迫切地想要看到結果從而進行分析,而目前Hadoop離線 批量處理的方式稍微有點力不從心,有沒有一種能夠更靈活地使用和加工數據的方法呢?鑒于此,Elasticsearch脫穎而出,Elasticsearch可以很方便地對海量數據進行搜索與聚合,并且能夠實時響應,用戶無需為每次不同的查詢而重新定義Schema或者預處理。
數據科學家可以非常靈活地對數據進行各種維度的鉆取與分析,把更多的精力關注在業(yè)務本身和挖掘數據本身的價值,并且可以隨時根據上一個查詢得到的線索隨時去構建新的查詢從而繼續(xù)挖掘,這在以前是不敢想象的。另外,Elasticsearch還能和Hadoop進行結合,Hadoop 適合海量數據的歸檔與離線預處理,Elasticsearch則進行實時檢索與分析,而本書是目前介紹這兩方面結合使用的非常好的中文資料,相信對您一定會大有裨益。
Medcl
Elastic中文社區(qū)發(fā)起人
Elastic工程師與布道師
Elasticsearch是近年來大數據領域異軍突起的一門熱點技術。如何將Elasticsearch與Hadoop 體系相結合,是很多人關心和疑惑的問題。Elasticsearch for Hadoop方案很好的解決了這個問題,但是長期缺乏相關資料。本書全面的介紹了方案的原理、部署、樣例和配置細節(jié),相信可以幫助到讀者。
饒琛琳
《ELKstack權威指南》作者
日志易產品總監(jiān)
Easticsearch集成Hadoop最佳實踐 目錄
目錄
第1章 環(huán)境部署 1
1.1 安裝部署Hadoop集群 1
Java安裝和配置 2
用戶添加和配置 2
SSH認證配置 3
Hadoop下載 4
環(huán)境變量配置 4
Hadoop配置 5
配置core-site.xml 6
配置hdfs-site.xml 6
配置yarn-site.xml 6
配置mapred-site.xml 7
格式化HDFS 7
啟動Hadoop進程 8
1.2 安裝Elasticsearch及相關插件 8
下載Elasticsearch 9
配置Elasticsearch 9
安裝Head插件 11
安裝Marvel插件 11
啟動Elasticsearch 12
1.3 運行WordCount示例 13
下載編譯示例程序 13
將示例文件上傳到HDFS 13
運行**個作業(yè) 14
1.4 使用Head 和 Marvel瀏覽數據 16
使用Head瀏覽數據 16
初識Marvel 18
使用Sense瀏覽數據 19
小結 21
第2章 初識ES-Hadoop 22
2.1 理解WordCount程序 23
理解Mapper 23
理解Reducer 24
理解Driver 25
使用舊的API——org.apache.hadoop.mapred 28
2.2 實際案例——網絡數據監(jiān)控 28
獲取并理解數據 28
明確問題 29
解決方案 30
解決方案1——預聚合結果 30
解決方案2——直接查詢聚合結果 32
2.3 開發(fā)MapReduce作業(yè) 33
編寫Mapper類 34
編寫Driver 37
編譯作業(yè) 38
上傳數據到HDFS 41
運行作業(yè) 41
查看TOP N結果 42
2.4 將數據從Elasticsearch寫回HDFS 44
了解Twitter數據集 44
導入Elasticsearch 45
創(chuàng)建MapReduce作業(yè) 46
編寫Tweets2HdfsMapper 46
運行示例 50
確認輸出 50
小結 52
第3章 深入理解Elasticsearch 53
3.1 理解搜索 53
觀念轉換 54
索引 54
類型 55
文檔 55
字段 55
3.2 與Elasticsearch交互 56
Elasticsearch的CRUD 56
創(chuàng)建文檔 56
獲取文檔 57
更新文檔 58
刪除文檔 58
創(chuàng)建索引 58
映射 59
數據類型 60
創(chuàng)建映射 61
索引模板 62
3.3 控制索引過程 63
什么是反轉索引 63
輸入數據分析 64
停止詞 64
大小寫 65
詞根 65
同義詞 65
分析器 65
3.4 Elastic查詢 67
編寫查詢語句 68
URI查詢 68
match_all查詢 68
term查詢 68
boolean查詢 70
match查詢 71
range查詢 72
wildcard查詢 73
過濾器 73
3.5 聚合查詢 75
執(zhí)行聚合查詢 76
terms聚合 76
histogram聚合 78
range聚合 78
geo distance聚合 79
嵌套聚合 81
自測題 82
小結 82
第4章 利用Kibana進行大數據可視化 83
4.1 安裝部署 83
Kibana安裝 84
準備數據 84
自測題 85
啟動Kibana 86
4.2 數據發(fā)現 87
4.3 數據可視化 90
餅圖 91
堆積柱狀圖 94
使用堆積柱狀圖完成日期直方圖 96
面積圖 97
餅圖組圖 98
環(huán)形圖 98
瓦片地圖 99
自測題 100
4.4 動態(tài)圖表 101
小結 104
第5章 實時分析 105
5.1 了解Twitter趨勢分析器 105
實現目標 106
Apache Storm安裝 107
5.2 將流式數據接入Storm 107
編寫Storm spout 108
編寫Storm bolt 110
創(chuàng)建Storm topology 112
編譯運行Storm作業(yè) 113
5.3 趨勢分析 114
significant term聚合 114
使用Kibana分析趨勢 116
5.4 使用Percolator對推文分類 117
Percolator 118
Percolator優(yōu)化 120
推文分類 121
小結 124
第6章 ES-Hadoop配置 125
6.1 分布式環(huán)境中的Elasticsearch 125
集群和節(jié)點 126
節(jié)點類型 126
節(jié)點發(fā)現 128
數據分布 129
分片 129
副本 129
分片分配 130
6.2 ES-Hadoop架構 132
動態(tài)并行 132
寫入Elasticsearch 133
從Elasticsearch中讀取 134
失敗捕獲 134
數據本地化 135
6.3 生產環(huán)境配置 135
硬件 135
內存 135
CPU 135
磁盤 136
網絡 136
集群安裝 137
集群拓撲結構 137
設置名稱 138
設置路徑 138
設置內存 139
腦裂問題 140
設置恢復參數 141
預設配置 142
數據導入 142
全文檢索 144
快速聚合 144
生產環(huán)境部署檢查列表 145
6.4 集群管理 146
監(jiān)控集群健康 146
備份和恢復 149
數據備份 149
數據恢復 150
小結 151
第7章 與Hadoop生態(tài)系統(tǒng)集成 152
7.1 與Pig集成 152
Pig安裝 154
向Elasticsearch中導入數據 155
從JSON源寫數據 157
類型轉換 157
從Elasticsearch中讀取數據 158
7.2 與Hive集成 158
安裝Apache Hive 158
向Elasticsearch中導入數據 159
從JSON源寫數據 161
類型轉換 161
從Elasticsearch中讀取數據 162
7.3 與Cascading集成 163
向Elasticsearch中導入數據 163
編寫一個Cascading作業(yè) 163
運行作業(yè) 164
從Elasticsearch中讀取數據 165
編寫一個reader作業(yè) 165
使用Lingual 165
7.4 與Spark集成 167
安裝Spark 168
向Elasticsearch中導入數據 168
使用SparkSQL向Elasticsearch中導入數據 169
從Elasticsearch中讀取數據 170
使用SparkSQL從Elasticsearch中讀取數據 170
7.5 與YARN集成 171
小結 172
附錄 配置 174
基本配置 174
es.resource 174
es.resource.read 174
es.resource.write 175
es.nodes 175
es.port 175
讀寫配置 175
es.query 175
es.input.json 176
es.write.operation 177
es.update.script 177
es.update.script.lang 177
es.update.script.params 177
es.update.script.params.json 178
es.batch.size.bytes 178
es.batch.size.entries 178
es.batch.write.refresh 178
es.batch.write.retry.count 178
es.batch.write.retry.wait 179
es.ser.reader.value.class 179
es.ser.writer.value.class 179
es.update.retry.on.conflict 179
映射配置 179
es.mapping.id 179
es.mapping.parent 180
es.mapping.version 180
es.mapping.version.type 180
es.mapping.routing 180
es.mapping.ttl 180
es.mapping.timestamp 181
es.mapping.date.rich 181
es.mapping.include 181
es.mapping.exclude 181
索引配置 181
es.index.auto.create 181
es.index.read.missing.as.empty 182
es.field.read.empty.as.null 182
es.field.read.validate.presence 182
網絡配置 182
es.nodes.discovery 182
es.nodes.client.only 183
es.http.timeout 183
es.http.retries 183
es.scroll.keepalive 183
es.scroll.size 183
es.action.heart.beat.lead 183
認證配置 184
es.net.http.auth.user 184
es.net.http.auth.pass 184
SSL配置 184
es.net.ssl 184
es.net.ssl.keystore.location 184
es.net.ssl.keystore.pass 184
es.net.ssl.keystore.type 184
es.net.ssl.truststore.location 184
es.net.ssl.truststore.pass 185
es.net.ssl.cert.allow.self.signed 185
es.net.ssl.protocol 185
es.scroll.size 185
代理配置 185
es.net.proxy.http.host 185
es.net.proxy.http.port 185
es.net.proxy.http.user 185
es.net.proxy.http.pass 186
es.net.proxy.http.use.system.props 186
es.net.proxy.socks.host 186
es.net.proxy.socks.port 186
es.net.proxy.socks.user 186
es.net.proxy.socks.pass 186
es.net.proxy.socks.use.system.props 186
展開全部
Easticsearch集成Hadoop最佳實踐 作者簡介
賈傳青,數據架構師,Oracle OCM,DB2遷移之星,TechTarget特約作家,從數據庫向大數據轉型的先行者,酷愛攝影。曾服務于中國聯(lián)通、中國電信、建設銀行、PICC等,目前供職于一家大數據解決方案提供商,致力于大數據技術的應用與實踐。著有《開源大數據分析引擎Impala實戰(zhàn)》一書。