<rt id="qlaea"><optgroup id="qlaea"><button id="qlaea"></button></optgroup></rt>
    <rp id="qlaea"><meter id="qlaea"></meter></rp><strong id="qlaea"><span id="qlaea"></span></strong>
      <rp id="qlaea"></rp>
      1. <source id="qlaea"><nav id="qlaea"><strike id="qlaea"></strike></nav></source>

        計算機書籍控

        Hadoop基礎教程

           揭開了Hadoop的神秘面紗,它著重講解了如何應用Hadoop和相關技術搭建工作系統并完成任務。在讀者明白這些內容之后,又介紹了如何使用云服務完成相同任務。從Hadoop的基本概念和初始設置入手,講述了如何開發Hadoop程序,如何在數據規模增長的時候維持系統運行,涵蓋了有效使用Hadoop處理實際問題所需用到的全部知識。
        

        目錄

        
        第1章 緒論 1
        1.1 大數據處理 1
        1.1.1 數據的價值 2
        1.1.2 受眾較少 2
        1.1.3 一種不同的方法 4
        1.1.4 Hadoop 7
        1.2 基于Amazon Web Services的云計算 12
        1.2.1 云太多了 12
        1.2.2 第三種方法 12
        1.2.3 不同類型的成本 12
        1.2.4 AWS:Amazon的彈性架構 13
        1.2.5 本書內容 14
        1.3 小結 15
        第2章 安裝并運行Hadoop 16
        2.1 基于本地Ubuntu主機的Hadoop系統 16
        2.2 實踐環節:檢查是否已安裝JDK 17
        2.3 實踐環節:下載Hadoop 18
        2.4 實踐環節:安裝SSH 19
        2.5 實踐環節:使用Hadoop計算圓周率 20
        2.6 實踐環節:配置偽分布式模式 22
        2.7 實踐環節:修改HDFS的根目錄 24
        2.8 實踐環節:格式化NameNode 25
        2.9 實踐環節:啟動Hadoop 26
        2.10 實踐環節:使用HDFS 27
        2.11 實踐環節:MapReduce的經典入門程序——字數統計 28
        2.12 使用彈性MapReduce 33
        2.13 實踐環節:使用管理控制臺在EMR運行WordCount 34
        2.13.1 使用EMR的其他方式 41
        2.13.2 AWS生態系統 42
        2.14 本地Hadoop與EMRHadoop的對比 42
        2.15 小結 43
        第3章 理解MapReduce 44
        3.1 鍵值對 44
        3.1.1 具體含義 44
        3.1.2 為什么采用鍵/值數據 45
        3.1.3 MapReduce作為一系列鍵/值變換 46
        3.2 MapReduce的HadoopJavaAPI 47
        3.3 編寫MapReduce程序 50
        3.4 實踐環節:設置classpath 50
        3.5 實踐環節:實現WordCount 51
        3.6 實踐環節:構建JAR文件 53
        3.7 實踐環節:在本地Hadoop集群運行WordCount 54
        3.8 實踐環節:在EMR上運行WordCount 54
        3.8.1 0.20之前版本的JavaMapReduceAPI 56
        3.8.2 Hadoop提供的mapper和reducer實現 57
        3.9 實踐環節:WordCount的簡易方法 58
        3.10 查看WordCount的運行全貌 59
        3.10.1 啟動 59
        3.10.2 將輸入分塊 59
        3.10.3 任務分配 60
        3.10.4 任務啟動 60
        3.10.5 不斷監視JobTracker 60
        3.10.6 mapper的輸入 61
        3.10.7 mapper的執行 61
        3.10.8 mapper的輸出和reducer的輸入 61
        3.10.9 分塊 62
        3.10.10 可選分塊函數 62
        3.10.11 reducer類的輸入 62
        3.10.12 reducer類的執行 63
        3.10.13 reducer類的輸出 63
        3.10.14 關機 63
        3.10.15 這就是MapReduce的全部 64
        3.10.16 也許缺了combiner 64
        3.11 實踐環節:使用combiner編寫WordCount 64
        3.12 實踐環節:更正使用combiner的WordCount 65
        3.13 Hadoop專有數據類型 67
        3.13.1 Writable和Writable—Comparable接口 67
        3.13.2 wrapper類介紹 68
        3.14 實踐環節:使用Writable包裝類 69
        3.15 輸入/輸出 71
        3.15.1 文件、split和記錄 71
        3.15.2 InputFormat和RecordReader 71
        3.15.3 Hadoop提供的InputFormat 72
        3.15.4 Hadoop提供的RecordReader 73
        3.15.5 OutputFormat和Record—Writer 73
        3.15.6 Hadoop提供的OutputFormat 73
        3.15.7 別忘了Sequencefiles 74
        3.16 小結 74
        第4章 開發MapReduce程序 75
        4.1 使用非Java語言操作Hadoop 75
        4.1.1 HadoopStreaming工作原理 76
        4.1.2 使用HadoopStreaming的原因 76
        4.2 實踐環節:使用Streaming實現Word—Count 76
        4.3 分析大數據集 79
        4.3.1 獲取UFO目擊事件數據集 79
        4.3.2 了解數據集 80
        4.4 實踐環節:統計匯總UFO數據 80
        4.5 實踐環節:統計形狀數據 82
        4.6 實踐環節:找出目擊事件的持續時間與UFO形狀的關系 84
        4.7 實踐環節:在命令行中執行形狀/時間分析 87
        4.8 實踐環節:使用ChainMapper進行字段驗證/分析 88
        4.9 實踐環節:使用DistributedCache改進地點輸出 93
        4.10 計數器、狀態和其他輸出 96
        4.11 實踐環節:創建計數器、任務狀態和寫入日志 96
        4.12 小結 102
        第5章 高級MapReduce技術 103
        5.1 初級、高級還是中級 103
        5.2 多數據源聯結 103
        5.2.1 不適合執行聯結操作的情況 104
        5.2.2 map端聯結與reduce端聯結的對比 104
        5.2.3 匹配賬戶與銷售信息 105
        5.3 實踐環節:使用MultipleInputs實現reduce端聯結 105
        5.3.1 實現map端聯結 109
        5.3.2 是否進行聯結 112
        5.4 圖算法 112
        5.4.1 Graph101 112
        5.4.2 圖和MapReduce 112
        5.4.3 圖的表示方法 113
        5.5 實踐環節:圖的表示 114
        5.6 實踐環節:創建源代碼 115
        5.7 實踐環節:第一次運行作業 119
        5.8 實踐環節:第二次運行作業 120
        5.9 實踐環節:第三次運行作業 121
        5.10 實踐環節:第四次也是最后一次運行作業 122
        5.10.1 運行多個作業 124
        5.10.2 關于圖的終極思考 124
        5.11 使用語言無關的數據結構 124
        5.11.1 候選技術 124
        5.11.2 Avro簡介 125
        5.12 實踐環節:獲取并安裝Avro 125
        5.13 實踐環節:定義模式 126
        5.14 實踐環節:使用Ruby創建Avro源數據 127
        5.15 實踐環節:使用Java語言編程操作Avro數據 128
        5.16 實踐環節:在MapReduce中統計UFO形狀 130
        5.17 實踐環節:使用Ruby檢查輸出數據 134
        5.18 實踐環節:使用Java檢查輸出數據 135
        5.19 小結 137
        第6章 故障處理 138
        6.1 故障 138
        6.1.1 擁抱故障 138
        6.1.2 至少不怕出現故障 139
        6.1.3 嚴禁模仿 139
        6.1.4 故障類型 139
        6.1.5 Hadoop節點故障 139
        6.2 實踐環節:殺死DataNode進程 141
        6.3 實踐環節:復制因子的作用 144
        6.4 實踐環節:故意造成數據塊丟失 146
        6.5 實踐環節:殺死TaskTracker進程 149
        6.6 實踐環節:殺死JobTracker 153
        6.7 實踐環節:殺死NameNode進程 154
        6.8 實踐環節:引發任務故障 160
        6.9 數據原因造成的任務故障 163
        6.10 實踐環節:使用skip模式處理異常數據 164
        6.11 小結 169
        第7章 系統運行與維護 170
        7.1 關于EMR的說明 170
        7.2 Hadoop配置屬性 171
        7.3 實踐環節:瀏覽默認屬性 171
        7.3.1 附加的屬性元素 172
        7.3.2 默認存儲位置 172
        7.3.3 設置Hadoop屬性的幾種方式 173
        7.4 集群設置 174
        7.4.1 為集群配備多少臺主機 174
        7.4.2 特殊節點的需求 176
        7.4.3 不同類型的存儲系統 177
        7.4.4 Hadoop的網絡配置 178
        7.5 實踐環節:查看默認的機柜配置 180
        7.6 實踐環節:報告每臺主機所在機柜 180
        7.7 集群訪問控制 183
        7.8 實踐環節:展示Hadoop的默認安全機制 183
        7.9 管理NameNode 187
        7.10 實踐環節:為fsimage文件新增一個存儲路徑 188
        7.11 實踐環節:遷移到新的NameNode主機 190
        7.12 管理HDFS 192
        7.12.1 數據寫入位置 192
        7.12.2 使用平衡器 193
        7.13 MapReduce管理 193
        7.13.1 通過命令行管理作業 193
        7.13.2 作業優先級和作業調度 194
        7.14 實踐環節:修改作業優先級并結束作業運行 194
        7.15 擴展集群規模 197
        7.15.1 提升本地Hadoop集群的計算能力 197
        7.15.2 提升EMR作業流的計算能力 198
        7.16 小結 198
        第8章 Hive:數據的關系視圖 200
        8.1 Hive概述 200
        8.1.1 為什么使用Hive 200
        8.1.2 感謝Facebook 201
        8.2 設置Hive 201
        8.2.1 準備工作 201
        8.2.2 下載Hive 202
        8.3 實踐環節:安裝Hive 202
        8.4 使用Hive 203
        8.5 實踐環節:創建UFO數據表 204
        8.6 實踐環節:在表中插入數據 206
        8.7 實踐環節:驗證表 208
        8.8 實踐環節:用正確的列分隔符重定義表 210
        8.9 實踐環節:基于現有文件創建表 212
        8.10 實踐環節:執行聯結操作 214
        8.11 實踐環節:使用視圖 216
        8.12 實踐環節:導出查詢結果 219
        8.13 實踐環節:制作UFO目擊事件分區表 221
        8.13.1 分桶、歸并和排序 224
        8.13.2 用戶自定義函數 225
        8.14 實踐環節:新增用戶自定義函數 225
        8.14.1 是否進行預處理 228
        8.14.2 Hive和Pig的對比 229
        8.14.3 未提到的內容 229
        8.15 基于AmazonWebServices的Hive 230
        8.16 實踐環節:在EMR上分析UFO數據 230
        8.16.1 在開發過程中使用交互式作業流 235
        8.16.2 與其他AWS產品的集成 236
        8.17 小結 236
        第9章 與關系數據庫協同工作 238
        9.1 常見數據路徑 238
        9.1.1 Hadoop用于存儲檔案 238
        9.1.2 使用Hadoop進行數據預處理 239
        9.1.3 使用Hadoop作為數據輸入工具 239
        9.1.4 數據循環 240
        9.2 配置MySQL 240
        9.3 實踐環節:安裝并設置MySQL 240
        9.4 實踐環節:配置MySQL允許遠程連接 243
        9.5 實踐環節:建立員工數據庫 245
        9.6 把數據導入Hadoop 246
        9.6.1 使用MySQL工具手工導入 246
        9.6.2 在mapper中訪問數據庫 246
        9.6.3 更好的方法:使用Sqoop 247
        9.7 實踐環節:下載并配置Sqoop 247
        9.8 實踐環節:把MySQL的數據導入HDFS 249
        9.9 實踐環節:把MySQL數據導出到Hive 253
        9.10 實踐環節:有選擇性的導入數據 255
        9.11 實踐環節:使用數據類型映射 257
        9.12 實踐環節:通過原始查詢導入數據 258
        9.13 從Hadoop導出數據 261
        9.13.1 在reducer中把數據寫入關系數據庫 261
        9.13.2 利用reducer輸出SQL數據文件 262
        9.13.3 仍是最好的方法 262
        9.14 實踐環節:把Hadoop數據導入MySQL 262
        9.15 實踐環節:把Hive數據導入MySQL 265
        9.16 實踐環節:改進mapper并重新運行數據導出命令 267
        9.17 在AWS上使用Sqoop 269
        9.18 小結 270
        第10章 使用Flume收集數據 271
        10.1 關于AWS的說明 271
        10.2 無處不在的數據 271
        10.2.1 數據類別 272
        10.2.2 把網絡流量導入Hadoop 272
        10.3 實踐環節:把網絡服務器數據導入Hadoop 272
        10.3.1 把文件導入Hadoop 273
        10.3.2 潛在的問題 273
        10.4 ApacheFlume簡介 274
        10.5 實踐環節:安裝并配置Flume 275
        10.6 實踐環節:把網絡流量存入日志文件 277
        10.7 實踐環節:把日志輸出到控制臺 279
        10.8 實踐環節:把命令的執行結果寫入平面文件 281
        10.9 實踐環節:把遠程文件數據寫入本地平面文件 283
        10.9.1 信源、信宿和信道 284
        10.9.2 Flume配置文件 286
        10.9.3 一切都以事件為核心 287
        10.10 實踐環節:把網絡數據寫入HDFS 287
        10.11 實踐環節:加入時間戳 289
        10.12 實踐環節:多層Flume網絡 292
        10.13 實踐環節:把事件寫入多個信宿 294
        10.13.1 選擇器的類型 295
        10.13.2 信宿故障處理 295
        10.13.3 使用簡單元件搭建復雜系統 296
        10.14 更高的視角 297
        10.14.1 數據的生命周期 297
        10.14.2 集結數據 297
        10.14.3 調度 297
        10.15 小結 298
        第11章 展望未來 299
        11.1 全書回顧 299
        11.2 即將到來的Hadoop變革 300
        11.3 其他版本的Hadoop軟件包 300
        11.4 其他Apache項目 303
        11.4.1 HBase 303
        11.4.2 Oozie 303
        11.4.3 Whir 304
        11.4.4 Mahout 304
        11.4.5 MRUnit 305
        11.5 其他程序設計模式 305
        11.5.1 Pig 305
        11.5.2 Cascading 305
        11.6 AWS資源 306
        11.6.1 在EMR上使用HBase 306
        11.6.2 SimpleDB 306
        11.6.3 DynamoDB 306
        11.7 獲取信息的渠道 307
        11.7.1 源代碼 307
        11.7.2 郵件列表和論壇 307
        11.7.3 LinkedIn群組 307
        11.7.4 Hadoop用戶群 307
        11.7.5 會議 308
        11.8 小結 308
        隨堂測驗答案 309
        

        書籍下載

        尊重版權,請購買正版書籍

        正版書籍

        Hadoop基礎教程

        163A官方彩票导航网 www.tianlijiqi.com:出国| www.4008557888.com:大庆市| www.wyadorkable.com:疏附县| www.szjlufe.org:镇远县| www.inpoker88.com:易门县| www.smashingoffernow.com:资中县| www.addx-technologies.com:庄河市| www.xqlcw.cn:洛扎县| www.msplg.com:石台县| www.simonsapartments.com:葫芦岛市| www.wwwhg4950.com:勐海县| www.speaklan.com:酉阳| www.youjjez.com:呼和浩特市| www.efemlak.com:建昌县| www.m8589.com:陆川县| www.arecipesite.com:潢川县| www.913820.com:尼玛县| www.friendsshelter.com:蒙城县| www.9trix.com:张家界市| www.carrington-place.com:孟州市| www.hg45345.com:鹤庆县| www.getallsites.com:恭城| www.yuexiangshipin.com:古交市| www.informasijakarta.com:合肥市| www.doxycyclin.net:西乌珠穆沁旗| www.hbtzn.com:福州市| www.bjaymy.com:麦盖提县| www.onewaytoliveband.com:墨江| www.wwwhg7825.com:漳平市| www.dma-chap8.com:大洼县| www.maison-den-haut.com:扶风县| www.maadqr-app.com:建瓯市| www.hg67456.com:黎平县| www.taisunsanantonio.com:陆河县| www.therobleys.com:潞西市| www.witbankguesthouseaccommodation.com:清新县| www.565783.com:手游| www.alishido.com:泊头市| www.pasion4x4rosario.com:新安县| www.cameronianartsawards.com:门头沟区| www.223980.com:密云县| www.wwwhg1229.com:大化| www.217661.com:谷城县| www.rcnbw.cn:遂昌县| www.xpflw.cn:藁城市| www.xiangyanwz.com:砀山县| www.jmin00.com:蚌埠市| www.eicsamexico.com:颍上县| www.well39.com:枣强县| www.doedoehuis.com:大埔区| www.lepoidevinmerge.com:吉首市| www.altoconhecimento.com:尤溪县| www.tosarang.org:扎囊县| www.m8389.com:乐平市| www.suncity233.com:奎屯市| www.mfnfj.com:宿州市| www.brwhm.com:扶绥县| www.658peizi.com:灵台县| www.spjjs.com:平顶山市| www.dictionarios.com:农安县| www.gbdbn.cn:溧水县| www.conet-working.com:翁牛特旗| www.livewellfeelgood.com:澄迈县| www.amirtarabarasia.com:星座| www.unirci.com:华池县| www.iconachive.com:太谷县| www.p5539.com:辉南县| www.ukmagic.net:淳化县| www.hstarhu.com:东兴市| www.ereglielitogrencievi.com:东莞市| www.cn733.com:丰镇市| www.airportlimoes.com:德兴市| www.loupanvip.com:九寨沟县| www.01dyy.com:罗山县| www.jtian-168.com:杂多县| www.childhoroscopes.com:高唐县| www.hnprn.cn:习水县| www.edwardszmucmd.com:阳高县| www.advsignco.com:瓦房店市| www.cp8595.com:江津市| www.thailandelitevisa.org:乌拉特后旗| www.bromoijenvacation.com:云阳县| www.hzzgg.com:偃师市| www.anotherspace2.com:怀远县|