各有關單位:
大數據分析作為數據分析的前沿技術,廣泛應用于物聯網、云計算、移動互聯網等新興產業。為加強大數據分析,創新發展頂層設計和科學布局,推動相關人員更好理解和掌握大數據分析的關鍵技術原理和未來發展方向,使各企事業單位利益最大化,中國信息協會信息服務網絡委員會決定舉辦“大數據的處理技巧及案例分析”高級研修班,并委托北京中建研信息管理咨詢中心承辦,望各單位收到通知后組織相關人員參加。現將有關事宜通知如下:
一、課程內容
課程模塊 |
課程主題 |
主要內容 |
案例和演示 |
模塊一 |
Hadoop的來源和動機 |
u 傳統大規模系統存在的問題 u Hadoop概述 u Hadoop分布式文件系統 u MapReduce工作原理 u Hadoop集群剖析 u Hadoop生態系統對一種新的解決方案的需求 u Hadoop的行業應用案例分析 u Hadoop在云計算和大數據的位置和關系 |
u Hadoop在淘寶、支付寶的作用 u 電商眼中的Hadoop和推薦系統。 u 移動大云項目(big cloud)中的Hadoop u 聯通使用Hadoop/Hbase解決3G詳單查詢問題。 |
模塊二 |
Hadoop生態系統介紹和演示 |
u Hadoop HDFS 和 MapReduce u Hadoop數據庫之HBase u Hadoop數據倉庫之Hive u Hadoop數據處理腳本Pig u Hadoop數據接口Sqoop和Flume,Scribe DataX u Hadoop工作流引擎 Oozie |
u Yahoo如何使用Hadoop構建大規模搜索的應用 u FaceBook 基于Hadoop構建數據倉庫 |
模塊三 |
Hadoop組件詳解 |
u Hadoop HDFS 基本結構 u Hadoop HDFS 副本存放策略 u Hadoop NameNode 詳解 u Hadoop SecondaryNameNode 詳解 u Hadoop DataNode 詳解 u Hadoop JobTracker 詳解 u Hadoop TaskTracker 詳解 |
u Hadoop Mapper類核心代碼 u Hadoop Reduce類核心代碼 u Hadoop 核心代碼 |
模塊四 |
Hadoop安裝和部署 |
u Hadoop系統模塊組件概述 u Hadoop試驗集群的部署結構 u Hadoop 安裝依賴關系 u Hadoop 生產環境的部署結構 u Hadoop集群部署 u Hadoop 高可用配置方法 u Hadoop 集群簡單測試方法 u Hadoop 集群異常Debug方法 |
u Hadoop安裝部署實驗 u Red hat Linux基礎環境搭建 u Hadoop 單機系統版本安裝配置 u Hadoop 集群系統版本安裝和啟動配置 u 使用 Hadoop MapReduce Streaming 快速測試系統 u Hadoopcore-site,hdfs-site,mapred-site 配置詳解 |
模塊五 |
Hadoop和數據庫技術優劣勢對比 |
u Hadoop/Hive 對比 Oracle 在構建數據倉庫上的優劣勢 u Hadoop 如何和傳統IT系統配合完成原來不可能的任務 |
u Apache社區版本:Cloudera 版本、MapR版本、Intel版本、Oracle、Dell、HP版本 |
模塊六 |
編寫MapReduce高級程序 |
u 使用 Hadoop MapReduce Streaming 編程 u MapReduce流程 u 剖析一個MapReduce程序 u 基本MapReduceAPI 概念 u 驅動代碼 Mapper、Reducer u Hadoop流 u API 使用Eclipse進行快速開發 u 新MapReduce API u MapReduce的優化 u MapReduce的任務調度 u MapReduce編程實戰 u 如何利用其他Hadoop相關技術,包括Apache Hive, Apache Pig,Sqoop和Oozie等 u 滿足解決實際數據分析問題的高級Hadoop API |
u Hadoop Streaming 和 Java MapReduce Api 差異。 u MapReduce 實現數據庫功能 u 利用Combiners來減少中間數據 u 數據壓縮解壓算法 u 基于統計模型的壓縮算法 :Huffman編碼、算數編碼、PPM算法 u 基于字典模型的編碼:LZ77算法、LZ78算法、LZW算法 u 面向實時數據的專用壓縮算法:矩形波串法、后向斜率法、旋轉門壓縮算法。 u 其他壓縮算法:RLE文本壓縮算法、BWT算法 u 編寫Partitioner來優化負載平衡 u 直接訪問Hadoop分布式文件系統(HDFS) u Hadoop的join操作 u 輔助排序在Reducer方的合并 u 定制Writables和WritableComparables u 使用SequenceFiles和Avro文件保存二進制數據 u 創建InputFormats OutputFormats u Hadoop的二次排序 u Hadoop的海量日志分析 u 在Map方的合并 |
模塊七 |
集成Hadoop到現有工作流 及Hadoop API深入探討 |
u 存儲系統 u 利用Sqoop從關系型數據庫系統中導入數據到Hadoop u 利用Flume導入實時數據到Hadoop u ToolRunner介紹、使用MRUnit進行測試 u 使用Configure和Close方法來進行Map/Reduce設置和關閉 |
u 使用FuseDFS和Hadoop訪問HDFS u 使用分布式緩存(Distributed Cache) u 直接訪問Hadoop分布式文件系統(HDFS) u 利用Combiners來減少中間數據 u 編寫Partitioner來優化負載平衡 |
模塊八 |
使用Hive和Pig開發及技巧 |
u Hive和Pig基礎 u Hive的作用和原理說明 u Hadoop倉庫和傳統數據倉庫的協作關系 u Hadoop/Hive倉庫數據數據流 u Hive 部署和安裝 u Hive Cli 的基本用法 u HQL基本語法 u 使用Oozie的動機 u Oozie工作流定義格式 |
u 使用JDBC 連接Hive進行查詢和分析 u 使用正則表達式加載數據 u HQL高級語法 u 編寫UDF函數 u 編寫UDAF自定義函數 u 使用Sqoop進行數據分析 u 使用oozie配置工作流 u phpHiveAdmin 安裝和使用 |
模塊九 |
實用開發技巧 |
u 排序和搜索索引 u 用Mahout進行機器學習 u Term Frequency – Inverse Document Frequency u 圖論簡介 |
u Word Co-Occurrenc u 用Hadoop表示圖 u 一個圖算法的實現:單源最短路徑 |
二、培訓時間及地點
2013年12月13日—12月16日 (13日全天報到) 深圳
2014年 1月14日— 1月17日 (14日全天報到) 北京
“機房建設與管理”的課程(所有內容QQ:931053300)
2013年12月 3日—12月6日 (3日全天報到 )上海
2013年12月 20日—12月23日 (20日全天報到 )海南*???nbsp;
“信息安全與網絡攻防”的課程(所有內容QQ:931053300)
2013年12月6日—12月9日 (6日全天報到) 上海
2013月12月23日-12月26日 (23日全天報到) 海南*???/p>
三、培訓對象
各地政府云計算、物聯網產業相關負責人,各企業CIO、信息中心負責人、技術總監,云計算產業投資團隊,云計算應用開發商,云計算硬件設備供應商,云服務提供商,高校、科研院所云計算項目負責人,設計師、架構師、系統管理員、開發經理、測試經理、產品經理、項目經理等。
四、培訓特色:
注重應用:分析國內實際情況,結合國際、國內成功經驗。Hadoop采用實戰的項目,讓學員在短時間內掌握Hadoop基本運維思路和方法;對Hadoop集群進行管理和優化。并進行高效的大數據清洗和分析。
五、師資力量:
王寶會:主要從事對物聯網、云計算相關技術、應用架構及實施有深入的研究。先后參與國家科技支撐項目《增強型搜索引擎研究及示范應用》、《中國移動POC項目設計與開發》、《華為公司網絡高級應用協議測試》《汽車制造工藝開發平臺》、《工商系統食品在線監管》項目。在國內外期刊多次發表學術論文及學術著作。
白碩:系統架構設計師;高級軟件工程師;項目總監。做hdfs相關的產品?;趆adoop2.0源代碼做了修改,修改的功能主要包括了文件的讀寫,安全模式,添加RPC調用,FileStatus, 裝載image,FsEditLog,
六、培訓費用及頒發證書
每人培訓費3900元(含培訓、教材、專家、場地、證書、學習用品費等),食宿統一安排,費用自理。
參加相關培訓并通過考試的學員,可以獲得:《大數據分析高級工程師》證書。并且可通過國家信息技術人才服務網(www.ciso.net.cn)查詢。
該證書可作為專業技術人員職業能力考核的證明,以及專業技術人員崗位聘用、任職、定級和晉升職務的重要依據。
咨詢與聯系方式:
電 話:010-51458793 51137523 傳 真:010-51137523
電子郵件:cx99@vip.sina.com QQ號:931053300
手 機:13366328120
聯系人:呂成(老師)