请询价
適合對象:1,對大數(shù)據(jù)的前沿技術非常感興趣的人。 2,有志于成為一名數(shù)據(jù)科學家的從業(yè)人員。 3,有一定算法和編程基礎的技術愛好者。
開設課程校區(qū):北京海淀校區(qū)
關于舉辦“基于Python的Spark大數(shù)據(jù)挖掘技術”培訓的通知
各有關單位:
中國科學院計算技術研究所是國家專門的計算技術研究機構,同時也是中國信息化建設的重要支撐單位,中科院計算所培訓中心是致力于高端IT類人才培養(yǎng)及企業(yè)內(nèi)訓的專業(yè)培訓機構。中心憑借科學院的強大師資力量,在總結多年大型軟件開發(fā)和組織經(jīng)驗的基礎上,自主研發(fā)出一整套課程體系,其目的是希望能夠切實幫助中國軟件企業(yè)培養(yǎng)高級軟件技術人才,提升整體研發(fā)能力,迄今為止已先后為國家培養(yǎng)了數(shù)萬名計算機專業(yè)人員,并先后為數(shù)千家大型國內(nèi)外企業(yè)進行過專門的定制培訓服務。
Python是數(shù)據(jù)分析最常用的語言之一,而Apache Spark是一個開源的強大的分布式查詢和處理引擎。本培訓用詳盡的案例介紹如何使用Python來調(diào)用Spark的新特性,如何處理結構化和非結構化的數(shù)據(jù),如何使用PySpark中一些基本的可用數(shù)據(jù)類型,如何生成機器學習模型、操作圖像、閱讀串流數(shù)據(jù)以及在云上部署模型。
本培訓結合實例來介紹PySpark大數(shù)據(jù)挖掘。內(nèi)容包括對Apache Spark基礎知識介紹,彈性分布式數(shù)據(jù)集RDD的內(nèi)部運行方式講解,分析利用DataFrame加速PySpark,準備數(shù)據(jù)建模,檢查重復數(shù)據(jù)及異常數(shù)據(jù),分析描述性統(tǒng)計、數(shù)據(jù)相關性,介紹MLlib數(shù)據(jù)挖掘工具應用,講解ML機器學習包功能,使用Blaze實現(xiàn)持久化,講解Tensorflow基礎,分析結構化流Streaming,以及打包Spark應用程序,提交作業(yè)和監(jiān)控執(zhí)行等。
本培訓將合實例,對Python和Spark進行講解,通過實際操作,了解云環(huán)境下,大數(shù)據(jù)處理、數(shù)據(jù)探索的基本方法。
一、培訓對象
1,對大數(shù)據(jù)的前沿技術非常感興趣的人。
2,有志于成為一名數(shù)據(jù)科學家的從業(yè)人員。
3,有一定算法和編程基礎的技術愛好者。
二、學員基礎
1,對IT系統(tǒng)設計有一定的理論與實踐經(jīng)驗。
2,對數(shù)據(jù)挖掘和數(shù)據(jù)處理方法有一定的基礎知識。
3,對Hadoop/Spark等大數(shù)據(jù)技術有一定的了解。
三、師資
由業(yè)界知名大數(shù)據(jù)專家親自授課:
楊老師 主要研究網(wǎng)絡信息分析以及云計算相關技術,長期從事通信網(wǎng)管系統(tǒng)、網(wǎng)絡信息處理、商務智能(BI)以及電信決策支持系統(tǒng)的研究開發(fā)工作,主持和參與了多個國家和省部級基金項目,具有豐富的工程實踐及軟件研發(fā)經(jīng)驗。
四、培訓內(nèi)容
第一講 Spark基礎知識
1)什么是Apache Spark
2)Spark作業(yè)和API
3)DataFrame和Dataset
4)Spark 2.0的架構
5)SparkSession介紹
6)Tungsten Phase 2
7)結構化流
第二講 彈性分布式數(shù)據(jù)集
1)RDD的內(nèi)部運行方式
2)創(chuàng)建RDD
3)全局作用域和局部作用域
4)RDD轉換
5)RDD操作
第三講 利用DataFrame加速PySpark
1)Python到RDD之間的通信
2)Catalyst優(yōu)化器刷新
3)創(chuàng)建DataFrame
4)RDD的交互操作
5)利用DataFrame API查詢
6)利用SQL查詢
7)DataFrame應用實例
第四講 準備數(shù)據(jù)建模
1)檢查重復數(shù)據(jù)及異常數(shù)據(jù)
2)描述性統(tǒng)計
3)數(shù)據(jù)相關性
4)數(shù)據(jù)可視化
5)直方圖
第五講 MLlib數(shù)據(jù)挖掘工具
1)MLlib包概述
2)加載和轉換數(shù)據(jù)
3)數(shù)據(jù)相關性和描述性統(tǒng)計
4)創(chuàng)建最終數(shù)據(jù)集
5)MLlib應用實例-預測嬰兒生存機會
第六講 ML機器學習包
1)ML包的概述
2)分類、回歸和聚類
3)使用ML預測嬰兒生存率
4)ML超參調(diào)優(yōu)
5)ML的特征提取
6)ML的其他功能
第七講 使用Blaze實現(xiàn)持久化
1)安裝Blaze
2)混合持久化
3)使用NumPy和pandas數(shù)據(jù)
4)與關系型數(shù)據(jù)庫進行交互
5)數(shù)據(jù)操作和訪問
6)數(shù)據(jù)連接
第八講 Tensorflow基礎
1)神經(jīng)網(wǎng)絡和深度學習
2)TensorFlow介紹和安裝
3)配置和設置TensorFlow
4)使用TensorFlow進行矩陣分析
5)TensorFlow操作示例
第九講 結構化流Streaming
1)Streaming介紹
2)Streaming的基本組件
3)Streaming應用程序數(shù)據(jù)流
4)用DStream簡化Streaming應用程序
5)全局聚合
6)結構化流介紹
第十講 打包Spark應用程序
1)spark-submit命令
2)以編程方式部署應用程序
3)配置你的SparkSession
4)創(chuàng)建SparkSession
5)模塊化代碼
6)提交作業(yè)和監(jiān)控執(zhí)行
五、培訓目標
1, 學習Python和Spark的相關基礎知識。
2,學習Python和Spark的核心技術方法及應用。
3,了解Python和Spark在數(shù)據(jù)分析中的使用。
六、時間、地點
時間: 2018年6月12日-6月14日 地點:北京
七、證書
培訓結束,頒發(fā)中科院計算所職業(yè)培訓中心“基于Python的Spark大數(shù)據(jù)挖掘技術”結業(yè)證書。
八、費用
培訓費:5800元/人(含教材、證書、午餐、學習用具)。住宿協(xié)助安排,費用自理。
中科院計算所培訓學校(北京市海淀區(qū)中科院計算所職業(yè)技能培訓學校)成立于1987年,是計算所根據(jù)國家普及計算機知識,培養(yǎng)專業(yè)計算機人才而創(chuàng)建的。培訓中心依托中國科學院強大的技術背景,歷經(jīng)二十年的發(fā)展,為全國各企事業(yè)單位、部隊、院校等累計培養(yǎng)了近十七萬人次的計算機專業(yè)人才,并為多家企業(yè)提供了高質(zhì)量的咨詢服務,現(xiàn)已形成企業(yè)內(nèi)訓、高端公開課、G5000A/CMMI培訓與咨詢、企業(yè)全方位咨詢服務四大業(yè)務模塊,在業(yè)界具有良好信譽。
“科學、高效、權威、品質(zhì)”是北京市海淀區(qū)中科院計算所職業(yè)技能培訓學校的經(jīng)營宗旨,面向企業(yè)人是其明確的市場定位。中科院計算所針對企業(yè)的信息化建設具有悠久的歷史,其IT技術培訓是一個長期積累、與時俱進的過程。1987年,我國的信息化建設十分滯后,計算機相關設備僅見于政府、部隊和部分大型國內(nèi)企業(yè),專業(yè)技術急待普及,中科院計算所適時創(chuàng)建了培訓中心,從計算機的基本概念、原理和維護到Windows、unix、linux應用到Oracle、DB2、數(shù)據(jù)倉庫、J2EE、.net,再到現(xiàn)在高端企業(yè)級需求分析、架構設計、系統(tǒng)設計及咨詢、云計算、海量數(shù)據(jù),始終與國際較前沿的IT技術接軌。25年,培訓中心的服務廣泛應用于全國各地電信、通信、電力、石化、金融、教育、部隊、交通、醫(yī)藥、服務等各行各業(yè),為我國的信息化建設做出了卓越的貢獻,成為中國IT精英權威培訓咨詢機構。
北京市海淀區(qū)中科院計算所職業(yè)技能培訓學校擁有一批具有多年豐富實際開發(fā)與教學經(jīng)驗兼?zhèn)涞膬?yōu)秀專職教師隊伍、咨詢專家,有一支活躍于軟件行業(yè)的研發(fā)團隊。中心憑借強大的師資力量,把握當今世界較前沿的開發(fā)技術,在總結多年大型軟件開發(fā)和組織經(jīng)驗的基礎上,自主研發(fā)出百門課程體系,滿足企業(yè)各層次的培訓需求,其目的是希望通過有經(jīng)驗高水平教師的講授來真正解決企業(yè)信息化建設中的問題,切實幫助中國軟件企業(yè)培養(yǎng)高級軟件技術人才,提升企業(yè)的整體研發(fā)能力。授課教師從思想、方法和技術三個層面系統(tǒng)討論企業(yè)信息化建設及大型軟件設計理論和方法,并且通過一些精心選擇的案例,揉合教師的大型項目經(jīng)驗,以項目過程中的問題帶動原理的描述,理論和實際相結合,重點講清問題,從而使學員在企業(yè)信息化建設項目中發(fā)揮更大的作用。
面對千變?nèi)f化的IT技術,北京市海淀區(qū)中科院計算所職業(yè)技能培訓學校不僅傳授給學員當今IT潮流較核心的前沿技術和解決問題的方法,同時也為學員提供后續(xù)技術支持,更指導學員如何把握技術動態(tài)的方法和考慮問題、潛心學習的思維方式,旨在為國內(nèi)外各企事業(yè)單位培養(yǎng)實用型、潛力型IT高端管理、創(chuàng)新人才,實現(xiàn)“與企業(yè)共發(fā)展,同攜手開創(chuàng)未來”的美好愿景。
我們承諾:充分的資源共享、完善的管理模式和立足潮頭的前沿技術,必將使您在更廣的領域享受到更佳的培訓服務!為了明天,我們一起努力