資訊工業策進會  數位教育研究所  南區訓練中心

將此課程分享到:facebook plurk twitter

經濟部工業局 106年度製造業價值鏈資訊應用計畫  

 【經濟部工業局廣告】

Big Data資料處理-Spark實作

10/28 開班,符合補助資格於10/13前完成報名及繳費者, 可享優惠價 !》

Big Data資料分析- R軟體實作 ,同步招生中

 ◆ 課程緣起

近年來各大企業如Google、Apple、Facebook等,皆已將機器學習應用在日常生活中,舉凡:自動駕駛、人臉辨識、語音辨識、各種預測、投資分析、醫學、工業等應用,機器學習儼然成為現在及未來市場的顯學。機器學習需要仰賴大量資料來完成,然而要處理大資料量就面臨到「Big Data的儲存」「Big Data的運算」兩大難題。

在2014年的資料排序基準競賽(Sort Benchmark Competition) 中,Databricks公司使用Spark,在207台的叢集中,以23分鐘完成 100 TB 的資料排序,刷新了2013年由Yahoo創下的記錄(在2,100台的叢集中使用MapReduce,花費了72分鐘完成),這項成就也讓Spark一戰成名。

Spark是一個讓數據分析更加快速的叢集運算引擎,它使用了「記憶體內運算技術」(In-Memory Computing),能在資料尚未寫入硬碟時即在記憶體內分析運算。Spark並非用來取代Hadoop,而是改進了Hadoop內MapReduce運算引擎,它支援了Hadoop所支援的儲存系統,包括HDFS、S3等。但Spark本身沒有提供儲存的功能,因此在使用上常見利用Spark叢集的運算加上Hadoop HDFS分散的儲存來處理Big Data進行分析,就可算是完美的結合。

有鑑於此,資策會特規劃了「Big Data資料處理-Spark實作」課程,本課程從Spark的手動安裝開始,讓學員建構出Spark的叢集環境,並體驗程式在叢集上運作的過程,及透過圖形介面監看多台叢集的運行。課程中將輔以Hadoop虛擬主機,讓學員實際體驗Spark整合Hadoop HDFS讀、寫的功能,幫助學員往後在使用或學習資料分析相關語言時,能與Spark順利接軌。

 ◆ 課程特色

  1. 本課程理論與實務並重,除了讓學員了解Spark的技術,並能自行建構及使用Spark叢集。

  2. 獨家採用已建構好的多台Linux虛擬主機環境,讓學員實作Hadoop HDFS + Spark叢集架構,在Spark叢集上執行程式並透過圖形介面監看多台叢集的運行。

  3. 本課程將會學習整合Spark與Hadoop HDFS讀、寫的功能,安裝Ipython Notebook執行在Spark叢集上,在Ipython Notebook互動模式中操作RDD、DataFrame、Spark SQL、Spark MLlib ALS推薦等範例,最後安裝SparkR,練習讓R執行在Spark的叢集上。

  4. 課程採體驗式教學方式的實作,只要具些許Linux操作基礎,仍可經由指令、設定的剪貼從中驗證課程所學。

 ◆ 課程目標

學員於學習後能具備獨立完成Spark的安裝、操作與叢集建置的能力,在Spark叢集上安裝、執行Ipython Notebook,操作PySpark與SparkR,整合Spark與Hadoop HDFS讀、寫的功能,練習RDD、DataFrame、Spark SQL、Spark MLlib ALS推薦等範例,並通過課後測驗。

 ◆ 適合對象

1.     Big Data處理、分析、應用有興趣者

2.     IT經理、專案經理、系統架構師或系統網路管理人員

3.     略具Linux使用基礎者為佳

 ◆ 課程內容
   

課程單元

課程內容

Big Data概述
  • Big Data簡介
  • Big Data平台的介紹與比較 - Hadoop與Spark
Hadoop HDFS與Spark安裝
  • 在3台linux上安裝Hadoop HDFS分散式儲存系統
  • HDFS指令操作
  • 在HDFS架構上手動安裝Spark Cluster(1台Master + 3台Worker)
Spark不同執行模式的操作與使用
  • Spark Local模式的操作
  • Spark Standalone Cluster模式的操作
  • 透過spark-shell、pyspark、spark-submit在Spark Cluster上執行scala、python或jar檔
  • IPython Notebook安裝與執行Python Spark(pyspark)程式
RDD的操作
  • RDD的轉換(transformation)與動作(action)
  • RDD key-value的基本操作
  • 在Spark Cluster上撰寫WordCount並執行
Spark SQL、MLlib ALS推薦演算法
  • RDD、DataFrame與Spark SQL的轉換與操作
  • Pandas DataFrame繪圖範例
  • 透過ALS訓練來建立模型並進行推薦範例
SparkR安裝
  • R、RStudio的安裝
  • SparkR範例練習(讓R執行在Spark Cluster上)

課程 *課程執行單位保留調整課程內容、日程與講師之權利*

 ◆ 課程日期 / 課程報名
課程日期 線上報名

106/10/28~106/10/29  週 六日
 (09:30~12:30,13:30~16:30,計12小時)

線上報名

1. 依據工業局人才培訓專案規範,接受補助之學員須完整填具「學員基本資料表」並於開課當天簽署一份「工業局個資告知同意書」,否則無法接受補助。

2. 學員參與課程期間依規定簽到/簽退,出席率達80%以上,並通過課程評量才能取得結業證書。

3. 結訓學員應配合經濟部工業局培訓後電訪調查。

按右方圖示 「線上報名」填寫線上報名表
中心服務人員會利用電話、電子郵件與您確認上課、繳費及報到事宜。

課程諮詢電話:(07)969-9885 分機6637 小姐

 ◆ 課程費用

1.本課程費用 NT$9,000 元(含稅),費用含課程、講義及午餐。

2.補助對象:本課程由工業局負擔40%,凡一般企業、非政府捐助(贈)財團法人、社團法人(含公協會)、行政法人、政府機關(含軍 人)、學生(大四生以上)、個人工作者10/13前完成報名及繳費者,可享有補助優惠價$5,400元

3.特殊身份優惠:符合補助者如為「身心障礙者、原住民、低收入戶、 經工業局擇定之重點輔導中堅企業」等特殊身份學員,享有經濟部工業局負擔60%之優惠, 前三者學員需提供政府機關核發之身份證明文件影本,中堅企業員工需提供在職證明文件正本。

4.未符合補助者政府捐助(贈)財團法人、學校教職員待業者、非本國國籍者

5.未符合補助者或不克配合補助相關規定者,於10/13前完成報名及繳費,可享早鳥優惠價$7,200元

 ◆ 招生人數:22人
 ◆ 開班人數:任職一般企業學員12人以上
 ◆ 上課地點

資策會數位教育研究所教室 
教室地址:
高雄市前金區中正四路211號8F之1(華國金融中心--捷運市議會站 2號出口)

 ◆ 報名確認與取消
  1. 已完成報名與繳費之學員,課程主辦單位將於開課 三天前以E-mail方式寄發上課通知函;若課程因故取消或延期,亦將以E-mail方式通知,如未收到任何通知,敬請來電確認

  2. 已完成繳費之學員如欲取消報名,請於實際上課日前以書面通知業務承辦人,主辦單位將退還90%課程費用 。

  3. 學員於培訓期間如因個人因素無法繼續參與課程,將依課程退費規定辦理之︰上課未逾總時數三分之一,欲辦理退費,退還所有上課費用之二分之一,上課逾總時數三分之一,則不退費。

  4. 本單位保留是否接受報名之權利

  5. 如遇不可抗拒之因素,課程主辦單位保留修訂課程日期及取消課程的權利。

  結業證書

依資訊工業策進會ISO品質系統之「教育訓練服務程序」規定,本課程為短期班,參訓學員缺課未超過總時數五分之一者,結業時由本會核發結業證書。(本計畫課程需參加並通過課程評量,才可取得結業證書。)

  學習護照

資策會為人事行政局首批認證審定之民間學習機構,公務人員參加資策會課程,學習時數可登錄「 公務人員終身學習護照」。 此外,參加本課程之中小企業員工,亦可獲得「 中小企業終身學習護照」認可之時數。

  Big Data課程架構
Big Data網站分析認證班-Google Analytics(GA)認證
Big Data資料視覺化-D3.js互動式資料視覺化實務
Big Data資料分析-進階R語言與機器學習 Big Data資料分析-使用Python作網路擷取與機器學習
Big Data資料分析-R軟體實作 Big Data資料分析-Python實作
Big Data資料庫-NoSQL與MongoDB實作
Big Data資料處理-Spark實作
Big Data資料處理-Hadoop部署實作

● 請點選課程名稱觀看詳細課程內容

  相關課程
資訊工業策進會 數位教育研究所  版權所有,禁止侵害,違者必究。
Copyright (c) 2016 III Digital Education Institute. All Rights Reserved