SERVICE
サービス

トレーニング

TRAINING

Apache Spark によるスケーラブル深層学習(研修)

 

目的

  • Apache Spark の基本的な使い方を習得した後、Scala による DataFrame プログラミングや分散処理のベースとなるクラスタ環境構築方法を学びます。
  • Apache Spark のクラスタ環境上で、TensorFlow などの深層学習(ディープラーニング)ツールを実行する方法を学びます。
  • Apache Spark のクラスタ環境上でハイパーパラメータ探索を行い、短時間で最適モデルを構築する方法を学びます。
  • 学習したモデルを Apache Spark で評価したりデプロイする方法を習得します。

内容

機械学習/AI(人工知能)技術が身近なものとなり、私たちの日常生活の隅々にまで浸透してきている深層学習(ディープラーニング)。効率的なモデル学習のため、GPU を搭載したサーバー利用はあたりまえになってきましたが、分析対象となるデータは日々増え続け、データ分析の現場ではさらなるスケーラビリティが求められています。

本トレーニングコースでは分散処理フレームワークとして実績のある、オープンソース・ソフトウェア(OSS) Apache Spark を用い、その基本からクラスタ環境の構築、分散深層学習などの方法を学びます。

データエンジニアやデータサイエンティストの業務連携ワークフローとして DataFrame パイプライン処理を使うことで、全社的な共通処理基盤を築くことができるのも Apache Spark ならではの魅力です。本トレーニングコースでは、Scala を使ったプログラミングを演習を通じて DataFrame の詳細を理解できます。

ノートPCまたはUSBメモリをご持参のお客様は、演習に使ったファイルをお持ち帰りいただけます。

  • 一般的な機械学習のパイプラインと Apache Spark
    • 機械学習の流れとデータサイエンティストやデータエンジニアの役割
    • Apache Spark とは?
    • 分散処理とは?
    • Apache Spark のインストール [演習]
  • Spark の Dataset API
    • DataFrame
      • DataFrame の構造 [演習]
      • DataFrame の Untyped 関数 [演習 x 2]
      • User Defined Functions (UDF)
      • UDF [演習]
    • Dataset
      • Dataset の Typed 関数
      • case class の定義と Dataset [演習]
      • RDD
      • RDD, DataFrame, Dataset の比較
  • 前処理
    • Spark による分散前処理の流れ
    • Spark の遅延評価 (Lazy Evaluation)
    • 基本的な Action
    • Action/遅延評価/Catalyst [演習]
    • 過去気象データを用いた前処理 [演習 x 2]
  • クラスターモード
    • クラスターモードとは
    • Standalone Spark Cluster の構築 [演習]
    • クラスタ上における実行方法
    • インタラクティブモードにおける分散前処理 [演習]
    • Spark Submit [演習]
  • 深層学習
    • 深層学習とは
    • ニューラルネットワークとは
    • オープンソースの深層学習ライブラリ・ツールの紹介
    • TensorFlow と Keras による深層学習 [演習]
  • Spark を用いた分散深層学習
    • Spark を利用したオープンソースの分散深層学習ツール
    • 分散ハイパーパラメータ探索
    • Spark, TensorFlow, Keras を利用した分散ハイパーパラメータ探索 [演習]
    • 分散深層学習
      • Synchronized SGD
      • Spark, TensorFlow, Keras を利用した分散深層学習 (Synchronized SGD) [演習]
      • Asynchronized SGD
  • Spark によるモデルの適用
    • スケーラブルなモデルのデプロイ [演習]

こんな人にお勧め

  • 機械学習モデル構築を行うデータサイエンティストやデータ分析を行うデータアナリストの方。
  • 各種ログデータや IoT データを前処理/加工するデータエンジニアの方。
  • 機械学習モデルを本番環境などへデプロイし、アプリケーションから利用したり効果をレポートするアプリケーションエンジニアの方。
  • データ前処理〜機械学習モデル構築〜評価やデプロイのプロセスを全社的に統一したいインフラエンジニアの方。
  • 日常的に大量データを扱うために、スケーラブルな環境構築が課題となっている企業の担当者。

開催日

開催日 時間 状況
2020年4月 10:00~17:00 締め切りました
2020年5月 10:00~17:00 日程はお問い合わせ下さい
2020年6月 10:00~17:00 日程はお問い合わせ下さい

会場

東京都千代田区神田東紺屋町28−1 VORT神田Ⅱ 4階

前提知識

  • 演習ではUbuntuマシンを使用しますので、viやEmacsなどのエディタが使えたり、Linuxコマンドを知っているとスムーズに受講できます。
  • Scala と Python を使った演習がありますので、これらのプログラミング言語がわかるとよいですが必須ではありません。

価格/申し込み方法

1名様につき 90,000円

入力フォームよりお申し込みください。開催決定後、請求書を発行いたしますので、期限までにお振り込みください。会社経理の都合上遅れる場合はご一報下さい。

開催決定の通知後(通知はお申込み受付後から、開催日のおおむね一週間前までに)はキャンセルはお受けできかねますのであらかじめご了承ください。

最少開講人数

2人

最少開講人数に達しない場合は開講しません。なるべく2名様以上でお申し込みください。

その他

遠方のお客様にはオンサイトで同内容のトレーニングを実施させていただくことができます。こちらの入力フォームから3名以上でお申し込みください。別途旅費(実費)を請求させていただきます。

KandaSearch

KandaSearch はクラウド型企業向け検索エンジンサービスです。
オープンAPIでカスタマイズが自由にできます。

  • セマンティックサーチ

    人間が理解するように検索エンジンがテキストや画像を理解して検索できます。

  • クローラー

    検索対象文書を収集するWebクローラーが使えます。

  • 簡単操作のUIと豊富なライブラリー

    検索や辞書UIに加え、定義済み専門用語辞書/類義語辞書やプラグインがあります。

  • ローコードで低コスト導入

    検索UIで使い勝手を調整した後、Webアプリケーションを自動生成できます。

セミナー

企業が検索エンジンを選定する際のポイントから、
実際の導入デモをお客様ご自身でご体験!