Databricks主催のセミナー。利用企業は田辺三菱製薬様。
内容は、AI活用事例ではなかったかな…
ソリューションアクセラレーターとして手早くテンプレ化しているあたりは上手。
質疑は、業界の中の人かららしい、すごく踏み込んだもので解答者がひるんでいた。
課題
- AWS/Hadoop分析環境はあったが、データ多くレスポンス悪すぎエラー頻発
- データサイエンス部メンバが、IT基盤の運用保守もやっており集中できない
- ITも目利きができていない、利用部門の役割分担の見直しと環境構築が必要
再構築に至った経緯
- ベースとなるリアルワールドデータの評価から
DVD納品、1TBのファイル。渡し方すら分からない - オンプレの見積もりをベンダからもらったら、5年で7億だった
ザ・オンプレ超概算の見積明細。スケーラブル、従量課金のクラウドへ - IT部門、実質一人しかいない。少ないリソースで開始できること
ひとりで内製化って
- データサイエンス部、自分たちで素早くやりたかったのに、環境が使えないことで外部委託になっていた。ハードがとか見積もりがとか余計な仕事をやめたい
- ITとデータサイエンス部で役割分担できた
Databricksの選定理由
- いまはDS部だけだが、いずれ全社で使いたい。部門専用DWHみたいなやつ。
全社共通のものが欲しい - 外部ベンダでサポートできるものなのか
オンプレはムリ - 構造化データはRDBでいいが、非構造となると別のものが
- 使っていないときに自動停止されるので、お金の面で不安が少ない
auto-terminate
導入効果
- でかいデータの移動・取り込み
Databricsの機能ではないが、Azureを経由することで、5時間くらいで処理できる状態にできた - 少人数で、安価にスタートすることができた
- 分析者が使いたい、さまざまな分析言語が使える
マーケティング領域でのデータ活用
- 営業本部でのプロジェクト、MRの行動変容を促すというもの
- 医薬品情報に関心を今、寄せている医師に対して、訪問できるようにする
- ITCM室、ベンダー(Python使い)、DS部(R使い)のコラボレーションがクラウド上のnotebookで簡単にできた
- オートスケール、自動停止なども効果があり、企画時の金額より1.7億円のコスト削減になった
DataLake の評価は?
- 分析データセット80個、すべて活用している
- タイムトラベル機能が特に良い。
RDBでは考えられない効率で、1世代前・数世代前に戻ってデータセットを検証できる。ローデータに遡って検証できる。ベンダーもDS部もみんな大好き。
コラボレーション notebook の評価は?
- データセットの構築(非構造、欠損値対応)を協力してできた
今後の展開
- 社内認知が進んだ
- SCM可視化、営業データとのコラボがスタートできそう
- リアルワールドデータ、DS部門以外でも見たいニーズがある
いまはデータ販売業者のツール使っているが、内製化へ - 工場系、制御系のストリーミング、品質異常検知できないか検討開始
- 創薬では成果、簡単に解析活用できる
分からないマイナーなものも多いが併走で支援を受けつつ進めたい