MLOpsを実現するSREの激闘の歴史
近年、DevOpsの原則を機械学習 (ML) システムの運用にも適用した、MLOpsが注目されています。
MLシステムでは、従来のソフトウェア開発でも管理が必要なアプリケーションコードに加え、データとモデルも合わせて管理する必要があります。システムの構成要素が多く、通常のソフトウェア開発に加えて特有の難しさがあり、技術的負債が蓄積しやすいことが知られています。
ストックマークでは新製品のMLシステム部分のプロトタイプ・商用化・運用を1人のMLエンジニアで回していましたが、技術的負債の蓄積により、アジリティが保てなくなってしまっていました。
本セッションでは、SREの自分が、どのようにMLエンジニアと協力して、MLOpsの実現に向けて奮闘したか、実際に向き合った課題、解決策、失敗例などを交えて紹介します。
MLOpsで取り組むべき課題は各組織や製品により千差万別ですが、本セッションで紹介する内容がご自身のシステム運用の参考になれば幸いです。
Outline/Structure of the Talk
- システムアーキテクチャ概要とMLで実現したいこと
- ML初心者SREがMLOpsに挑戦することになった背景
- MLOpsとはなにか、なぜ必要か
- MLOpsを実現するSREの激闘の歴史
- 課題設定と継続的な改善
- これから
Learning Outcome
- システム運用を継続的に改善するヒントが得られる
- 機械学習システム特有の課題の理解と、解決方法のヒントが得られる
Target Audience
機械学習 (ML)を活用したシステムの開発、運用に関わるエンジニア
Links
- BERTを使ったMLバッチ処理実サービスのアーキテクチャとMLOpsの取り組み
https://tech.stockmark.co.jp/blog/mlops/ - Infra Study Meetup #4「インフラの面白い技術とこれから」のLT3「AI SaaSの機械学習インフラ基盤とMLOpsの取り組み」
https://forkwell.connpass.com/event/179755/ - 37. MLOpsとは?どのようにMLOpsを実装しているか? w/ kenta_sato3
https://fukabori.fm/episode/37