Amazon FSx for Lustre
https://d1.awsstatic.com/webinars/jp/pdf/services/20190319_AWS-Blackbelt-Amazon_FSx_Lustre.pdf
## 主目的
コンピュートインテンシブワークロード
- 膨大なデータを多くの計算資源で高速に処理するワークロード
- 計算資源が多かったとしてもデータアクセス速度が高速でないとボトルネックになってしまう
- 分散ファイルシステムが求められる
- ユースケース
- コンピューとインテンシブワークロードに向けたサービス
- EC2
- Was Batch
- Placement Group
- NICE-DCV
- Amazon FSx for Lustre
## 活用方法・事例
## パフォーマンスTips
- 容量1TB ごとに200MB/s のスループット
- EBS最適化オプションの影響を受けないので、インスタンスタイプのネットワーク帯域に比例する
- 高いパフォーマンスを得るために多数のインスタンスからの接続が必要
- ファイルごとにOSTに格納されるのでそれぞれのOSTで使用率に差がないかチェック
- データはレプリケーションされないので長期保存に適していなく、データ処理用の一時領域として利用するのが吉
- 自動アップデートなどでストレージが一時的に利用不可能になることがある
- 容量の変更はできない
- S3からexport した場合、ファイル所有者やパーミッションなどの情報は保存されない
## コスト
東京だとスクラッチで 0.164USD * 3600GB(最低) = 590USD なので 7万円くらい。それと連携しているS3料金。実際は3.6TB なんて少量のデータは使わないので。。。
## まとめ
- Lustre のマネージドサービス
- 長期保存データはS3に保存し、計算用の一時領域としてFSx for Lustreを利用する
- ワークロードに適したパフォーマンスタイプ・ファイルストレージ(EFS, FSx for Lustre, FSx for Windows)を選択
## 雑感
Lustre 自体を知らなかったのでへぇってなった。大規模な計算を行う場合にファイルシステムがボトルネックになった時に選択肢として出てきそう。
それ以上にデータを処理して価値に変える方に価値があるワークロードで使えるサービス。
面白いが、自分が使う機会は、、、あるのだろうか。。。