Amazon Comprehendのフライホイールを使用するにはデータレイクが必要になります。
データレイクとは
データレイクはフライホイールが使用するデータの格納領域になります。
フライホイールはカスタムモデルが使用するデータ(トレーニングデータやテストデータ)をデータレイクに保存します。
データレイクの実態はS3バケットです。
フライホイールを作成する際にフライホイールが使用するデータレイク(S3バケットまたはそのフォルダ)を指定します。
データレイクは再利用が可能です。フライホイールを削除しても、データレイクとして使用しているS3バケットを削除しなければ、再度フライホイールを作成した際に同じデータレイクを使用する事ができます。
データレイクの構成
フライホイールを作成する際にフライホイールが使用するデータレイク(S3バケットまたはそのフォルダ)を指定すると、以下のフォルダが作成されます。
Document Pool | |||
Annotations Pool | |||
Staging | |||
Model Datasets | モデルのバージョン毎データ領域 | ||
VersionID-1 | バージョン1のデータ | ||
Training | バージョンのトレーニングデータ | ||
Test | テストデータ | ||
ModelStats | モデルの統計情報 | ||
VersionID-2 | 以後バージョンが増えるたびに、 Training、Test、ModelStats を構成する フォルダが増える。 |
注意事項
データレイクに対して以下を行うと、フライホイールが正常に動かなくなる可能性があります。
- データレイクのデータを手動で変更しない。必ずAmazon Comprehendのオペレーションで行う。
- フォルダ構成を変更しない。