【Amazon Comprehend】データレイク

Amazon Comprehendのフライホイールを使用するにはデータレイクが必要になります。

データレイクとは

データレイクはフライホイールが使用するデータの格納領域になります。
フライホイールはカスタムモデルが使用するデータ(トレーニングデータやテストデータ)をデータレイクに保存します。
データレイクの実態はS3バケットです。
フライホイールを作成する際にフライホイールが使用するデータレイク(S3バケットまたはそのフォルダ)を指定します。
データレイクは再利用が可能です。フライホイールを削除しても、データレイクとして使用しているS3バケットを削除しなければ、再度フライホイールを作成した際に同じデータレイクを使用する事ができます。

データレイクの構成

フライホイールを作成する際にフライホイールが使用するデータレイク(S3バケットまたはそのフォルダ)を指定すると、以下のフォルダが作成されます。

Document Pool
Annotations Pool
Staging
Model Datasetsモデルのバージョン毎データ領域
VersionID-1バージョン1のデータ
Trainingバージョンのトレーニングデータ
Testテストデータ
ModelStatsモデルの統計情報
VersionID-2以後バージョンが増えるたびに、
Training、Test、ModelStats を構成する
フォルダが増える。

注意事項

データレイクに対して以下を行うと、フライホイールが正常に動かなくなる可能性があります。

  • データレイクのデータを手動で変更しない。必ずAmazon Comprehendのオペレーションで行う。
  • フォルダ構成を変更しない。
© DeNnie.Lab All Rights Reserved.