文章(ドキュメント)が何の分類(カテゴリ)の内容であるかを自動的に判断させたい場合に、Amazon Comprehendのカスタム分類モデルを使用します。
例えば、Amazon Comprehendへメールの文章を読み込ませ必要なメールか、そうでない(スパムメール)かを分類する事も可能です。
カスタム分類モデルを実行するために必要なこと
カスタム分類モデルを使用してドキュメントを判断する前に以下の準備が必要です。
- トレーニングデータの作成
- 実行結果の出力先
- 実行ロールの作成
特にドキュメント分類の判定結果の精度を上げるにはトレーニングデータの作成が重要になります。
トレーニングデータの作成
トレーニングデータの作成方法については以下を参照して下さい。
結果の出力先
Amazon Comprehendへ文章を読み込ませた結果はS3へ出力されます。
その為、結果出力用にS3バケットを作成する必要があります。
S3バケットの作成方法は割愛させて頂きます。
実行ロールの作成
Amazon Comprehendを利用する為のロールを作成します。
モデル作成時(後述)にロールを作成出来ますが今回は予め作成しておきます。
なお、AWSのロールについての詳細は割愛させて頂きます。
任意のロール名でポリシーにComprehendDataAccessRolePolicyを付与すればAmazon Comprehendが必要とする一通りの操作は出来ます。
今回は exec-comprehend という名前のロール名を作成しました。