文章(ドキュメント)が何の分類(カテゴリ)の内容であるかを自動的に判断させたい場合に、Amazon Comprehendのカスタム分類モデルを使用します。
例えば、カスタム分類モデルへメールの文章を読み込ませ、必要なメールか、そうでない(スパムメール)かを分類する事も可能です。
カスタム分類モデルを実行するために必要なこと
カスタム分類モデルを使用してドキュメントを判断する前に以下の準備が必要です。
- トレーニングデータの作成
- トレーニングデータの配置
- 実行結果の出力先
- テストデータの作成(オプション)
- 実行ロールの作成
特にドキュメント分類の判定結果の精度を上げるにはトレーニングデータの作成が重要になります。
トレーニングデータの作成
トレーニングデータの作成方法については以下を参照して下さい。
カスタム分類モデルトレーニングデータ
トレーニングデータの配置
カスタム分類モデルが読み込むトレーニングデータは予めS3バケットにアップロードしておく必要があります。
その為、トレーニングデータ読み込み用にS3バケットを作成する必要があります。
S3バケットの作成方法は割愛させて頂きます。
実行結果の出力先
カスタム分類モデルへ文章を読み込ませた結果はS3へ出力されます。
その為、結果出力用にS3バケットを作成する必要があります。
S3バケットの作成方法は割愛させて頂きます。
テストデータの作成(オプション)
オプションの指定になるので必須ではありませんが、カスタム分類モデルを調教する際に自作のテストデータを指定できます。
テストデータ
実行ロールの作成
Amazon Comprehendを利用する為のロールを作成します。
モデル作成時(後述)にロールを作成出来ますが今回は予め作成しておきます。
なお、AWSのロールについての詳細は割愛させて頂きます。
任意のロール名でポリシーにComprehendDataAccessRolePolicyを付与すればAmazon Comprehendが必要とする一通りの操作は出来ます。
カスタム分類モデルの実行
カスタム分類モデルの作成
カスタム分類モデルの作成は以下を参考にして下さい。
カスタム分類モデルの作成