Amazon Comprehendのカスタム分類モデルを使用する場合、トレーニングデータを用意する必要があります。
トレーニングデータにはCSVファイル形式と拡張マニフェストファイルの2つの形式があります。
今回はCSVファイル形式について説明します。
CSVファイルの形式
形式
- CSVファイル
- UTF-8
- ヘッダーなし
注意点
カンマの前後に空白を使用しないこと。
内容
基本的に、”クラス名(カテゴリ),文章” という形式で内容を記載します。
クラス名には空白を使用する事ができ、複数の単語をアンダースコア、ハイフンで繋げる事も可能です。
分類子モード
トレーニングデータは2つのモードにより記載内容が異なります。
- シングルラベルモード
- マルチラベルモード