主要概念
AutoMLの使用についてさらに読み進める前に、Zia AutoMLの以下の概念を理解していることを確認してください。
モデル
モデルとは、さまざまなmachine learning algorithmsを使用して入力データセットをトレーニングした結果として生成される一連の計算です。AutoMLモデルを使用して、さまざまな条件でデータセット内のpredictionを行うことができます。したがって、モデルは実世界のプロセスを数学的に表現したものであり、さまざまな仮説をテストするための詳細な分析を実行できます。
AutoMLでモデルが生成されると、一連の入力値を提供し、データセットで観察されたパターンに基づいて一連の予測出力値を生成できます。
データセット
入力training dataセットは、predictionを実行するためにモデルが分析・トレーニングする構造化データのコレクションです。AutoMLでは、列と行のデータを含むCSVファイルの形式でデータセットを提供する必要があります。コンピュータから直接CSVファイルをアップロードするか、Catalyst File Storeからインポートできます。詳しくは実装セクションで確認できます。
ターゲット
ターゲットとは、モデルがデータセットでトレーニングされた後に値を予測する必要がある列です。値のpredictionはターゲット列のデータ型に基づきます。
AutoMLでは、数値型またはカテゴリ型の列のみをターゲットとして選択できます。Ziaは文字列型や日付型の列の値を予測できません。これらは計算可能なデータを保持していないためです。次のパートで列のデータ型について学びます。
列の属性
Ziaは、アップロードされたデータセット内のすべての列に対して6つの属性を決定します。ターゲットを選択する前に、さまざまなアルゴリズムがこれらの属性の値を計算・決定します。
データセットの列に対して以下の属性が決定されます:
- タイプ
これはデータセット内のすべての列に対して決定されます。AutoMLは以下のデータ型をサポートしています:- 数値型: 数値のみを含む列は数値型に分類されます。
- 文字列型: 数字、アルファベット、またはその他の文字のセットを値として含む列は文字列型に分類されます。さまざまなデータ型の混合値を含む列も文字列型に分類されます。
- 日付型: 日付時刻の値のみを含む列は日付型に分類されます。AutoMLは以下の日付形式をサポートしています:
| 形式 | 例 |
|---|---|
| YYYY-MM-DD | '2019-02-12' |
| YYYY/MM/DD | '2008/07/28' |
| YYYY/MM/DD hh:mm:ss | '2011/03/17 23:58:30' |
| DD-MM-YYYY | '03-09-2016' |
| DD/MM/YYYY | '22/11/2018' |
| DD-Month-YYYY | '13-January-2012' |
| YYYY-MM-DDThh:mm:ss.sTZD | '2019-11-28T05:19:31.665523+00:00' |
| YYYY.MM.DD | '2020.01.24' |
| Unixタイムスタンプ文字列(秒単位) | '1574918464' |
| Unixタイムスタンプ文字列(ミリ秒単位) | '157491844000' |
| Unixタイムスタンプ文字列(マイクロ秒単位) | '157491844000000' |
- カテゴリ型: 限られた数の異なる値を含む列はカテゴリ型に分類されます。カテゴリ型の列には2種類あります:
- バイナリクラス: バイナリクラスの列は、すべてのレコードで2つの異なる値のみを含みます。たとえば、Yes/No、Win/Loseの値を持つ列です。
- マルチクラス: マルチクラスの列は、すべてのレコードで3つ以上、ただし限られた数の異なる値を含みます。たとえば、国の州を示す列や、大学で利用可能な大学院プログラムを一覧表示する列です。 以下の表は、データ型に基づいて、ターゲットまたはモデルのトレーニングに使用できる列と使用できない列を示しています:
| データ型 | ターゲット | トレーニング |
|---|---|---|
| 数値型 | ✅ | ✅ |
| 文字列型 | ❌ | ❌ |
| 日付型 | ❌ | ✅ |
| カテゴリ型(バイナリクラスおよびマルチクラス) | ✅ | ✅ |
-
欠損値(%)
これはデータセット内の列における欠損値の割合を表します。たとえば、20レコードを含むデータセットで、ある列の値が10レコード分空の場合、データの欠損量は50%です。 -
固有値数
これはデータセット内の列の値における固有のエントリ数を表します。たとえば、ある列の値がすべてのレコードで「Yes」、「No」、「Maybe」のみを含む場合、固有値の数は3つで、その列はマルチクラスカテゴリ型に分類されます。 -
平均値
これは列内のすべての値の平均値を表します。これは数値型の列に対してのみ決定されます。 -
標準偏差
これは列内のすべての値の標準偏差を表します。これは数値型の列に対してのみ決定されます。 -
ターゲットとの相関
これは列とターゲットの相関を0から1の範囲で表します。0は相関なし、1は完全な相関を示します。列とターゲットの相関は、ターゲット列の値を参照して列の値で観察されたパターンによって決定されます。
たとえば、一般的なインフルエンザの症例数を報告する列がモデルのターゲットであるとします。年の月を示す別の列は、インフルエンザの症例数が一般的に冬の月に多くなるため、ターゲットとの相関が高くなり、互いに高度に依存しています。これは、文字列型の列を除く、データセット内のすべての列に対して決定されます。
以下の表は、データ型に基づいて列のさまざまな属性がどのように決定されるかを示しています:
| データ型 | 欠損値 | 固有値 | 平均値 | 標準偏差 | ターゲットとの相関 |
|---|---|---|---|---|---|
| 数値型 | ✅ | ✅ | ✅ | ✅ | ✅ |
| 文字列型 | ✅ | ✅ | ❌ | ❌ | ❌ |
| 日付型 | ✅ | ✅ | ❌ | ❌ | ✅ |
| カテゴリ型(バイナリクラスおよびマルチクラス) | ✅ | ✅ | ❌ | ❌ | ✅ |
入力特徴量選択
AutoMLでは、モデルのトレーニングに使用する列を選択できます。これは、モデル構築に使用する関連特徴量のサブセットを選択するプロセスである特徴量選択というmachine learningの概念に基づいています。prediction変数に最も貢献すると思われる特徴量を選択できます。
トレーニングに選択する列は、モデルのpredictionの精度に大きな影響を与えます。精度は、バイナリクラスおよびマルチクラスの分類モデルに対して計算・決定されます。これらについては次のパートで学びます。
ターゲットに無関係な列や相関が低い列は、不要なパターンを提供してモデルの学習に影響を与えるため、除外することをお勧めします。また、欠損値の割合が高い列も、モデルのpredictionの精度を変化させる可能性があるため、除外できます。
前の表に示したように、文字列型の列はモデルのトレーニングに使用できません。これは、文字列型には定量化可能または計算可能なデータが含まれていないためです。
モデルタイプ
モデルのターゲットを選択すると、選択したターゲット列のデータ型に基づいて、以下の3つのタイプのいずれかに分類されます:
- 回帰: モデルのターゲット列が数値型の場合、モデルは回帰モデルに分類されます。このモデルは数値を予測します。
- バイナリクラス分類: モデルのターゲット列がバイナリクラスカテゴリ型の場合、モデルはバイナリクラス分類モデルに分類されます。このモデルはバイナリまたはブール値の結果を予測します。
- マルチクラス分類: モデルのターゲット列がマルチクラスカテゴリ型の場合、モデルはマルチクラス分類モデルに分類されます。このモデルは3つ以上の離散クラスから1つのクラスを予測します。
モデルのタイプは評価レポートで確認できます。
モデルのトレーニング
AutoMLはmachine learning algorithmsを実行してパターンを識別し、推論を導き出し、提供されたデータセットの80%を使用してモデルを構築・トレーニングします。その後、AutoMLは残りの20%のデータセットを使用して構築したモデルを検証します。このプロセス全体は、モデルのトレーニング中に実行されます。
モデルのトレーニング後、AutoMLはトレーニングプロセス中に計算されたさまざまな統計情報をモデルの評価レポートで提供します。提供される情報はモデルタイプによって異なります。
バイナリクラスおよびマルチクラス分類モデルの評価レポート
AutoMLは、混同行列の形式でバイナリクラス分類モデルの以下の属性のパーセンテージ値を提供します:
- 真陽性(TP): 真陽性は、モデルが正のクラスを正しく予測した結果です。
- 真陰性(TN): 真陰性は、モデルが負のクラスを正しく予測した結果です。
- 偽陽性(FP): 偽陽性は、モデルが正のクラスを誤って予測した結果です。
- 偽陰性(FN): 偽陰性は、モデルが負のクラスを誤って予測した結果です。
混同行列は、列が予測クラスを、行が実際のクラスを表す2×2の行列です。
| 予測:偽 | 予測:真 | |
|---|---|---|
| 実際:偽 | TN | FP |
| 実際:真 | FN | TP |
正のクラスと負のクラスは、各クラスが境界の両側に位置するバイナリクラス分類の特性です。たとえば、列に_Domestic_と_International_の2つの値のみが可能な場合、分類器が「Domestic」の正の結果を探しているとき、_Domestic_は正のクラスに割り当てられます。_Domestic_でないもの、つまり_International_の値は、「Domestic」の負のクラスに割り当てられます。
混同行列は、モデルのトレーニング中に発生した誤分類(値をカテゴリに誤って割り当てること)のインスタンスを理解するのに役立ちます。
以下の情報は、バイナリクラスおよびマルチクラス分類モデルの両方の評価レポートで提供されます:
-
精度
精度は、モデルがテストデータに対して行った予測のうち、正しかった予測の割合をパーセンテージ値で表したものです。精度 = 正しいpredictionの数 / 全predictionの数バイナリクラス分類モデルの場合、精度は以下のようにも計算できます:
精度 = (TP + TN) / (TP + TN + FP + FN)前述のとおり、入力特徴量選択時に無関係な列や欠損データの多い列を除外することで、モデルのpredictionの精度を向上させることができます。また、正確で有効なデータを提供することでも改善できます。
-
適合率
適合率は、モデルがテストデータに対して行った正のpredictionのうち、正しかったものの割合です。適合率 = TP / (TP+FP)適合率は、モデルの正のpredictionがどれだけ正確であるかを示します。
-
再現率
再現率は、すべての真陽性と偽陰性のうち、モデルが行った真陽性のpredictionの割合です。再現率 = TP / (TP+FN)これは、偽陰性に関連する高いコストがある場合に最適なモデルを選択するために使用されます。再現率は_True Positive Rate_とも呼ばれます。
-
F1スコア
F1スコアは、適合率と再現率の調和平均です。F1スコア = 2 x (適合率\*再現率) / (適合率+再現率)F1スコアは、適合率と再現率のバランスを求めている場合に有用な指標です。
-
対数損失
対数損失は、モデルのpredictionの不確実性を測定します。小さな対数損失値は低い不確実性を示します。したがって、高い対数損失値は望ましくありません。
回帰モデルの評価レポート
前のパートで説明した統計情報は回帰モデルには適用されません。AutoMLは回帰モデルの評価レポートで以下の統計情報を提供します:
- 平均絶対誤差(MAE)
平均絶対誤差は、ターゲット値と予測値の間の絶対差の平均です。この指標は0から無限大の範囲で、低い値ほど高品質なモデルを示します。 - 平均二乗誤差(MSE)
平均二乗誤差は、ターゲット値と予測値の間の絶対差の二乗の平均です。 - 平均二乗誤差平方根(RMSE)
平均二乗誤差平方根は、平均二乗誤差の平方根です。
最終更新日 2026-02-23 18:09:41 +0530 IST
Yes
No
Send your feedback to us