正規化
正規化は、機械学習のデータ準備の一環として頻繁に適用される技術です。正規化の目的は、データセット内の数値カラムの値を共通のスケールに変更することであり、値の範囲の差異を歪めたり情報を失ったりすることはありません。
Min-Max正規化
Min-Max正規化は、データを正規化する最も一般的な方法の1つです。各特徴量について、その特徴量の最小値は0に変換され、最大値は1に変換され、他のすべての値は0から1の間の小数に変換されます。
計算式:
x_normalized = (x−min(x))/ (max(x)-min(x))
ここで:
- x_normalizedは特徴量の正規化された値です。
- xは特徴量の元の値です。
- min(x)はデータセット全体の特徴量の最小値です。
- max(x)はデータセット全体の特徴量の最大値です。
例:
| 入力例 | 10 | 25 | 30 | 出力例 | 0 | 0.75 | 1 |
|---|
単位正規化
単位正規化は、カラム(特徴量)の各エントリをその大きさで割ることにより、単位ベクトルと呼ばれる長さ1の特徴量を作成します。
計算式:
x_normalized = x / ||x||
ここで:
- x_normalizedは特徴量の正規化された値です。
- xは特徴量の元の値です。
- ||x||は以下のように計算される大きさです。
- ||x|| = sqrt(x1^2 + x2^2 + ……. xn^2)
- x1, x2, x3……xnは特徴量の元の値です。
例:
| 入力例 | 10 | 25 | 30 | 出力例 | 0.248 | 0.620 | 0.744 |
|---|
平均正規化
この変換器は、値の合計が0になるように平均に基づいてデータを変換します。
計算式:
x_normalized = x - mean(x) / max(x) - min(x)
ここで:
- x_normalizedは特徴量の正規化された値です。
- xは特徴量の元の値です。
- mean(x)はデータセット全体の特徴量の平均値です。
- min(x)はデータセット全体の特徴量の最小値です。
- max(x)はデータセット全体の特徴量の最大値です。
例:
| 入力例 | 10 | 25 | 30 | 出力例 | -0.583 | 0.166 | 0.416 |
|---|
平均-標準偏差正規化
各特徴量の平均(µ)を引き、標準偏差(σ)で割ることでデータを正規化できます。これにより、各特徴量は平均0、標準偏差1になります。これにより収束が速くなります。
計算式:
x_normalized = x - mean(x) / std(x)
ここで:
- x_normalizedは特徴量の正規化された値です。
- xは特徴量の元の値です。
- mean(x)はデータセット全体の特徴量の平均値です。
- std(x)はデータセット全体の特徴量の標準偏差です。
例:
| 入力例 | 10 | 25 | 30 | 出力例 | -1.120 | 0.320 | 0.800 |
|---|
ロバスト正規化
ロバストスケーラーは、中央値と**四分位範囲(IQR)**を使用して特徴量をスケーリングする正規化技術であり、標準的なスケーリング方法と比較して外れ値の影響を受けにくくなっています。正規化されたデータを中央値を中心にし、IQRに基づいてスケーリングすることで、極端な値がスケーリングを歪めることなくデータの構造を維持します。
計算式:
xrobust = IQR(x)x − median(x)
ここで:
- x = 元の特徴量の値
- median(x) = 特徴量値の中央値
- IQR(x) = 四分位範囲(75パーセンタイル - 25パーセンタイル)
- xrobust = ロバストスケーリング後の正規化された値
例
特徴量の値が [10, 25, 30, 1000(外れ値)] であるとします。
- 中央値 = 27.5
- IQR = 20(25パーセンタイル = 15 と 75パーセンタイル = 35 の間)
正規化された値は以下のようになります:
| 入力値 | 10 | 25 | 30 | 1000 | 出力(ロバスト) | -0.875 | -0.125 | 0.125 | 48.625 |
|---|
外れ値(1000)は大きなスケーリング値を持ちますが、残りは歪みなく妥当な範囲に保たれていることに注目してください。
ロバスト正規化のリアルタイムの利点
センサーの読み取り値、金融取引、健康指標などの実世界のデータでは、外れ値は一般的です。ロバスト正規化を使用することで、これらの極端な値がモデルトレーニングを支配することを防ぎ、以下の結果をもたらします:
- より安定して信頼性の高いモデル
- 未知のデータへのより良い汎化
- ノイズの多いデータや極端な値を含むデータセットでの性能向上
最終更新日 2026-03-05 11:43:24 +0530 IST
Yes
No
Send your feedback to us