6.1 パラメータの更新 6.2 重みの初期化 6.3 Batch Normalization 6.4 正則化 6.5 ハイパーパラメータの検証 6.6 まとめ |
関連用語
・最適化(optimization)手法
・確率的勾配降下法(Stochastic Gradient Descent: SGD)
・SGD数式 W←W-η(δL/δW) η…学習係数、δL/δW…勾配
・Lasagneフレームワーク内 updates.py
・Momentum(運動量)
・Ada(適応的:Adaptive)Gard
・学習係数の減衰(learning rate decay)
・RMSProp(指数移動平均)
・Adam(momentum+AdaGard)
・認識性能
・重みの初期化
・荷重減衰(Weight decay)
・重みの初期値を全て0にする➡︎正しい学習不可能
・勾配消失
・表現力の制限
・Xavierの初期値
・tanh関数(Xavierの初期値用)
・Heの初期値(ReLU関数専用)
・Batch Normalization(Batch Norm)
・ミニバッチごとの正規化
・固有のスケールとシフトで変換
・初期値にロバスト:依存しない
・正則化
・過学習の抑制
・Weight decay(荷重減衰)
・L2ノルム
・L1ノルム
・L♾ノルム
・Dropout …ニューロンのランダム消去
・アンサンブル学習
・ハイパーパラメータ
・検証データ(validation data)…ハイパーパラメータの調整用
・訓練:試験:検証=6:2:2
・訓練データのシャッフル
・ハイパーパラメータの最適化
・グリッドサーチ
・ベイズ最適化(Bayesian optimization)