書籍1 6章

6.1 パラメータの更新
6.2 重みの初期化
6.3 Batch Normalization
6.4 正則化
6.5 ハイパーパラメータの検証
6.6 まとめ

関連用語

・最適化(optimization)手法
・確率的勾配降下法(Stochastic Gradient Descent: SGD)
・SGD数式 WW-η(δL/δW) η…学習係数、δL/δW…勾配
・Lasagneフレームワーク内 updates.py
・Momentum(運動量)
・Ada(適応的:Adaptive)Gard
・学習係数の減衰(learning rate decay)
・RMSProp(指数移動平均)
・Adam(momentum+AdaGard)
・認識性能
・重みの初期化
・荷重減衰(Weight decay)
・重みの初期値を全て0にする➡︎正しい学習不可能
・勾配消失
・表現力の制限
・Xavierの初期値
・tanh関数(Xavierの初期値用)
・Heの初期値(ReLU関数専用)
・Batch Normalization(Batch Norm)
・ミニバッチごとの正規化
・固有のスケールとシフトで変換
・初期値にロバスト:依存しない
・正則化
・過学習の抑制
・Weight decay(荷重減衰)
・L2ノルム
・L1ノルム
・L♾ノルム
・Dropout …ニューロンのランダム消去
・アンサンブル学習
・ハイパーパラメータ
・検証データ(validation data)…ハイパーパラメータの調整用
・訓練:試験:検証=6:2:2
・訓練データのシャッフル
・ハイパーパラメータの最適化
・グリッドサーチ
・ベイズ最適化(Bayesian optimization)

更新日:

Copyright© 深層・機械学習/人工知能学習の記録 , 2025 All Rights Reserved Powered by STINGER.