Rețelele neuronale impuls de schimbare în greutate și pierderea în greutate

Momentul este utilizat pentru a reduce fluctuațiile de greutate în timpul iterațiilor succesive: α 'rol = "prezentare"> α

greutate

Decăderea în greutate λ 'role = "prezentare"> λ penalizează modificările în greutate:

Întrebarea este dacă are sens să combinați cele două trucuri atunci când vă propagați înapoi și ce efect ar avea asta?

Da, este foarte obișnuit să folosiți ambele sfaturi. Rezolvă diferite probleme și pot lucra bine împreună.

O modalitate de a vă gândi la acest lucru este că pierderea în greutate schimbă funcția optimizată, în timp ce cantitatea de mișcare schimbă calea pe care o urmați. .

Reducerea greutății, prin reducerea coeficienților la zero, vă asigură că veți găsi un optim local cu parametri de amplitudine redusă. Acest lucru este de obicei crucial pentru a evita supraadaptarea (deși pot funcționa și alte tipuri de tensiuni pe greutăți). Pe de altă parte, poate fi mai ușor să optimizați modelul, făcând funcția obiectivului mai convexă.