De ce produce Laplace înainte de soluții împrăștiate

Mă uitam în literatura de regularizare și văd deseori paragrafe care leagă reglementarea L2 de precedentul Gaussian și L1 de Laplace centrat pe zero.

Știu cum arată aceste priorități, dar nu înțeleg cum se traduce, de exemplu, ponderile într-un model liniar. În L1, așa cum am înțeles, ne-am aștepta la soluții rare, adică unele greutăți vor fi împinse exact la zero. Și în L2 obținem greutăți mici, dar nu greutăți zero.

Dar de ce se întâmplă acest lucru?

Vă rugăm să comentați dacă trebuie să ofer mai multe informații sau să vă clarific gândirea.

Relația distribuției Laplace a priori cu mediana (sau norma L1) a fost găsită de Laplace însuși, care a constatat că, folosind astfel a priori, se estimează mediana mai degrabă decât media ca și cu distribuția normală (vezi Stingler, 1986 sau Wikipedia). Aceasta înseamnă că regresia cu distribuția erorii Laplace estimează mediana (cum ar fi regresia cuantilă), în timp ce erorile normale se referă la estimarea OLS.

Strămoșii robusti pe care i-ați intervievat au fost, de asemenea, descriși de Tibshirani (1996), care a remarcat că o regresie Lasso robustă în setările bayesiene este echivalentă cu utilizarea Laplace anterior. Astfel de priorități pentru coeficienți sunt centrate în jurul valorii de zero (cu variabile centrate) și au cozi largi - deci majoritatea coeficienților de regresie estimați folosind acest sfârșit sunt exact zero. Acest lucru este clar dacă priviți cu atenție imaginea de mai jos, distribuția Laplace are un vârf în jurul valorii de zero (există o masă de distribuție mai mare), în timp ce distribuția normală este mai difuză în jurul valorii de zero, deci valorile diferite de zero au o valoare mai mare masa probabilității. Alte posibilități pentru a priori robuste sunt distribuțiile sau Cauchy. t 'rol = "prezentare"> t