Ce este un; saturat; model

La ce ne referim când spunem că avem un model saturat?

Într-un model saturat, există atât de mulți parametri estimați cât sunt puncte de date. Prin definiție, acest lucru are ca rezultat o potrivire perfectă, dar statistic este de puțin folos, deoarece nu mai aveți date pentru a estima varianța.

De exemplu, dacă aveți 6 puncte de date și încadrați un polinom de ordinul 5 în date, obțineți un model saturat (un parametru pentru fiecare dintre cele 5 puteri ale variabilelor dvs. independente plus una pentru termenul constant).

Un model saturat este unul care este supraparameterizat până la punctul în care practic interpolează doar datele. Cu unele setări, cum ar fi compresia și reconstrucția imaginii, nu este neapărat un lucru rău, dar atunci când încercați să construiți un model predictiv este foarte problematic.

Pe scurt, modelele saturate au ca rezultat predictori de varianță extrem de mari, care sunt influențați mai mult de zgomot decât datele reale.

Ca experiment de gândire, imaginați-vă că aveți un model saturat și datele conțin zgomot. Apoi, imaginați-vă că vă potriviți modelul de câteva sute de ori, de fiecare dată cu o realizare diferită a zgomotului și apoi preziceți un punct nou. Sunt șanse să obțineți rezultate radical diferite de fiecare dată, atât pentru potrivirea dvs., cât și pentru predicția dvs. (și, în acest sens, modelele polinomiale sunt deosebit de flagrante). Cu alte cuvinte, varianța potrivirii și predictorului sunt extrem de mari.

În schimb, un model care nu este saturat (dacă este construit în mod rezonabil) oferă ajustări care sunt mai consistente chiar și cu realizări de zgomot diferite, iar varianța predictorului este, de asemenea, redusă.

Un model este saturat dacă și numai dacă are atât de mulți parametri cât puncte de date (observații). Cu alte cuvinte, la modelele nesaturate, gradele de libertate sunt mai mari decât zero.

Aceasta înseamnă, în principiu, că acest model este inutil, deoarece nu descrie datele mai ușor decât datele brute (iar descrierea datelor mai ușor este, în general, ideea din spatele utilizării unui model). Mai mult, modelele saturate pot (dar nu trebuie) să ofere o potrivire perfectă (inutilă), întrucât ele interpolează sau iterează doar datele.

De exemplu, luați media ca model pentru unele date. Dacă aveți doar un punct de date (de exemplu, 5), atunci utilizarea mediei (de exemplu, 5; rețineți că media este un model saturat pentru un singur punct de date) nu vă va ajuta deloc. Cu toate acestea, dacă aveți deja două puncte de date (de exemplu, 5 și 7) și utilizați media (de exemplu, 6) ca model, veți obține o descriere mai exactă decât datele originale.

Așa cum au spus toți ceilalți, acest lucru înseamnă că aveți la fel de mulți parametri pe cât aveți puncte de date. Deci, fără teste de potrivire. Cu toate acestea, acest lucru nu înseamnă că modelul poate „prin definiție” să se potrivească perfect tuturor punctelor de date. Vă pot spune prin experiență personală cum ați lucrat cu unele modele saturate care nu puteau prezice anumite puncte de date. Este destul de rar, dar posibil.

O altă problemă importantă este că saturatul nu înseamnă inutil. De exemplu, în modelele matematice ale cogniției umane, parametrii modelului sunt atribuiți unor procese cognitive specifice care au un fundal teoretic. Când un model este saturat, îi puteți testa adecvarea prin efectuarea de experimente vizate cu manipulări care ar trebui să afecteze numai anumiți parametri. Dacă predicțiile teoretice sunt de acord cu diferențele observate (sau lipsa) în estimările parametrilor, atunci se poate spune că modelul este valid.

De exemplu, imaginați-vă un model care conține două seturi de parametri, unul pentru procesarea cognitivă și unul pentru răspunsurile motorii. Imaginați-vă că aveți un experiment cu două condiții în care capacitatea de răspuns a participanților este afectată (aceștia pot folosi doar o mână în loc de două), iar cealaltă afecțiune nu are nicio afectare. Dacă modelul este valid, ar trebui să existe diferențe în estimările parametrilor pentru ambele condiții numai pentru parametrii de răspuns ai motorului.

De asemenea, rețineți că, chiar dacă un model nu este saturat, este posibil să nu fie încă identificabil. Aceasta înseamnă că diferite combinații de valori ale parametrilor produc același rezultat, care afectează potrivirea modelului.

Pentru mai multe informații despre aceste subiecte în general, vă recomandăm să consultați următoarele articole:

Bamber, D. & van Santen, JPH (1985). Câți parametri poate avea și poate fi testat încă un model? Jurnalul de psihologie matematică, 29, 443-473.

Bamber, D. & van Santen, JPH (2000). Cum evaluați testabilitatea și identificabilitatea unui model? Jurnalul de psihologie matematică, 44, 20-40.