AI supraevaluat, algoritmii sunt de fapt cei mai buni profesioniști din domeniul medical

În trecut, a apărut în mod repetat impresia că inteligența artificială poate detecta bolile la fel de bine ca un medic cu experiență - dacă nu chiar mai bine. Titluri precum „Google spune că inteligența sa artificială ar putea detecta cancerul pulmonar cu un an înainte ca medicul” trezește, fără îndoială, așteptări mari. Aceasta implică, de obicei, evaluarea fișierelor de imagini digitale folosind algoritmi de învățare profundă sau un profesionist medical experimentat, de exemplu atunci când diagnosticați cancer pulmonar sau de piele sau când diagnosticați diferite stadii de orbire. Myura Nagendran de la Imperial College din Londra și colegii săi se întreabă în „British Medical Journal” dacă calitatea studiilor publicate până acum este suficientă pentru a arăta că algoritmii testați sunt la egalitate cu medicii.

Autorii articolului, care include figuri proeminente precum Eric Topol de la Scripps Research Translational Institute și John Ioannidis de la Universitatea Stanford, critică faptul că majoritatea studiilor pe care le-au evaluat sunt de calitate științifică slabă și opace. Acestea nu pun la îndoială potențialul inteligenței artificiale și nu doresc să încetinească dezvoltarea acesteia, ci cer ca studiile care ar trebui să demonstreze acuratețea diagnosticului algoritmilor să fie efectuate în conformitate cu standarde științifice înalte și reguli uniforme. Studiile cu puține dovezi pun în pericol siguranța pacientului, spun autorii.

Arhitectura rețelelor de învățare profundă se bazează pe rețelele neuronale ale creierului uman. Rețelele neuronale convoluționale, așa-numitele rețele neuronale convoluționale, sunt utilizate pentru recunoașterea imaginii. Acestea extrag automat modele dintr-un set de date de imagine, de exemplu pe baza unui diagnostic de cancer pulmonar sau primar. În acest proces, ei învață modele pe care, probabil, le asociază cu cancerul pulmonar sau de piele, fără ca utilizatorul să facă nimic. Rețelele clasifică apoi în mod independent fiecare nouă imagine prin legarea modelelor învățate cu atribuirea instruită a cancerului pulmonar sau de piele. Cu toate acestea, până în prezent nu a fost în mare parte posibil să se înțeleagă modul în care a fost luată decizia respectivă, deoarece rețelele își realizează clasificarea fără influență externă. Prin urmare, nimeni nu știe ce tipare au fost utilizate pentru a lua decizia rețelei și dacă un medic cu experiență va proceda într-o manieră complet diferită sau va folosi modele similare cu algoritmul de învățare profundă. O rețea de convoluție neuronală este deci o cutie neagră. Puteți judeca doar decizia, nu cum a apărut.

Rezultatele studiului învechite

Nagendran și colegii săi au examinat acum cât de înaltă este calitatea studiilor publicate în ultimii zece ani și cât de bazate pe dovezi sunt concluziile lor. Analiza a fost îngrijorătoare. Cercetătorii au descoperit că doar două studii clinice randomizate de înaltă calitate au fost publicate între 2010 și 2019, ambele în ultimul an. Ambele au fost fabricate în China. Opt studii randomizate sunt în curs de desfășurare, inclusiv unul în Statele Unite. Cu toate acestea, 16 algoritmi de învățare profundă pentru evaluarea datelor despre imagini medicale au fost deja aprobați de Administrația Americană pentru Alimente și Medicamente.

Studiile clinice randomizate sunt cel mai bun mod de a compara două abordări. În cele două studii randomizate publicate până în prezent, medicii experimentați dintr-un grup de studiu își luaseră propriile decizii, în celălalt grup de studiu fuseseră susținuți de algoritm. Dintre cele 81 de studii non-randomizate care au îndeplinit criteriile de includere, doar nouă studii au avut un design prospectiv. În astfel de studii, nu sunt formate și comparate grupuri, ci mai degrabă datele despre o anumită problemă sunt colectate și evaluate în timp. Cu toate acestea, doar șase dintre aceste studii prospective au avut loc în condiții clinice zilnice și au avut astfel potențialul de a spune ceva despre calitatea diagnosticului algoritmilor testați în condiții de rutină. 58 din cele 81 de studii au fost extrem de părtinitoare. Aveau un design de studiu inferior sau se abăteau de la standardele recunoscute.

Revendicări exagerate

Cu toate acestea, un total de 61 de studii au ajuns la concluzia că performanța algoritmilor a fost comparabilă sau chiar mai bună decât performanța medicilor experimentați. Doar în 31 de studii, directorii studiului au fost atât de autocritici încât au cerut studii suplimentare pentru a-și confirma rezultatele atunci când își rezumă sau discută rezultatele. Nagendran și colegii săi se plâng, de asemenea, că în medie doar patru medici experimentați au luat parte la fiecare studiu. Având în vedere faptul că chiar și medicii cu experiență sunt de diferite niveluri, grupul trebuie să fie mai mare pentru a confirma statistic rezultatul. În foarte puține studii, accesul la datele brute și la cod a fost posibil. Aceasta înseamnă că algoritmul nu poate fi verificat de alți specialiști.

Cu toate acestea, autorii sunt, de asemenea, autocritici cu privire la propriul studiu și subliniază punctele slabe ale acestuia. De exemplu, nu puteți exclude faptul că ați trecut cu vederea studiile relevante. Te-ai concentrat pe recunoașterea imaginii prin învățare profundă. Acuzația dvs. că multe studii nu sunt de calitatea necesară ar putea fi diferită în alte domenii în care inteligența artificială este utilizată în medicină. Din analiza lor, Nagendran și colegii săi ajung la concluzia că multe dintre afirmațiile anterioare sunt exagerate. Ei chiar îl văd ca pe un potențial risc pentru sănătate pentru pacienți și avertizează împotriva utilizării formulărilor exagerate pentru a face studiile predispuse la interpretări greșite și pentru a induce hype inadecvat. Domeniul are nevoie de o bază de dovezi transparentă și de înaltă calitate - orice altceva nu servește pacientului.