Analiza unei spice de grâu folosind metode de viziune computerizată
Pe 14 august s-a încheiat primul atelier al Centrului matematic Akademgorodok. Am acționat ca curator de proiect pentru analiza unei spice de grâu folosind metode de viziune computerizată. În acest articol vreau să vă spun ce s-a întâmplat cu el.
Pentru genetica grâului, o sarcină importantă este determinarea ploidiei (numărul de seturi identice de cromozomi din nucleul celulei). Abordarea clasică a rezolvării acestei probleme se bazează pe utilizarea metodelor genetice moleculare, care sunt costisitoare și necesită multă muncă. Determinarea tipurilor de plante este posibilă numai în condiții de laborator. Prin urmare, în această lucrare testăm ipoteza: este posibil să se determine ploidia grâului folosind metode de vedere computerizată, numai pe baza unei imagini a unei urechi.

Descrierea datelor
Pentru a rezolva problema, chiar înainte de începerea atelierului, a fost pregătit un set de date în care ploidia era cunoscută pentru fiecare specie de plantă. În total, am avut la dispoziție 2344 fotografii cu hexaploizi și 1259 tetraproizi.
Majoritatea plantelor au fost fotografiate folosind două protocoale. Primul caz - pe o masă într-o singură proiecție, al doilea - pe o țesătură în 4 proiecții. Fotografiile au avut întotdeauna o schemă de culori de verificare a culorilor, este necesar să se normalizeze culorile și să se determine scala.
Un total de 3603 de fotografii cu 644 de numere de semințe unice. Setul de date conține 20 de specii de grâu: 10 hexaploizi, 10 tetraploizi; 496 genotipuri unice; 10 vegetație unică. Plantele au fost cultivate între 2015 și 2018 în sere ICG SB RAS. Materialul biologic a fost furnizat de academicianul Nikolai Petrovich Gontcharov .
Validare
O plantă din setul nostru de date poate potrivi până la 5 fotografii realizate folosind protocoale diferite și în proiecții diferite. Am împărțit datele în 3 seturi stratificate: tren (eșantion de antrenament), valid (eșantion de validare) și așteptați (eșantion întârziat), în rapoarte de 60%, 20% și, respectiv, 20%. La împărțire, am luat în considerare faptul că toate fotografiile unui anumit genotip apar întotdeauna într-un subșantion. Această schemă de validare a fost utilizată pentru toate modelele instruite.
Încercați metodele clasice CV și ML
Prima abordare pe care am folosit-o pentru a rezolva problema se bazează pe algoritmul existent pe care l-am dezvoltat anterior. Algoritmul face posibilă extragerea unui set fix de caracteristici cantitative diferite din fiecare imagine. De exemplu, lungimea urechii, zona crestelor etc. Pentru o descriere detaliată a algoritmului, a se vedea Genaev și colab., Morfometrie the Wheat Spike by Analyzing 2D Images, 2019. Folosind acest algoritm și metodele de învățare automată, am instruit mai multe modele pentru a prezice tipurile de ploidie.
Am folosit metode de regresie logistică, păduri aleatorii și întărirea gradientului. Datele au fost pre-normalizate. Am ales AUC ca măsură a preciziei .
| Metodă | Tren | Valabil | Rezistent |
| Regresie logistică | 0,77 | 0,70 | 0,72 |
| Padure aleatorie | 1,00 | 0,83 | 0,82 |
| Booster | 0,99 | 0,83 | 0,85 |
Cea mai bună precizie a eșantionării întârziate a fost arătată prin metoda de amplificare a gradientului; am folosit implementarea CatBoost.
Interpretează rezultatele
Pentru fiecare model, am primit o estimare a „importanței” fiecărei trăsături. Ca rezultat, am obținut o listă cu toate caracteristicile noastre, sortate după importanță și am selectat primele 10 caracteristici: zona lamei, indicele rotunjimii, rotunjimea, perimetrul, lungimea tijei, xu2, L, xb2, yu2, ybm. (o descriere a fiecărei caracteristici poate fi găsită aici).