Ce este un model și de ce avem nevoie de el DHd-Blog

Despre neînțelegeri interdisciplinare la DHd 2020

Modelele sunt formule matematice pe care le pot folosi pentru a testa relațiile din datele mele. Cu acest concept simplu de model, am crescut ca om de știință social cantitativ fără prea multe controverse. Până la DHd 2020 din acest an, cea de-a 7-a conferință anuală a Asociației Digital Humanities din țările vorbitoare de limbă germană.

Conferința începe cu sesiuni practice de două zile în care particip la atelierul „Bias în seturi de date și modele de învățare automată”. Testăm ipoteze nule cu modele statistice și ipoteze alternative cu ajutorul simulărilor în modele de calcul. Modelele sunt formalizate matematic și, prin urmare, se potrivesc perfect cu propriul meu concept de model. Rămân în zona mea de confort.

În pauză, intru în conversație cu participanții la alte ateliere. Dintr-o dată, propoziții de genul: „Ne modelăm datele cu TEI.”, Sau „Modelul nostru este o bază de date neo4j”.
„Standardele de adnotare și bazele de date nu sunt modele”, cred pentru mine, „Unde sunt calculele?”. Și mai presus de toate: „Unde sunt întrebările de cercetare pe baza cărora efectuăm anumite calcule și le lăsăm pe altele?”. Sunt putin confuz.

Marți seară stau în Heinz Nixdorf MuseumsForum și ascult prelegerea principală a Julia Flanders despre crearea de modele în științele umaniste digitale (DH). Și dintr-o dată penny scade. Se poate să vorbim unul pe lângă celălalt? Că definim „modelul” diferit? Pentru mine un model este un model matematic. Cu toate acestea, pentru Julia Flanders și mulți alți membri DHd, pare a fi un model de date. Asta înseamnă standarde pentru preprocesarea datelor (de ex. Adnotare) și reprezentare (baza de date).

Deși neînțelegerea mea a fost rezolvată, multe dintre prelegerile din zilele următoare mă fac să mă gândesc. Am impresia că o mulțime de timp și resurse sunt dedicate creării de modele, dar că răspunsul la întrebări de cercetare despre conținut ocupă un loc secund. Tocmai acele contexte contextuale ne interesează noi, oamenii de știință. Cum se raportează figurile literare unele cu altele? Ce legătură are un eveniment istoric cu celălalt? De ce se schimbă spectacolele de teatru în timp? De ce compozitorul folosește un motiv și nu celălalt în această piesă?
Datele și modelele noastre matematice sunt doar instrumente pentru a răspunde la întrebări legate de conținut. Prin urmare, întrebările noastre de cercetare ar trebui să fie luate în considerare mai mult atunci când elaborăm modele.

Aș dori să evidențiez trei puncte care mi-au atras atenția cu privire la manipularea modelului la DHd 2020.
(1) De ce este atât de rar diferențiat termenul de model? Sunt eu singurul confuz de diferitele definiții ale modelului sau alții simt la fel?
(2) De ce construim modele de date uriașe care durează mult până la finalizare? Prin urmare, trebuie să așteptăm mult timp înainte de a putea răspunde în cele din urmă la întrebările noastre de cercetare.
(3) De ce construim modele imense de date cu pretenția de a fi universal utilizabile? Nu știm dacă efortul mare este cu adevărat necesar pentru a răspunde la întrebările noastre de cercetare.

Deci, ce ar trebui făcut? Iată mica mea listă de dorințe subiective, provizorii.
(1) Ar trebui să fim specifici atunci când folosim termenul de model și să spunem exact ce tip de model se înțelege. Acest lucru face comunicarea mai ușoară într-un domeniu interdisciplinar, cum ar fi DH-urile.
(2) Ar trebui să construim modele mici de date specifice aplicației înainte de a începe cu modele de date imense, universale. Întrebările inițiale de cercetare pot fi abordate cu promptitudine cu o versiune redusă a modelului de date.
(3) Ar trebui să dezvoltăm date și modele matematice în mod incremental și iterativ, în loc să le construim dintr-o singură dată (principiul cascadei). După fiecare iterație, modelul poate fi utilizat pentru a răspunde la o anumită întrebare de cercetare. În funcție de cât de bine funcționează, modelul este adaptat constant. În acest fel, împiedicăm un model imens, elaborat elaborat, să nu fie inutil pentru a răspunde la o întrebare de cercetare.

Concluzie:
În primul rând, DH sunt un domeniu interdisciplinar în care circulă diferiți termeni de model. Prin urmare, ar trebui să facem diferența între date și modele matematice.
În al doilea rând, suntem oameni de știință pentru că ne interesează problemele contextuale. Dacă ne-am concentra pe crearea de modele de date, am fi devenit dezvoltatori de software sau manageri de baze de date. Modelarea nu este un scop în sine; ar trebui să fie un mijloc de a răspunde la întrebări de cercetare.

Bursierii de călătorie ai DHd 2020 - prezentare generală și contribuții | Blog DHd 12 martie 2020

[…] Ramona Roller (ETH Zurich) - @ramona_rollerCe este un model și de ce avem nevoie de el? În: blogul DHd, 12 martie 2020, https://dhd-blog.org/?p=13186. [...]

Frederike Neuber 12 martie 2020

Îți mulțumesc pentru acest frumos articol pe tema „modele”, pe care îl salt imediat.

În opinia mea, modelele de date nu se limitează la un mijloc de preprocesare a datelor. Crearea unui model poate ajuta grupurile de lucru (interdisciplinare) să creeze o înțelegere comună a domeniilor complexe. Înțeleg modelarea în sine ca un proces euristic în care cunoștințele existente despre un obiect (de exemplu, un text sau o imagine) sunt extinse, puse la îndoială și ascuțite. În acest sens, văd * modelarea ca parte a cercetării *, în care cunoștințele despre un obiect sunt îmbogățite și se dezvoltă teorii. În plus, modelele stau la baza datelor care pot fi în cele din urmă evaluate, cu rezultatele unei evaluări (printre altele) care rezultă din perspectiva modelării anterioare.

Concret asupra punctelor/dorințelor dvs. în ceea ce privește modelarea, viziunea mea asupra lucrurilor:

(1) Da, ar trebui să fim specifici la ce fel de model ne referim. O înțelegere comună poate de ex. apar printr-un model conceptual al „termenului model”. Da, este foarte meta acum ... dar de ce nu?!

(2) Modelele de date nu ar trebui să servească un scop în sine, ci ar trebui să urmărească un obiectiv specific și să-l identifice în mod specific. În lumea resurselor digitale, modelele de date trebuie, de asemenea, să fie conectabile și reutilizabile, motiv pentru care utilizarea standardelor și cerința generalizării au sens. Dacă toată lumea se gândește la sine doar atunci când modelează, munca noastră este pe termen lung - ca să spunem pe larg - pentru pisică. Exemplu: Datorită dezvoltării imensului model TEI, textele codificate din diferite proiecte pot fi acum agregate sau schimbate cu relativ puțin efort. Multe corpusuri de text, care astăzi efectuează evaluările la care tânjești, sunt compuse din corpusuri mai mici (același lucru se aplică în opinia mea bazelor de date de imagini etc.) Imaginează-ți că fiecare și-ar folosi propriul format/vocabular aici - cum vrei să faci asta v-ați apropiat vreodată de big data și puneți întrebări cu adevărat interesante? În opinia mea, TEI este De altfel, de asemenea, un bun exemplu al modului în care cunoștințele despre texte au fost făcute mai precise și explicite (întotdeauna spun că valoarea reală a TEI sunt gândurile despre text și definiții, nu vocabularul de codificare).

(3) Iterarea are sens și, de asemenea, cred că modele mari de date ar trebui create de jos în sus, nu de sus în jos.

Personal, am găsit că aspectul „modelării” este subreprezentat la conferința DHd din acest an. Acest lucru se poate datora faptului că avem acum o masă critică de date și instrumente pentru cercetare, iar crearea datelor se află pe spate. Cu toate acestea, văd aspectul modelării ca pe o parte importantă a DH și ca pe un proces critic care necesită știință (pe care îl pot avea și inginerii software de cercetare sau managerii de baze de date). În special în proiectele în care științele umaniste și informaticii lucrează împreună, o persoană DH cu cunoștințe de modelare este adesea necesară pentru a transmite domeniul și întrebarea de cercetare în cel mai bun mod posibil și pentru a le formaliza în formatul corect sau vocabularul corect. Aproape toate companiile din domeniul științelor umaniste digitale, inclusiv evaluarea unor cantități mari de text pentru a răspunde la întrebări de cercetare, stau sau cad în calitatea bazei de date, care la rândul său rezultă din modelarea sa. Prin urmare, de multe ori am ratat o privire critică asupra bazei de date în multe prelegeri de evaluare a textului.

Tessa Gengnagel 12 martie 2020

Vă mulțumim pentru acest raport de experiență! Din cauza constrângerilor de timp, am doar câteva comentarii scurte cu privire la acest lucru (de fapt, ar trebui să detaliați câteva propoziții aici și să clarificați câteva neînțelegeri):

1. După cum sugerează și numele, Digital Humanities se concentrează pe studii umaniste și culturale. Există deja un decalaj mare în ceea ce privește științele sociale. Spun că fără nici o judecată, este chiar așa. Prin urmare, neînțelegerea nu este îngropată doar în științele umaniste digitale, ci și în diferitele culturi de specialitate, adică în unele dezbateri teoretice științifice, metodologice și epistemologice foarte fundamentale. Nu puteți nici să le mutați la științele umaniste digitale, nici să le rezolvați în ele.

2. Discuția pe tema „modelului” și „modelării” este un vechi cal de hobby în DH, chiar dacă nu a existat o contribuție substanțială la acesta la nivel teoretic de la Willard McCarty 2005. Termenul nu este adesea folosit într-un mod nuanțat, este adevărat și aceasta este o problemă. Dar Nelson Goodman a remarcat deja în lucrarea sa „Limbile artei” (1968/1976): „Puțini termeni sunt folosiți în discursul popular și științific mai promiscuos decât„ model ”. Un model este ceva de admirat sau imitat, un model, un exemplu, un tip, un prototip, un specimen, o machetă, o descriere matematică - aproape orice, de la o blondă goală la o ecuație pătratică - și poate suporta la ceea ce modelează aproape orice relație de simbolizare. ”- Deci nici acesta nu este un fenomen sau o problemă specifică DH. Această lipsă de definiție este mai pandemică la mulți subiecți și este doar parțial mai vizibilă în DH, deoarece sau dacă există o bază tehnică comună între interlocutori, adică Gândirea la subiectele de bază lipsește și, de asemenea, nu există o ancorare comună în limbajul și metodologia DH.

3. A spune că, pe de o parte, există modele matematice și, pe de altă parte, există modele de date, este mult prea scurt și nu descrie nici o înțelegere științifică și general valabilă, pe de o parte, nici o înțelegere DH care trebuie să se distingă de ea, pe de altă parte. Din păcate, acum nu pot intra în detaliu, dar cred că este valoros ca această postare de pe blog să evidențieze din nou o problemă în comunicarea științifică, iar DH sunt vinovați în mod clar pentru acest lucru.