Caiet de cercetare decembrie 2018 la Biblioteca Națională a Franței

Ca parte a proiectului CORPUS, inclus în planul de cercetare pe patru ani 2016-2019 al Bibliotecii Naționale a Franței, atelierul intitulat „Penser, claser, modeliser. Exemplul proiectului Foucault Fiches de Lecture "a avut loc în după-amiaza zilei de 13 noiembrie pe site-ul François-Mitterrand. Organizat într-o logică de partajare a expertizei, obiectivul său a fost să conducă, folosind exemplul concret al proiectului Foucault Fiches de Lecture, o reflecție asupra problemelor legate de modelare și îmbogățirea datelor și, mai general, despre ceea ce instrumentele digitale pot aduce lucrărilor de cercetare pe un corpus de arhive.
Proiectul Foucault Fiches de Lecture (FFL) este un proiect ANR de trei ani care își propune să digitalizeze, să pună online, să indexeze, să descrie și să îmbogățească notele de lectură scrise de mână ale lui Michel Foucault, utilizând o platformă. Formă digitală de muncă colaborativă.
Fructul parteneriatului dintre PSL și ENS Lyon, proiectul FFL, prin reunirea echipelor din diferite laboratoare de cercetare (ArchiNum, Triangle, CAPHÉS și ITEM), se bazează pe o strânsă colaborare între cercetătorii din științele umane și sociale și inginerii de cercetare.
În urma lansării digitalizării de către BnF a cărților de lectură (colecția NAF 28740 achiziționată de departamentul de manuscrise al BnF în 2013), astăzi, la sfârșitul primului an al proiectului, o platformă prototip dezvoltată de echipa de ingineri oferă cercetătorilor mai multe funcționalități și deschide noi perspective de cercetare. În primul rând, vă permite să consultați foile digitalizate: în prezent, aproximativ 5.700 din cele 14.000 care vor fi digitalizate ca parte a proiectului și din cele 20.000 de foi din colecția păstrată la BnF. De asemenea, oferă cercetătorilor posibilitatea de a descrie și adnota aceste fișiere: fiecare utilizator poate produce atât metadate partajate, cât și înregistra adnotări private.
Prototipul platformei Foucault Reading Card (FFL)
Bazată pe tehnologii web semantice, platforma permite, de asemenea, îmbogățirea acestor informații printr-un sistem de mashup și aliniere cu date bibliografice și biografice de la data.bnf.fr. În plus, ea oferă o transcriere a fiecărei înregistrări. Această transcriere automată este obținută folosind software-ul Transkribus care, bazat pe tehnologia inteligenței artificiale, după o fază de învățare prin rețele neuronale, permite recunoașterea scrisului de mână, precum și o căutare prin cuvinte cheie. În ciuda necesității unei lucrări atente linie cu linie, echipa a văzut o rată medie de succes a recunoașterii scrisului de mână de 92% când a fost practicat. În cele din urmă, inginerii de cercetare lucrează la o funcționalitate de mapare pentru a permite cercetătorilor să vizualizeze grafic conexiunile dintre fișiere și, din aceste conexiuni, să vizualizeze rețelele de noțiuni și autori. Proiectul își propune astfel să constituie o bază de cunoaștere a surselor Foucault, precum și un depozit terminologic al vocabularului folosit de filosof.
Transcriere eșantion
Trecerea de la hârtie la arhive digitale implică un nou mod de a le înțelege pentru cercetători. Posibilitatea de a stabili legături de hipertext între fișiere și resurse externe, precum și de a obține vizualizări de date constituie atuuri majore ale proiectului, care își propune astfel să ofere cercetătorilor un model de lucru deschis, dar și o reflecție teoretică asupra metodelor de lucru ale lui Foucault și a arhivelor sale, bibliotecă".
Reutilizați datele existente
Acest corpus de cărți de lectură are un statut hibrid: mai mult decât un text, constituie o bază de date bibliografică. În materialitatea lor, cărțile, acumulate de-a lungul mai mult de treizeci de ani, sunt aranjate în cutii și foldere în conformitate cu o ordine tematică. În mod sistematic, pe aceste fișiere, Foucault notează referințe și concepte de atribute. În dimensiunea virtuală a platformei, aceste referințe la oameni, documente și concepte sunt aliniate, pe cât posibil, cu data.bnf.fr sau indică catalogul general al BnF sau la alte cataloage de bibliotecă atunci când referința nu este prezentă pe data.bnf.fr. La aceste metadate structurate, se adaugă adnotările produse de cercetători (de exemplu comentarii personale sau adăugarea de referințe) și transcrierile complete ale fișierelor.
Cum se face atunci cea mai bună utilizare a acestor diferite tipuri de date (metadate structurate, adnotări și transcripții)? Această îmbogățire a datelor prin data.bnf.fr ar putea fi completată de aceeași lucrare din transcrierile fișierelor, din textul integral? ?
Indexurile Cours au Collège de France (teme și oameni) au fost îmbinate într-unul (indexul a 10 cursuri reprezintă 200 de pagini), dar descriu doar o parte a lucrării (1970-1984) și sunt dezvăluite prea specializate în jurul subiectele cursurilor; echipa s-a întrebat apoi despre posibilitatea de a crea un tezaur din concepte sau de a utiliza un tezaur existent pentru a descrie conceptele utilizate de Foucault pentru a controla crearea de noi entități și pentru a îmbunătăți calitatea datelor textuale.