Resurse digitale j

j. Pagina de pornire a berenike herrmann

resurse digitale

Herrmann, J.B. & Lauer, G. KOLIMO. Corpusul modernismului literar (beta) („Modernism literar corpus”). (mai multe informații mai jos *)

Messerli, Th., Rothenhäusler, K., Rebora, S. și J.B. Herrmann. LoBo. Corpul LovelyBooks. O colecție de recenzii digitale laice (+1 milion de recenzii).

Herrmann, J.B., Gabay, S. și S. Rebora. Corpus roman elvețian multilingv 1850-1920, parte a ELTeC (Acțiunea COST „Lectură la distanță pentru istoria literară europeană”, CA16204).

Herrmann, J.B. (2016). EAK. Corpul narativ de deschidere. Corpus al secțiunilor de început ale ficțiunii literare. Codificat manual pentru metaforă.

Steen, G.J., Dorst, A.G., Herrmann, J.B., Kaal, A.A. și T. Krennmayr (2010). Corpul VU Amsterdam Metafora. Oxford Text Archives.

bloguri și wiki-uri

Herrmann, J.B., Bageritz, I., Hannemann, L., Heimann, P., Kleinschmidt, L., Mattner, C., Roth-Kleyer, G., Weller, R. (2016). KEXI. Corpus de scriere expresivă și interpersonală. (Corpus de scriere expresivă și interpersonală).

Herrmann, J.B. (Ed.) (2012). Calculul literaturii („Literatura de calcul”). Un wiki pentru analiza textului digital. („O analiză digitală a textului wiki”).

* kolimo

Corpul eXistdb „KOLIMO” este în prezent revizuit pentru relansare. A fost construit la Universitatea din Göttingen 2015-2017. Ceea ce urmează mai jos este „secțiunea despre„ arhivată de pe fostul site web la https://kolimo.uni-goettingen.de/about.html .

Acronimul KOLIMO

… Reprezintă „Corpusul modernismului literar”. Mai exact, KOLIMO este un corpus digital comparativ al modernismului literar narativ german. Am creat corpusul pentru propria noastră analiză de stil, dar, din moment ce suntem convinși că o astfel de resursă ar trebui să fie împărtășită cu comunitatea de cercetare, compilarea corpusului a fost realizată având în vedere publicarea. un „instrument de corpus”. Interfața web permite cercetătorilor să execute interogări, dar să nu efectueze analize adecvate. Pregătim o opțiune de descărcare pe un site web.

De ce „beta”?

„Beta” înseamnă că nu suntem încă pe deplin acolo, dar să ne simțim suficient de încrezători pentru a vă împărtăși ceea ce avem.

Ce înseamnă „corpusul narativ comparativ digital al modernismului literar german”?

Am proiectat KOLIMO ca atare dintr-un motiv:

Deci, KOLIMO este un corpus narativ comparativ. Din acest motiv avem nevoie de mai mult decât literatură, mai mult decât de modernism, ci doar de texte narative.

KOLIMO este pentru analiza stilului

KOLIMO este coloana vertebrală a proiectului corpus-stilistic în curs de desfășurare Q-LIMO (Analiza cantitativă și calitativă a modernismului literar). Ca atare, se dorește a fi un corp reprezentativ în cele din urmă al literaturii narative germane moderne. Se intenționează, de asemenea, să fie îmbogățit succesiv cu mai multe metadate, precum și adnotări lingvistice și literar-estetice pe mai multe straturi.

Scopul nostru în realizarea KOLIMO este de a permite analize de stil cantitativ și calitativ-hermeneutic pentru texte narative germane din perioada incitantă de la începutul secolului XX - în variabile precum genul narativ, autorul și timpul. De exemplu, ne interesează specificul stilului lui Franz Kafka - ce fel de cuvinte, fraze și figuri estetice indică scrierea sa? Putem urmări eventuale influențe din domeniile discursului non-literar (cum ar fi discursul juridic), de la alți scriitori literari (cum ar fi contemporanul Robert Walser și, cu un secol mai devreme, Heinrich von Kleist), sau chiar genurile literare non-canonice (precum ca literatură de aventură)? Rețineți că KOLIMO conține KAREK, „corpusul de referință Kafka”. În proiectul nostru de cercetare, unde modernismul este inima KOLIMO, Kafka a fost inima modernismului. Aceasta nu este o judecată de valoare, ci una de interes pentru cercetare: Pentru a spune ceva despre stilul lui Kafka, avem nevoie de autori mai contemporani și, de asemenea, de „cei mai în vârstă”, pentru comparație. KOLIMO este format din surse digitale existente, dar depășește.

KOLIMO este o resursă compusă

Am extras cea mai mare parte a textelor noastre din resurse digitale disponibile gratuit. Ați putea spune: dacă sunt acolo, de ce să vă deranjați? Ei bine: Deși există mai multe depozite existente (de exemplu, TextGrid Repository, German Text Archive [DTA], Gutenberg-DE și Gutenberg.org), le-am unit pentru că așa sunt mai mult decât suma părților lor.

Înainte de KOLIMO, în ciuda mai multor inițiative, lipsea un corpus digital al narațiunii germane Modernism literar. Cu siguranță, unul care aspiră să fie reprezentativ, care este conceput pentru analize comparative (a se vedea mai sus) și care poartă metadate consistente și îmbunătățite manual. În plus, KOLIMO vine cu un prim set de adnotări lingvistice. KOLIMO este, prin urmare, o resursă unică. Suntem bucuroși să îl punem la dispoziția publicului. Metadatele provin inițial din aceleași surse ca și textele - dar am muncit din greu la îmbunătățirea acestora, de exemplu adăugarea și validarea GND-urilor la „autorul” metadatului; completarea spațiilor goale pentru „anul publicării” - și au existat multe - printr-o procedură dură, dar practică. KOLIMO este stocat într-o bază de date XML, eXist-db (aplicația eXist-db pentru surse KOLIMO: interogare și editare metadate). Fiecare document prezintă un antet TEI standardizat care cuprinde tot felul de informații utile pentru fiecare text individual, inclusiv metadatele, precum și markeri de stil selectați.

Ce fel de markere de stil pot găsi în KOLIMO?

KOLIMO permite realizarea de profiluri cantitative ale utilizării limbajului. Aceasta înseamnă în esență „numărarea lucrurilor la suprafața limbajului”. Lucrăm cu ipoteza de bază că „stilul” poate fi evaluat prin intermediul numărărilor de frecvență ale acelor caracteristici textuale care se disting ușor de computer: caractere, silabe, cuvinte, propoziții și așa mai departe, combinându-se cu măsuri precum lungimea cuvântului, lungimea propoziției, raporturile tip-jeton, cele mai frecvente liste de cuvinte etc. Cercetări stilometrice abundente arată că această abordare directă a stilului este destul de fructuoasă. Desigur, orice analiză mai avansată poate începe de aici, incluzând analiza cluster a similitudinii textului bazată pe cele mai frecvente numărări de cuvinte (de exemplu, delta) sau măsuri de entropie ale variației lexicale. Orice merge, atâta timp cât avem o reținere asupra entităților discrete care alcătuiesc textele (caractere, șiruri etc.).

Acestea fiind spuse, credem, de asemenea, în valoarea adnotării lingvistice (și a altor tipuri de) adnotări: KOLIMO a fost etichetat pentru partea de vorbire (POS) și am efectuat analize de lizibilitate (Flesh-Index, Wiener Sachtextformel). Valorile de lizibilitate sunt stocate în anteturile TEI, precum și statistici descriptive de bază despre numărul de cuvinte. Urmează mai multe tipuri de adnotări (de exemplu, lucrăm la metaforă și am experimentat adnotarea vorbirii/reprezentării gândirii).

Credem în beneficiul preciziei, de exemplu, atunci când adnotatorii colaborează într-un mod controlat, acordul lor fiind testat prin măsuri de fiabilitate a inter-coderilor. Pentru a ingera noi adnotări, realizate de mai mulți adnotatori, am ales un format XML stand-off pentru baza noastră de date (eXist). Mai mult, eXist permite publicarea fără efort a datelor pe web și interogări puternice (xQuery). De asemenea, am experimentat aplicații de adnotare pentru eXist.

Cercetarea noastră de stil digital este în esență un proces de cercetare deschis, testarea ipotezelor fiind secundată de perspective noi și critice care rezultă din analize.

Informații despre licență și atribuire

KOLIMO este doar în scopuri de cercetare. Am compilat KOLIMO ca un set de texte în limba germană, extragând text și metadate din resursele menționate în antetul TEI (și mai jos). Am corectat unele dintre metadatele existente și am adăugat metadate noi pentru (unii) autori, (unele) date de publicare și gen, precum și statistici de stil. Depozitele din care ne-am extras datele conțin toate texte ale căror drepturi de autor au expirat.

KOLIMO este pus la dispoziție sub o licență Creative Commons, în conformitate cu licențele depozitelor sursă. Textele de la TextGrid sunt disponibile sub o licență de atribuire CC-BY (consultați biblioteca digitală textgrid). Cu toate acestea, documentele Deutsches Textarchiv sunt puse la dispoziție sub o licență CC BY-NC 3.0 (necomercială, vezi creative commons), ceea ce înseamnă că utilizarea comercială a acestor texte este interzisă (a se vedea condițiile de utilizare dta). Documentele Gutenberg-DE sunt puse la dispoziție într-un mod pe care îl înțelegem ca o licență CC-BY-NC-SA (necomercială, distribuie la fel, vezi creative commons), ceea ce înseamnă că utilizarea comercială a acestor texte este interzisă și remixarea, transformarea, sau construirea pe material numai dacă se utilizează aceeași licență ca originalul. Atunci când utilizați corpusul, asigurați-vă că citați sursele textelor, așa cum este cerut de declarațiile distincte, și acordați credit echipei KOLIMO enumerate mai jos, pentru realizarea compilării textului, adnotării și lucrării la metadate.

Secțiunea „Gutenberg” a fost extrasă din DVD-ROM-ul Gutenberg-DE Edition 13 (lansat în noiembrie 2013, vezi gutenberg-DE) și convertită din HTML în XML și TXT; secțiunea „Deutsches Textarchiv” a fost extrasă din „Corpusul de referință al noii limbi germane înalte” (vezi versiunea 8 iulie 2015; iar secțiunea „TextGrid” este extrasă din „Texte Korpus versiunea II” (vezi biblioteca digitală textgrid).

Cum se citează KOLIMO beta

Când indicați corpusul în comunicarea științifică, vă rugăm să citați:

Mai multe informații despre KOLIMO și subcorpul său, Kafka/corpus de referință (KAREK), pot fi găsite aici: