Despre reprezentativitatea colocațiilor din lume
Lucrare de termen (seminar avansat) 2015 23 de pagini

Citirea eșantionului
structura
1. Introducere - Despre reprezentativitatea colocațiilor pe web
1.1. Ce sunt colocațiile?
1.2. Întrebare
1.3. Webul ca corpus
a) Lingvistica corpusului ca metodă de cercetare empirică
b) Avantajele și dezavantajele web-ului ca corpus
c) Să investigheze colocații pe web
2. Investigație lingvistică a corpusului propriu asupra colocațiilor selectate pe web
2.1. „Dicționarul colocațiilor în germană” - selecția colocațiilor care urmează să fie examinate
2.2. Analiza corpusului utilizând WebCorp
2.3. Rezultate și comparație cu dicționarul de colocare
3. Interpretarea și discuția rezultatelor
3.1. perspectivă
1. Introducere - Despre reprezentativitatea colocațiilor pe web
1.1. Ce sunt colocațiile?
În cercetarea frazeologică, termenul colocare este folosit „pentru a desemna combinații fixe de cuvinte non-idiomatice” (cf. Reder 2006: 160). Colocările sunt astfel convenționalizate în limbi individuale, anumite combinații de cuvinte sunt puternic ancorate într-o singură limbă și reprezintă astfel „unități ale sistemului lingvistic” fixe (cf. Lehr 1996: 1). În cercetarea lingvistică, colocațiile sunt adesea tratate ca unități lexicale binare, ca în exemplele menționate mai sus. Cu toate acestea, există și „conexiuni mai mult de două cuvinte” (cf. Hollós 2010: 85), ca în exemplul criticat masiv (cf. Hausmann 2004: 316). Cu toate acestea, acestea nu ar trebui tratate aici, deoarece acestea ar depăși sfera acestei lucrări.
În rezumat, îmi bazez investigația corpus-lingvistică pe următoarea înțelegere a colocațiilor: Colocațiile sunt combinații statistice frecvente de cuvinte de natură binară care se caracterizează prin dependențe sintagmatice și semantice ale unui colocator pe o bază (cf. Hausmann 2001: 316, Reder 2006: 158). Prezenta lucrare se va concentra pe colocații verbale și substantive, deoarece acestea sunt ușor de identificat din punct de vedere lingvistic al corpusului și, prin urmare, sunt potrivite pentru evaluarea reprezentativității colocărilor din corpusul web (cf. Breidt 1995: 5). Diversitatea posibilelor combinații de cuvinte colocative poate duce la ambiguități în căutarea și analiza corpurilor, motiv pentru care este necesară o delimitare clară a obiectului de examinat.
1.2. Întrebare
Înainte de a intra în șansele și riscurile webului ca corpus pentru analiza colocării în capitolul următor, aș dori să afirm întrebarea orientată spre obiective a acestei investigații în acest moment. Scopul este de a examina dacă „World Wide Web” este reprezentativ pentru utilizarea colocațiilor verbale și substantivale. Rezultatele analizei corpusului propriu web trebuie comparate cu intrările din „Dicționarul colocațiilor în germană” (Quasthoff 2011) pentru a putea evalua reprezentativitatea utilizării reale a limbajului pe web. Intrările din dicționar indică deja o frecvență corespunzătoare ridicată a colocațiilor respective în limba germană (cf. Quasthoff 2011: XII). Deoarece analiza cantitativă este posibilă doar într-o măsură limitată în corpusul web 1, ar trebui efectuată și o analiză calitativă a rezultatelor la evaluarea datelor corpusului.
1.3. Webul ca corpus
În capitolul următor, vor fi luate considerații preliminare cu privire la adecvarea rețelei web ca corpus lingvistic, care va curge în discuția rezultatelor ulterioare ale analizei colocării.
a) Lingvistica corpusului ca metodă de cercetare empirică
Cu ajutorul lingvisticii corpus, utilizarea diverselor fenomene lingvistice într-o singură limbă poate fi investigată empiric. Folosind material de limbaj autentic, de exemplu, pot fi furnizate dovezi ale semnificației și utilizării colocațiilor specifice și se poate determina frecvența lor de apariție. Prin urmare, ele pot fi analizate calitativ și cantitativ (cf. Scherer 2006: 35f.). Aceasta poate fi apoi o bază pentru crearea de dicționare, ca în cazul „Dicționar de colocații în germană”. Majoritatea corpurilor - cu alte cuvinte, „colecții de texte sau părți de texte care (...) sunt selectate și clasificate în funcție de anumite criterii lingvistice” (2006: 3) - sunt acum digitalizate și pot fi analizate folosind computerele. „World Wide Web” oferă o colecție extrem de mare de date dintr-un limbaj scris (și parțial vorbit) și extinde posibilitățile de analiză a corpusului lingvistic. Cu toate acestea, există unele dezavantaje sau limitări. Diferitele caracteristici ale așa-numitelor „corpusuri web” 2 vor fi examinate mai detaliat mai jos.
b) Avantajele și dezavantajele web-ului ca corpus
c) Să investigheze colocații pe web
În ciuda restricțiilor discutate mai sus, web-ul poate fi utilizat pentru studii lexicografice și statistice lingvistice (Scherer 2006: 75, Diemer 2008: 36). Studiile lingvistice ale corpusului Bickel 3 arată clar că, în ciuda creșterii mari și a dezvoltării constante a corpusului web, rezultatele căutării sunt „inerent consistente” și „reproductibile” în anumite momente (Bickel 2006: 80). Rezultate foarte similare ar putea fi obținute în momente diferite, ceea ce indică o anumită stabilitate a corpusului țesut (cf. 2006: 78 și urm.).
2. Investigație lingvistică a corpusului propriu asupra colocațiilor selectate pe web
Pentru a examina dacă „World Wide Web” este reprezentativ pentru utilizarea colocațiilor verbale și substanțiale, aș dori să-mi bazez analiza corpusului pe colocațiile selectate din „Dicționarul colocațiilor în germană” pentru comparație.
2.1. „Dicționarul colocațiilor în germană” - selecția colocațiilor care urmează să fie examinate
„Dicționarul de colocații în germană” este primul dicționar de colocații în limba germană (cf. Quasthoff 2011: XII). Deoarece a fost conceput pe baza investigației empirice, corpus-lingvistice a corpusului lingvistic de la Leipzig, descrie realitatea lingvistică a utilizărilor colocative (a se vedea Radzik 2013: 64, Quasthoff 2011: XII). Dicționarul de colocare al lui Quasthoff colectează cele mai comune colocatoare pentru un total de 3253 substantive, verbe și adjective, care sunt listate ca bază a combinațiilor de cuvinte binare (2011: X). Radzik (2013: 71) consideră crearea bazată pe corpus a „Dicționarului pentru colocații în limba germană” ca „o mare realizare a lexicografiei germane”. Colocările respective ale unui cuvânt cheie nu sunt structurate în funcție de frecvența lor reală de apariție în corpusul de referință, ci sunt sortate în funcție de relația sintactică și semantică în așa-numitele grupuri de colocare 4 (cf. Quasthoff 2011: X).
Pentru analiza corpusului independent, pe de o parte sunt analizate colocațiile verbale (substantiv + verb), care provin din nutriția de bază. Pe de altă parte, trebuie examinate colocațiile substantivale (adjectiv + substantiv) pe baza menționată mai sus. Dicționarul de colocare listează mai întâi următoarele verbe și adjective ca colocatori ai substantivului nutriție (cf. 2011: 150):
1 s. Secțiunea 1.3b).
2 „Corpusuri web” este material lingvistic pregătit lingvistic de pe Internet. Trebuie făcută o distincție între aceste „corpusuri disponibile online”, care sunt accesibile pe internet, dar nu sunt prelucrate lingvistic (cf. Storrer 2011: 12).
3 Pentru structura și implementarea acestui corpus investigație lingvistică, a se vedea cap. Bickel (cf. 2006: 75ss.). Al 6-lea
4 Aceste grupuri de colocare sunt listate, separate printr-un punct și virgulă. Pe baza acestei structuri, am prezentat și rezultatele acestei lucrări lingvistice corpus de la punctul 2.3 (p. 10).