Semantica distributiva

Semantică distribuțională Înțelesurile cuvintelor sunt în capul tău? Peter Kolb 9 decembrie 2010

distributiva

Prezentare generală Caracteristică Semantică (MS) Semantică distribuțională (DS) Metodă Aplicații Comparare MS DS

ride a horse feed a horse stroke the horse galope the horse sleeps the horse eats the fast horse old horse horse wild * formează un cal * calcă un cal * suflă un cal * calul argumentează * calul vițeii * calul se hrănește * invers Cal * cal împădurit * cal unghiular

Restricții de selectare a modelelor cu caracteristici semantice: somnul calului argumentează [+ vioi] [- uman] SUBJ: [+ vioi] SUBJ: [+ uman] calul doarme * calul argumentează

Lectură dezambiguizare: cal 1 [+ viu] [- uman] cal 2 [-viu] somn SUBJ: [+ viu] argument SUBJ: [+ om] calul doarme calul 1

Cal cal armăsar [+ adult] [+ bărbat] armăsar iapă [+ adult] [+ femelă] iapă mânz [-adult] mânz [-adult] [+ femelă] pisică [-adult] [+ masculin] mânz negru [+ negru ] cal negru gri [+ alb] cal alb [+ gri] gri vulpe cal [+ roșu-maro] măcriș

Metode de explicare a cuvântului: (1) Arată: Acesta este un cal (2) Traduceți: Cal înseamnă „cal” (3) Definiți: Un cal alb este un cal alb

Metode de explicare a cuvintelor: (1) Arată: Acesta este un cal (2) Traduceți: Cal înseamnă „cal” (3) Definiți: Un cal alb este un cal alb Se poate defini întregul vocabular? Cuvinte explicate prin cuvinte: pericolul definițiilor circulare

rotund = forma unui cerc, care arată un cerc de sferă = uniform rotund, sferă de linie autonomă = corp complet rotund (Duden Deutsches Universal aproximativ buch 1996)

Este de la sine înțeles că trăsăturile semantice sunt unități abstracte, teoretice, care reprezintă structuri psihice complexe. [] Termenii [] nu trebuie să conducă la presupunerea că caracteristicile în sine sunt din nou unități lexicale ale unui anumit limbaj natural. Toate structurile semantice [pot] fi în cele din urmă urmărite înapoi [] la trăsături care reprezintă dispozițiile de bază ale structurii gândirii și percepției organismului uman. (Manfred Bierwisch 1969)

Cal [+ K027] [-S143] [+ B415] [+ R024].

Consecințe: semnificațiile constau în trăsături semantice, acestea sunt nelingvistice și înnăscute. Sensul cuvintelor individuale poate fi dat în mod izolat. Înțelesul utilizării și referinței (referință)

Sensurile sunt reprezentări mentale: termeni, concepte, imagini prototipice în cap

obiectivism semantic: cuvintele reprezintă ceva care este deja dat în percepție sau în gândire, adică există indiferent de limbaj. Înțelesul precede semnele lingvistice. Cuvintele sunt ca niște tablete de nume atașate la sensuri (Wittgenstein)

Probleme: (1) implementare practică: cum pot urmări zeitgeist înapoi la blocuri perceptibile sau logice? Care sunt ele oricum? (2) multe categorii au stereotipuri de limite fuzzy nu trebuie să existe o caracteristică care să se aplice tuturor reprezentanților unei categorii, unii reprezentanți ai unei categorii sunt mai reprezentativi decât alte categorii naturale care nu au limite ascuțite (de exemplu, copac vs. tufiș)

Prezentare generală Caracteristică Semantică (MS) Semantică distribuțională (DS) Metodă Aplicații Comparare MS DS

ride a horse feed a horse stroke the horse galope the horse sleeps the horse eats fast horse old horse horse wild * formează un cal * calcă un cal * suflă un cal * calul argumentează * calul vițeii * calul se hrănește * invers Cal * cal împădurit * cal unghiular

ride a horse feed a horse stroke the horse galope the horse sleeps the horse eats fast horse old horse horse wild * formează un cal * calcă un cal * suflă un cal * calul argumentează * calul vițeii * calul se hrănește * invers Ross * cal împădurit * cal unghiular

* călărește un pui hrănește o lovitură de pui un pui * puiul galopează puiul doarme puiul mănâncă pui rapid pui bătrân pui sălbatic * formează un pui * calcă un pui * suflă un pui * puiul susține * vițeii de pui * puiul se hrănește * pui inversat * pui împădurit * pui unghiular

* călărește un pahar * hrănește un pahar mângâie un pahar * paharul galopează * paharul doarme * paharul mănâncă? pahar rapid pahar vechi * pahar sălbatic * formatează un pahar * fier un pahar * suflă un pahar * paharul argumentează * paharul viței * sticla se alimentează * sticlă inversă * sticlă împădurită sticlă unghiulară

Ipoteza distribuțională (Harris 1968): cuvintele care sunt folosite în contexte similare au o semnificație similară. Utilizați Semnificație Utilizați = distribuție în corpus = suma tuturor contextelor

Ce înseamnă contextul? cuvinte comune Ce înseamnă comun? Relația sintactică la distanță

Determinați concordanța de distribuție:

Fereastra ± 3 cuvinte (acordați atenție numai cuvintelor conținut):

Fereastra ± 3 cuvinte (acordați atenție numai cuvintelor de conținut):

Fereastra ± 3 cuvinte (acordați atenție numai cuvintelor de conținut):

Fereastra ± 3 cuvinte (acordați atenție numai cuvintelor de conținut):

Fereastra ± 3 cuvinte (acordați atenție numai cuvintelor de conținut):

Lista cuvintelor obișnuite cu frecvență: Profilul colocației (= distribuția cuvântului) convertește frecvențele absolute cu o măsură statistică a semnificației în valori de semnificație Călare călare 18,7 Călare 16,9 trotate 15,2 călăreț 14,5 cămilă 13,1 măgar 13,0 plimbare 12, 3 călare 12.1 montură 10.8 elefant 10.8 catâr 10.8 frâiele 10.6

Lista cuvintelor obișnuite cu frecvență: Profilul de colocație (= distribuția cuvântului) care convertește frecvențele absolute cu o măsură statistică a semnificației în valori de semnificație Călare călare 18,7 călare 16,9 trapat 15,2 călăreț 14,5 cămilă 13,1 măgar 13,0 călătorie 12, 3 călare 12.1 montură 10.8 elefant 10.8 catâr 10.8 frâiele 10.6. Pilotul Ross 14.4 urcare 11.7 stabil 9.9 frâi 9.7 picioare 8.2 alb 7.9 călăreț 7.6 păzit 6.8 auriu 6.8 rapid 6.7 sărituri 6.3 cămilă 6.2.

Lista cuvintelor obișnuite cu frecvență: Profil de colocație (= distribuția cuvântului) care convertește frecvențele absolute cu o măsură statistică a semnificației în valori de semnificație Călare a călărit 18,7 a călărit 16,9 trap 15,2 călăreț 14,5 cămilă 13,1 măgar 13,0 călătorie 12, 3 călare 12.1 montură 10.8 elefant 10.8 catâr 10.8 frâiele 10.6. Pilotul Ross 14.4 urcare 11.7 stabil 9.9 frâi 9.7 picioare 8.2 alb 7.9 călăreț 7.6 păzit 6.8 auriu 6.8 rapid 6.7 sărituri 6.3 cămilă 6.2.

Comparația tuturor cuvintelor (coloane de tabel) între ele: valori ridicate pentru cuvintele care au fost folosite în contexte similare pentru fiecare listă de cuvinte dintre cele mai similare cuvinte cal: cal cal măgar animal oaie câine cămilă pahar: sticlă pahare cană sorbă pahar bere.

timid: timid înfricoșat ezitant ezitant liniștit nervos trist înspăimântat modest incomod excitat nesigur politicos politicos binevoitor temător. Capitalism: socialism comunism democrație imperialism fascism capitalist economie de piață liberalism stalinism. țipa: plânge, urlă, râde, suspină, sună, cântă, hohote, latră, plouă, țipă, geme, sângerează, țipă, tuse, înjură, spune, vorbește.

Prezentare generală Caracteristică Semantică (MS) Semantică distribuțională (DS) Metodă Aplicații Comparare MS DS

Restricții de selectare a modelelor cu similaritate distribuțională (Erk și colab. 2010)

Predicția activității creierului la prelucrarea substantivelor (Mitchell și colab. 2008) Activitatea creierului măsurată cu imagistica prin rezonanță magnetică (IRM) 25 verbe: vezi auzi ascultă gust miros mănâncă atingere alergare împinge mișcare spune teamă.

60 de substantive: avion de porumb de țelină în corpus apariția obișnuită a celor 60 de substantive cu cele 25 de verbe determină valori de semnificație de ex. țelină: mănâncă 0,84 gust 0,35 umple 0,32 pe baza acestor valori și tiparele de activitate învățate ale celor 25 de verbe prezic modele de activitate ale substantivelor rata de succes 77%

Alocarea spațiilor de cuvinte din diferite limbi Traducerea colocațiilor (rânduri ale tabelului), din câte se știe: Cal: plimbare plimbare trot trot călăreț călăreț cămilă montare coloană nouă în tabelul de comparație a limbii țintă cu toate coloanele limbii țintă cea mai similară coloană = traducere

Experimentați spațiile din limba engleză germană și engleză Dicționar bilingv Wikipedia engleză cu 16.000 de intrări 800 de cuvinte de testare cu traducere cunoscută Substantive: 60% corectă (traducerea așteptată găsită ca fiind cel mai similar cuvânt) Verbe: 45% corecte Adjective: 66% traducere așteptată dintre cele 20 cele mai similare la substantive: 87% Verbe: 78% adjective: 93% din cazuri.

înseamnă: înseamnă 0,046 semnifică 0,034 înseamnă 0,033 înseamnă 0,032 verb 0,031 sufix 0,030 derivă 0,030. Dovleac: avocado 0,084 varză 0,081 pepene verde 0,080 porumb 0,078 dovleac 0,077 căpșună 0,076 necesar: necesar 0.150 suficient 0,103 adecvat 0,097 adecvat 0,080 necesar 0,079. anual: anual 0.151 anual 0.135 anual 0.099 lunar 0.073 săptămânal 0.060 corect 0.058.

Modelele de spațiu vectorial sunt, fără îndoială, cea mai reușită abordare a semanticii de până acum. (Turney & Pantel 2010)

Prezentare generală Caracteristică Semantică (MS) Semantică distribuțională (DS) Metodă Aplicații Comparare MS DS

Imaginea augustiniană a limbajului (după Wittgenstein PU 1) Cuvintele obiectului denumirii limbii Fiecare cuvânt are un sens atribuit cuvântului. Este obiectul pentru care stă cuvântul. Învățarea limbii ca și cum copilul ar avea deja un limbaj, de parcă ar putea întreba deja: Ce obiect înseamnă adulții prin cuvântul „copac”? ca un adult care vorbește deja o limbă și vine într-o țară străină

adultul învață limba: „albastru” înseamnă „copac” albastru înseamnă interpretare radicală a copacului (D. Davidson). de parcă copilul ar fi venit într-o țară străină și nu ar fi înțeles limba țării; Adică: parcă ar avea deja un limbaj, nu doar acesta. (PU 32) dar copilul nu are limbaj înainte de limbă: „albastru” înseamnă X X = nu un cuvânt, ci ceva extra-lingvistic, obiectul pentru care stă cuvântul

Ruben van de Vijver: Fonologie. Sunetele nu au nici un sens. În combinație formează cuvinte care au un sens. Prin urmare, un sunet de vorbire trebuie să fie diferit de celelalte sunete. Numai atunci se poate construi un vocabular. Structuraliști: diferență și opoziție Într-o structură totul are sens doar din ansamblu. Astfel, cuvintele unei limbi nu stau individual ca purtători de semnificație, ci fiecare are semnificația ei doar pentru că alții au sens alături. (Trier 1931, p. 643)

Semnele în sine constau doar din distincții care nu sunt definite pozitiv de conținutul lor, ci negativ de relațiile lor cu ceilalți membri ai sistemului. Cel mai clar semn al lor este că sunt ceva ce alții nu sunt. (Saussure 1916, p. 139) care înseamnă cuvinte complete, relativ individuale, nu pot avea nici o semnificație independent de celelalte

a patra metodă de definiție: identificarea structurală (Carnap 1961) fiecare cuvânt clar identificabil prin încorporarea acestuia în structura cuvântului spațiu funcționează în ciuda circularității spațiul cuvântului apare din utilizarea cuvintelor în texte limbajul este un sistem auto-referențial, cuvintele nu conțin funcția lor prin atribuire din exterior Înțelesul nu este ceva extern sau prelingvistic atașat cuvintelor, ci utilizarea lor în sistem

Întrebarea „Ce este de fapt un cuvânt?” este analog cu „Ce este o piesă de șah?” (Wittgenstein 1953, 108) Limbajul nu conține nici idei și nici sunete care ar exista în prealabil în raport cu sistemul lingvistic, ci doar diferențe conceptuale și fonetice care rezultă din sistem. (Saussure 1916, p. 143)

Unde este sensul? Înțelesul este în discurs. (Teubert 2005)

Literatură Bierwisch, Manfred: Semantică structurală. În Hoffmann, L. (ed.), Lingvistică: un cititor. De Gruyter 1996. Carnap, Rudolf: Structura logică a lumii. Felix Meiner Verlag, 1961. Erk, Katrin, Padó, Sebastian și Padó, Ulrike: Un model flexibil, bazat pe corpus, al preferințelor de selecție regulată și inversă. Computational Linguistics 2010. Harris, Zelig: Structuri matematice ale limbajului. Interscience Publishers 1968. Mitchell, Tom M. și colab.: Predicting Human Brain Activity Associated with the Meanings of Nouns. Știință, Vol. 320, 2008. Putnam, Hilary: Importanța semnificației. Klostermann 1979th de Saussure, Ferdinand: Întrebări de bază ale lingvisticii generale. De Gruyter 1967.

Literatură Teubert, Wolfgang: Versiunea mea de lingvistică a corpusului. International Journal of Corpus Linguistics 10: 1, 2005. Trier, Jost: Linguistic fields. În Hoffmann, L. (ed.), Lingvistică: un cititor. De Gruyter 1996. Turney, Peter și colab. Pantel, Patrick: De la frecvență la semnificație: modele de spațiu vectorial de semantică. Journal of Artificial Intelligence Research, 37, 2010. Wellmer, Albrecht: Sprachphilosophie. Suhrkamp 2004. Wittgenstein, Ludwig: Investigații filozofice. Ediția de lucru vol. 1, Suhrkamp 1984.