Agregate de cuvinte cheie validate semantic

2Dintre diferitele metode care ar putea fi luate în considerare pentru a crea sau identifica aceste comunități, am ales să ne concentrăm pe cele bazate pe crearea agregatelor de cuvinte cheie. Termenul dedicat în general grupării cuvintelor cheie este cel de „cluster”. Noțiunea de „cluster” se referă atât la nodurile unei rețele, cât și la structura de susținere a acestei rețele. În cazul nostru, procesul de agregare, deși utilizează legări ca resurse, generează o listă simplă. Acesta este motivul pentru care am preferat termenul agregat. Un agregat este definit de Bayaly și Cunny, (1986) ca un set de noduri legate logic într-un grafic.

3 Pentru a identifica comunitățile de utilizatori bazate pe interese, propunem să grupăm cuvintele cheie din căutările de informații în agregate cu consistență semantică puternică. Prin consistență semantică înțelegem capacitatea unui grup de cuvinte de a acoperi un câmp al unui domeniu cât mai precis posibil. Această listă de cuvinte ar putea fi similară cu ceea ce în lexicologie se numește câmp lexical. Mel'Cuk și colab. (1995) dau următoarea definiție a câmpului lexical: „Numim câmp lexical al unui câmp semantic ansamblul cuvintelor ale căror lexii de bază aparțin acestui câmp semantic”.

4 La utilizare, din cuvintele cheie utilizate în timpul căutării de informații de către un utilizator nou, vom putea (1) identifica comunitățile relevante datorită agregatelor astfel construite pentru a (2) apropia acest utilizator de utilizatorii atașați la cele mai apropiate comunități și astfel (3) oferă servicii noi bazate pe aceste comunități.

6 „Clusterul” cuvintelor cheie a făcut obiectul multor lucrări în ultimii ani, atât în ​​ceea ce privește clasificarea (documentelor, interogărilor, site-urilor web etc.), cât și în cercetarea informațiilor. Cu toate acestea, așa cum au subliniat alți autori dinaintea noastră (Shingo și colab., 2006), studiul cuvintelor cheie utilizate în contextul activităților de interogare a utilizatorilor de internet prin intermediul motoarelor de căutare „comerciale” (Google, Yahoo, Exalead ...) este dificil, chiar aproape imposibil, pur și simplu pentru că resursele necesare nu sunt distribuite deoarece reprezintă o parte din afacerea lor (exemplu: revânzare de cuvinte cheie). De fapt, există puține publicații disponibile în studiu, sau chiar exploatare, pe care le puteți sugera pentru cuvintele cheie utilizate în motoarele de căutare pe internet. Cu toate acestea, vom întocmi o stare de artă a muncii care a analizat agregarea cuvintelor cheie. În primul rând, vom discuta despre lucrul la grupările de cuvinte cheie din motoarele de căutare pe internet. Ulterior, ne vom concentra asupra lucrărilor referitoare la crearea de agregate omogene semantic care au inspirat munca noastră.

8 Alte lucrări, precum cele din (Cui și colab., 2002) și (Fonseca și colab., 2004) încearcă să creeze clustere de cuvinte cheie prin corelarea cuvintelor cheie utilizate în căutare cu cele prezentate de adresele URL returnate (URL, titlu, cuvinte cheie citate în pagina html etc.) și selectate de către utilizatorul de internet. Această metodă are aceleași dependențe de indexurile motoarelor de căutare ca și precedenta. În plus, această metodă pune și problema relevanței ordonării rezultatelor de către motoarele de căutare comerciale pe Internet, ordinea de prezentare influențând puternic selecția unui site propus de utilizator.