Modul în care generația de limbaj natural schimbă jocul SEO - cele mai recente știri

Tehnologia și tehnicile de generare a conținutului pe care le voi prezenta în această coloană par a fi ieșite dintr-un roman de science fiction, dar sunt foarte reale și accesibile în prezent.

După ce am terminat experimentele de codare și am început să scriu acest articol, m-am gândit la implicațiile pozitive și negative ale schimbului public de informații.

După cum veți vedea, este relativ ușor astăzi să produceți conținut generat de mașini, iar calitatea generațiilor se îmbunătățește rapid.

Acest lucru m-a condus la concluzia tristă că vom vedea mult mai multe rezultate de spam decât înainte.

Din fericire, Google a lansat recent raportul său de spam din 2019, ceea ce m-a făcut să mă simt foarte confortabil.

Te-ai uitat vreodată la dosarul tău de e-mailuri nedorite? Așa ar putea arăta rezultatele căutării fără pașii pe care îi luăm pentru a combate spamul din căutare. Articolul nostru de astăzi examinează modul în care lucrăm pentru a preveni apariția spamului în rezultatele căutării Google https://t.co/RA4lUoDXEF

- Google SearchLiaison (@searchliaison) 9 iunie 2020

„Anul trecut am constatat că cele peste 25 de miliarde de pagini pe care le găsim în fiecare zi sunt spam. (Dacă fiecare dintre aceste pagini ar fi o pagină dintr-o carte, aceasta ar reprezenta peste 20 de milioane de exemplare ale „Războiului și păcii” în fiecare zi).

CONTINUAȚI CITIREA MAI JOS

Eforturile noastre au asigurat că peste 99% din vizitele rezultatelor noastre se traduc în experiențe fără spam.

În ultimii ani, am văzut o creștere a numărului de site-uri spam cu conținut generat automat și răzuit, cu comportamente care enervează sau dăunează căutătorilor, cum ar fi butoane false, reclame invazive, redirecționări suspecte și programe malware. Aceste site-uri sunt adesea înșelătoare și nu oferă o valoare reală oamenilor. În 2019, am reușit să reducem impactul acestui tip de spam asupra utilizatorilor de căutare cu peste 60% comparativ cu 2018 ″.

În timp ce Google raportează un număr uimitor de pagini de spam pe zi, raportează o rată de succes impresionantă de 99% în suprimarea spamului în general.

Cel mai important, au făcut pași incredibili în eliminarea conținutului spam generat de mașini.

În acest subiect, voi explica cu cod cum un computer este capabil să genereze conținut utilizând cele mai recente progrese în NLG.

Voi trece în revistă teoria și câteva linii directoare pentru a vă menține conținutul util.

Acest lucru vă va împiedica să fiți prins de tot spamul pe care Google și Bing lucrează pentru a-l elimina 24 de ore pe zi.

CONTINUAȚI CITIREA MAI JOS

Pagini cu conținut subțire

În articolul meu despre generarea de titluri și meta descrieri, am împărtășit o tehnică eficientă de rezumare a conținutului unei pagini pentru a produce metaetichete.

După ce ați urmat pașii, puteți vedea că funcționează foarte bine și poate produce chiar și texte de înaltă calitate și inedite.

Dar dacă paginile nu au conținut de rezumat? Tehnica eșuează.

Permiteți-mi să vă spun un truc foarte inteligent pentru a rezolva această problemă.

Dacă aceste pagini au linkuri de calitate, puteți utiliza textul de ancorare și textul care înconjoară linkul ca text rezumat.

Permiteți-mi să mă întorc în 1998, când a fost creat motorul de căutare Google.

În documentul care descrie noul lor motor de căutare, Page și Brin au împărtășit o perspectivă foarte interesantă în secțiunea 2.2.

„Majoritatea motoarelor de căutare asociază textul unui link cu pagina pe care se află linkul. În plus, îl asociem cu pagina către care indică linkul. Acest lucru are mai multe avantaje. Primul, ancorele oferă adesea descrieri mai precise ale paginilor web decât paginile în sine. În al doilea rând, pot exista ancore pentru documente care nu pot fi indexate de un motor de căutare bazat pe text, cum ar fi imagini, programe și baze de date. Acest lucru face posibilă returnarea paginilor web care nu au fost cu adevărat accesate cu crawlere ".

Iată planul tehnic:

  1. Vom obține backlink-urile și textele de ancorare corespunzătoare folosind noile instrumente pentru webmasteri Bing.
  2. Vom răzuie textul din jur de la linkuri de cea mai înaltă calitate.
  3. Vom crea rezumate și conținut lung folosind text zgâriat.

Raport Bing Webmaster Tools

modul

Una dintre caracteristicile care îmi plac la noul instrument de trackback al BWT este că poate oferi linkuri nu numai către propriul site, ci și către alte site-uri.

Mă aștept să devină o alternativă populară și gratuită la instrumentele plătite.

Am exportat fișierul CSV cu lista mare de legături și ancore, dar când am încercat să-l încărc folosind panda Python am găsit o serie de probleme de formatare.

CONTINUAȚI CITIREA MAI JOS

Textele de ancorare aleatorii pot include virgule și pot cauza probleme cu un fișier delimitat de virgule.

Le-am rezolvat deschizând fișierul în Excel și salvându-l ca Excel.

Scratching textul înconjurător cu python

După cum puteți vedea din captura de ecran de mai sus, o mulțime de texte de ancorare sunt destul de scurte.

Putem zgâria paginile pentru a obține paragraful care le conține.

Mai întâi, să încărcăm raportul pe care l-am exportat din BWT.

M-am uitat la adresa URL țintă pe baza numărului de legături de intrare utilizate.

Am tras backlink-urile de pe una dintre pagini pentru a testa ideea folosind acest cod.

CONTINUAȚI CITIREA MAI JOS

Acum să vedem cum putem folosi o adresă URL țintă și un backlink pentru a extrage textul de ancoră relevant care include ancora.

Preluarea textelor din backlink-uri

Mai întâi, să instalăm solicitări-html.

Pentru a menține codul simplu, voi produce manual un selector CSS pentru a introduce textul care înconjoară linkul.

Nu este dificil să îl calculați, având în vedere linkul și ancora paginii folosind codul JavaScript sau Python.

Ar putea fi o idee bună să încercați ca teme.