Cum să excludeți conținutul WordPress din Căutarea Google

Cum să excludeți conținutul și fișierele WordPress din Căutarea Google

Uneori, trebuie să excludeți conținutul sau fișierele specifice WordPress de la indexarea în rezultatele căutării Google. Index, sau „indexare” înainte de apariția Google și a altui motor de căutare era un cuvânt asociat în cea mai mare parte cu cărți. De obicei, se află în spatele majorității cărților, și de aceea dicționarul Cambridge îl definește în acest context ca:


Index: o listă alfabetică, cum ar fi una tipărită în spatele unei cărți care arată pe ce pagină se află un subiect, un nume etc..

Înainte de 1995, în perioada de internet, avem servicii precum motorul de căutare Yahoo, iar în 1997, căutarea Google a schimbat dramatic modul în care căutăm și accesăm informațiile pe internet..

Conform unui sondaj realizat în ianuarie 2018, există 1.805.260.010 (peste 1,8 miliarde) site-uri pe internet, iar multe dintre aceste site-uri nu primesc vizitatori deloc.

Ce este indexarea Google?

Există diferite motoare de căutare cu un format diferit de indexare, dar motoarele de căutare populare includ, Google, Bing și pentru persoanele care păstrează confidențialitatea, duckduckgo.

Indexarea Google se referă, în general, la procesul de adăugare de noi pagini web, inclusiv conținut digital, cum ar fi documente, videoclipuri și imagini, și stocarea lor în baza sa de date. Cu alte cuvinte, pentru ca conținutul site-ului dvs. să apară pe rezultatele căutării Google, acestea trebuie mai întâi stocate în indexul Google.

Ce este indexarea Google?

Google este capabil să indexeze toate aceste pagini digitale și conținut folosind păianjenii, crawler-urile sau bot-urile care parcurg în mod repetat diferite site-uri web pe Internet. Acești roboți și crawlere urmează instrucțiunile proprietarilor site-ului de internet despre ce să se scurgă și ce ar trebui ignorate în timpul crawling-ului..

De ce site-urile trebuie să fie indexate?

În această eră a erei digitale, este aproape imposibil să navighezi prin miliarde de site-uri web care găsesc un anumit subiect și conținut. Va fi mult mai ușor dacă există un instrument care să ne arate ce site-uri sunt de încredere, ce conținut este util și relevant pentru noi. Acesta este motivul pentru care Google există și clasează site-urile web în rezultatele căutării lor.

Indexarea devine o parte indispensabilă a modului în care funcționează motoarele de căutare în general și Google în special. Ajută la identificarea cuvintelor și expresiilor care descriu cel mai bine o pagină și, în general, contribuie la clasarea paginilor și a site-ului web. Pentru a apărea pe prima pagină a site-ului dvs. Google, inclusiv pagini web și fișiere digitale, cum ar fi videoclipuri, imagini și documente, trebuie mai întâi indexat..

Indexarea este o etapă prealabilă pentru ca site-urile să se clasifice bine pe motoarele de căutare în general și Google în special. Folosind cuvinte cheie, site-urile pot fi mai bine văzute și descoperite după ce au fost indexate și clasate de motoarele de căutare. Acest lucru deschide apoi uși pentru mai mulți vizitatori, abonați și potențiali clienți pentru site-ul dvs. și afacerea dvs..

Cel mai bun loc pentru a ascunde un cadavru este pagina a doua a Google.

Deși aveți o mulțime de pagini indexate, nu face automat ca site-urile dvs. să fie mai ridicate, dacă conținutul acestor pagini este de înaltă calitate, puteți obține un impuls în ceea ce privește SEO.

De ce și cum să blocați motorul de căutare de la indexarea conținutului

În timp ce indexarea este excelentă pentru proprietarii de site-uri web și companii, există pagini pe care nu doriți să le afișați în rezultatele căutării. ai putea risca să expui fișiere și conținut sensibile pe Internet. Fără parolele sau autentificarea, conținutul privat este expus riscului de expunere și acces neautorizat dacă roboților se dau frâu liber peste dosarele și fișierele site-ului dvs..

La începutul anilor 2000, hackerii căutarea Google folosită pentru a afișa informații despre cardul de credit de pe site-uri web cu interogări simple de căutare. Acest defect de securitate a fost folosit de mulți hackeri pentru a fura informații despre carduri de pe site-urile de comerț electronic.

Un alt recent defect de securitate s-a întâmplat anul trecut la box.com, un sistem popular de stocare în cloud. Gaura de securitate a fost expusă de Markus Neis, managerul informațiilor pentru amenințări pentru Swisscom. El a raportat că exploatările simple ale motoarelor de căutare, inclusiv Google și Bing, pot expune fișiere confidențiale și informații ale multor clienți de afaceri și persoane fizice.

Cazuri ca acestea se întâmplă online și pot provoca pierderi din vânzări și venituri pentru proprietarii de afaceri. Pentru site-urile corporative, comerțul electronic și membrii, este extrem de important să blocați mai întâi indexarea de căutare a conținutului sensibil și a fișierelor private și apoi să le puneți în spatele unui sistem decent de autentificare a utilizatorilor.

Aruncăm o privire la modul în care puteți controla ce conținut și fișiere care pot fi accesate și indexate de Google și de alte motoare de căutare.

1. Folosind Robots.txt Pentru imagini

Robots.txt este un fișier situat la rădăcina site-ului dvs., care oferă Google, Bing și alte motoare de căutare bot-uri cu instrucțiuni despre ce să vă târâți și ce nu. În timp ce robots.txt este de obicei utilizat pentru a controla traficul cu crawlere și crawler-urile web (mobile și desktop), acesta ar putea fi, de asemenea, utilizat pentru a preveni apariția imaginilor în rezultatele căutării Google..

Un fișier robots.txt al site-urilor WordPress normale ar arăta astfel:

Agent utilizator: *
Renunță: / wp-admin /
Renunță: / wp-include /

Fișierul standard robots.txt începe cu o instrucțiune pentru user-agent și un simbol al asteriscului. Asteriscul este o instrucțiune pentru toți roboții care ajung pe site-ul web să urmeze toate instrucțiunile furnizate mai jos.

Păstrați-ți botii departe de fișierele digitale specifice folosind Robot.txt

Robots.txt poate fi, de asemenea, utilizat pentru a opri ramparea motorului de căutare a fișierelor digitale, cum ar fi PDF-uri, JPEG sau MP4. Pentru a bloca căutarea cu crawlere a fișierului PDF și JPEG, acest lucru ar trebui să fie adăugat la fișierul robots.txt:

Fișiere PDF

Agent utilizator: *
Renunță: / pdfs / # Blocați directorul / pdfs /.
Nu permiteți: * .pdf $ # Blocați fișierele pdf din toate roboții. Deși este standard, funcționează pentru motoarele de căutare majore.

Imagini

User-agent: Googlebot-Image
Nu permiteți: /images/cats.jpg #Block cats.jpg imagine special pentru Googlebot.

În cazul în care doriți să blocați toate imaginile .GIF de la indexarea și afișarea în căutarea de imagini google în timp ce permiteți alte formate de imagine, cum ar fi JPEG și PNG, ar trebui să utilizați următoarele reguli:

User-agent: Googlebot-Image
Renunțare: /*.gif$

Important: Fragmentele de mai sus vor exclude pur și simplu conținutul dvs. de la indexarea de către site-uri terțe, precum Google. Ele sunt încă accesibile dacă cineva știe unde să caute. Pentru a face fișierele private astfel încât nimeni să nu le poată accesa, va trebui să utilizați o altă metodă, cum ar fi aceste pluginuri de restricție a conținutului.

Googlebot-Image poate fi utilizat pentru a bloca imaginile și o anumită extensie de imagine să apară pe căutarea de imagini Google. În cazul în care doriți să le excludeți din toate căutările Google, de ex. căutare web și imagini, este recomandat să utilizați un agent utilizator Googlebot în schimb.

Alți agenți utilizatori Google pentru diferite elemente de pe un site web includ Googlebot-Video pentru videoclipuri din aplicarea în secțiunea Google video de pe web. În mod similar, folosirea agentului utilizator Googlebot va împiedica afișarea tuturor videoclipurilor în videoclipuri Google, căutare web sau căutare web mobilă.

Roboti txt No-Index

Vă rugăm să rețineți că utilizarea Robots.txt nu este o metodă adecvată de blocare a fișierelor și conținutului sensibile sau confidențiale datorită următoarelor limitări:

  • Robots.txt poate instrui numai crawler-urile care se comportă bine; alte motoare de căutare și bot-uri neconforme ar putea pur și simplu să ignore instrucțiunile sale.
  • Robots.txt nu împiedică serverul dvs. să trimită acele pagini și fișiere către utilizatori neautorizați la cerere.
  • Motoarele de căutare ar putea încă să găsească și să indexeze pagina și conținutul pe care îl blocați, în cazul în care sunt conectate de la alte site-uri web și surse.
  • Robots.txt este accesibil oricui ar putea apoi să citească toate instrucțiunile furnizate și să acceseze direct conținutul și fișierele respective

Pentru a bloca indexarea căutării și pentru a vă proteja informațiile private mai eficient, utilizați în schimb următoarele metode.

2. Folosirea etichetei fără index pentru pagini

Utilizarea meta tag-ului fără index este o metodă adecvată și mai eficientă pentru a bloca indexarea căutării conținutului sensibil pe site-ul dvs. web. Spre deosebire de robots.txt, meta tagul fără index este plasat în o secțiune a unei pagini web cu o etichetă HTML foarte simplă:



...

Orice pagină cu această instrucțiune în antet nu va apărea în rezultatul căutării Google. Alte directive cum ar fi nofollow și notranslate pot fi, de asemenea, utilizate pentru a crawler-urilor web să nu crawleze link-urile și oferă traducerea respectivei pagini.

Puteți instrui mai multe crawler folosind mai multe meta tag-uri pe o pagină după cum urmează:



...


Există două moduri de a adăuga acest cod pe site-ul dvs. web. Prima opțiune este să creezi o temă pentru copii WordPress, apoi în funcțiile tale.php poți folosi cârligul de acțiune WordPress wp_head pentru a insera un noindex sau orice alte etichete meta. Mai jos este un exemplu despre modul în care ați face notindex la pagina de conectare.

add_action ('wp_head', funcție () {
if (is_page ('login')) {
ecou '„;
}
});

A doua opțiune este să folosiți pluginul SEO pentru a controla vizibilitatea unei pagini. De exemplu, cu Yoast SEO, puteți accesa secțiunea de setări avansate dintr-o pagină și pur și simplu alege „Nu” pentru opțiunile pentru a permite motorului de căutare să afișeze pagina:

Setarea rezultatelor căutării SEO Yoast

3. Utilizarea antetului HTTP X-Robots-Tag pentru alte fișiere

X-Robots-Tag vă oferă mai multă flexibilitate pentru a bloca indexarea căutării conținutului și fișierelor dvs. În special, atunci când este comparat cu meta tagul fără index, acesta poate fi utilizat ca răspuns antet HTTP pentru orice adresă URL. De exemplu, puteți utiliza eticheta X-Robots pentru fișiere de imagine, video și documente în cazul în care nu este posibil să utilizați metaetichetele roboților.

Poți citi Ghidul complet al etichetelor pentru roboți Google, dar iată cum puteți instrui crawler-urile să nu urmeze și să indice o imagine JPEG folosind X-Robots-Tag pe răspunsul său HTTP:

HTTP / 1.1 200 OK
Tipul conținutului: image / jpeg
Data: sâmbătă, 27 nov 2018 01:02:09 GMT
(...)
X-Robots-Tag: noindex, nofollow
(...)

Orice directive care ar putea fi utilizate cu o etichetă de roboți sunt aplicabile și unei etichete X-Roboți. În mod similar, puteți instrui mai multe roboți pentru motoarele de căutare:

HTTP / 1.1 200 OK
Data: mar, 21 sept. 2018 21:09:19 GMT
(...)
X-Robots-Tag: googlebot: nofollow
X-Robots-Tag: bingbot: noindex
X-Robots-Tag: otherbot: noindex, nofollow
(...)

Este important să rețineți că motoarele de căutare bots descoperă meta tag-urile Robots și anteturile HTTP X-Robots-Tag în timpul procesului de crawling. Așadar, dacă doriți ca acești roboți să urmeze instrucțiunile dvs. să nu urmeze sau să indice niciun conținut și documente confidențiale, nu trebuie să opriți accesul la aceste pagini și fișiere URL.

Dacă sunt blocate să se târască folosind fișierul robots.txt, instrucțiunile dvs. de indexare nu vor fi citite și, astfel, ignorate. Drept urmare, în cazul în care alte site-uri web linkează către conținutul și documentele dvs., acestea vor fi în continuare indexate de Google și de alte motoare de căutare.

4. Utilizarea regulilor .htaccess pentru serverele Apache

Puteți adăuga, de asemenea, antetul HTTP X-Robots-Tag la fișierul dvs. .htaccess pentru a bloca crawler-urile din paginile de indexare și conținutul digital al site-ului dvs. web găzduit pe un server Apache. Spre deosebire de meta tag-urile fără index, regulile .htaccess pot fi aplicate unui întreg site web sau unui anumit folder. Suportul său de expresii obișnuite oferă o flexibilitate și mai mare pentru a vă orienta mai multe tipuri de fișiere simultan.

Pentru a bloca Googlebot, Bing și Baidu de la accesarea cu crawlere a unui site web sau a unui director special, utilizați următoarele reguli:

ReescrieEngine Activat
RewriteCond% {HTTP_USER_AGENT} (googlebot | bingbot | Baiduspider) [NC]
RewriteRule. * - [R = 403, L]

Pentru a bloca indexarea căutării tuturor fișierelor .txt, .jpg, .jpeg, .pdf pe întregul site web, adăugați următorul fragment:


Set antet X-Robots-Tag "noindex, nofollow"

5. Folosirea autentificării paginii cu numele de utilizator și parola

Metodele de mai sus vor împiedica conținutul și documentele dvs. private să apară în rezultatele căutării Google. Cu toate acestea, orice utilizator cu link-ul poate ajunge la conținutul dvs. și accesa fișierele dvs. direct. Pentru securitate, vă recomandăm să configurați autentificarea corespunzătoare cu numele de utilizator și parola, precum și permisiunea de acces la rol.

Utilizarea autentificării paginii

De exemplu, paginile care includ profiluri personale ale personalului și documente sensibile la care nu trebuie accesat utilizatorii anonimi ar trebui să fie împinse în spatele unei porți de autentificare. Așadar, chiar și atunci când utilizatorii reușesc cumva să găsească paginile, li se va solicita date de acreditare înainte de a putea verifica conținutul.

WordPress Parola Protect

Pentru a face acest lucru cu WordPress, setați pur și simplu vizibilitatea unei postări protectie cu parola. În acest fel puteți selecta o parolă necesară pentru a vizualiza conținutul de pe pagina respectivă. Acest lucru este destul de ușor de făcut pe bază de post / pagină. Pentru confidențialitate mai amplă a site-ului, încercați să adăugați unul dintre aceste plugin-uri de membru WordPress la site-ul dvs. web.

Vă rugăm să rețineți că paginile protejate prin parolă sau ascunse de la motoarele de căutare și vizitatorii nu protejează neapărat documentele, videoclipurile și imaginile atașate conținutului său. Pentru o protecție reală a încărcărilor dvs. de fișiere WordPress, un serviciu premium, cum ar fi Prevenirea accesului direct de aur, este foarte recomandat.

Concluzie

În cursa de a fi pe pagina unu din Google, proprietarii de afaceri ar putea să nu țină seama de ce pot vedea motoarele de căutare. Indiferent dacă blocați roboții dintr-un anumit fișier, ascundeți o pagină de conectare personalizată sau protejați parolele directoarele de utilizator private … există o mulțime de pagini care trebuie luate în considerare fără indexare când vine vorba de motoarele de căutare.

Aveți întrebări cu privire la excluderea conținutului din rezultatele căutării? Sau să împiedice indexarea anumitor fișiere? Lasă un comentariu mai jos!

Jeffrey Wilson Administrator
Sorry! The Author has not filled his profile.
follow me
    Like this post? Please share to your friends:
    Adblock
    detector
    map