Jak wykluczyć zawartość i pliki WordPress z wyszukiwarki Google

Czasami musisz wykluczyć określone treści lub pliki WordPress z indeksowania w wynikach wyszukiwania Google. Indeks lub „indeksowanie” przed pojawieniem się Google i innej wyszukiwarki było słowem kojarzonym głównie z książkami. Zwykle znajduje się na końcu większości książek i dlatego słownik Cambridge definiuje go w tym kontekście jako:


Indeks: alfabetyczna lista, na przykład wydrukowana z tyłu książki, pokazująca, na której stronie znajduje się temat, nazwa itp.

Szybko do 1995 r., Podczas boomu internetowego, mamy usługi takie jak wyszukiwarka Yahoo, a od 1997 r. Wyszukiwarka Google radykalnie zmieniła sposób wyszukiwania i uzyskiwania dostępu do informacji w Internecie.

Według ankiety przeprowadzonej w styczniu 2018 r. W Internecie znajduje się 1 805 260 010 (ponad 1,8 mld) stron internetowych, a wiele z tych stron w ogóle nie ma odwiedzających.

Co to jest Indeksowanie Google?

Istnieją różne wyszukiwarki z innym formatem indeksowania, ale popularne wyszukiwarki to Google, Bing, a dla osób dbających o prywatność, duckduckgo.

Indeksowanie Google ogólnie odnosi się do procesu dodawania nowych stron internetowych, w tym treści cyfrowych, takich jak dokumenty, filmy i obrazy, oraz przechowywania ich w bazie danych. Innymi słowy, aby treść witryny pojawiła się w wynikach wyszukiwania Google, należy ją najpierw zapisać w indeksie Google.

Co to jest indeksowanie Google?

Google jest w stanie zaindeksować wszystkie te cyfrowe strony i treści za pomocą swoich pająków, robotów lub botów, które wielokrotnie indeksują różne witryny w Internecie. Te roboty i roboty indeksujące postępują zgodnie z instrukcjami właścicieli witryn dotyczącymi tego, co należy indeksować, a co należy zignorować podczas indeksowania.

Dlaczego strony internetowe muszą być indeksowane?

W obecnej erze cyfrowej poruszanie się w miliardach witryn internetowych dotyczących określonego tematu i treści jest prawie niemożliwe. O wiele łatwiej będzie, jeśli znajdzie się narzędzie, które pokaże nam, które witryny są godne zaufania, które treści są dla nas przydatne i odpowiednie. Właśnie dlatego Google istnieje i szereguje witryny w wynikach wyszukiwania.

Indeksowanie staje się nieodzowną częścią funkcjonowania wyszukiwarek, a zwłaszcza Google. Pomaga zidentyfikować słowa i wyrażenia, które najlepiej opisują stronę, i ogólnie przyczynia się do rankingu strony i witryny. Aby pojawiła się na pierwszej stronie Google Twojej witryny, w tym stron internetowych i plików cyfrowych, takich jak filmy, obrazy i dokumenty, najpierw trzeba ją zindeksować.

Indeksowanie jest niezbędnym krokiem do tego, aby witryny miały dobrą pozycję w wyszukiwarkach, a zwłaszcza w Google. Korzystając ze słów kluczowych, witryny można lepiej zobaczyć i odkryć po zaindeksowaniu i uszeregowaniu przez wyszukiwarki. To otwiera drzwi dla większej liczby odwiedzających, subskrybentów i potencjalnych klientów Twojej witryny i firmy.

Najlepszym miejscem do ukrycia zwłok jest druga strona Google.

Mimo że wiele zaindeksowanych stron nie powoduje automatycznie wyższej pozycji w witrynach, jeśli zawartość tych stron jest również wysokiej jakości, można uzyskać poprawę pod względem SEO.

Dlaczego i jak zablokować wyszukiwarkę przed indeksowaniem treści

Chociaż indeksowanie jest świetne dla właścicieli witryn i firm, istnieją strony, które mogą nie chcieć pojawiać się w wynikach wyszukiwania. możesz także ryzykować ujawnienie poufnych plików i treści w Internecie. Bez haseł i uwierzytelnienia prywatne treści są narażone na ujawnienie i nieautoryzowany dostęp, jeśli boty otrzymają bezpłatne kontrolowanie folderów i plików na stronie.

Na początku 2000 roku hakerzy użył wyszukiwarki Google do wyświetlenia informacji o karcie kredytowej ze stron internetowych z prostymi zapytaniami wyszukiwania. Tę lukę w zabezpieczeniach wielu hakerów wykorzystało do kradzieży informacji o kartach w witrynach handlu elektronicznego.

Kolejne ostatnie luka bezpieczeństwa wydarzyła się w zeszłym roku dla box.com, popularny system przechowywania w chmurze. Luka w zabezpieczeniach została ujawniona przez Markusa Neisa, menedżera wywiadu zagrożeń dla Swisscom. Poinformował, że proste exploity wyszukiwarek, w tym Google i Bing, mogą ujawniać poufne pliki i informacje wielu klientów biznesowych i indywidualnych.

Takie przypadki zdarzają się w Internecie i mogą powodować utratę sprzedaży i przychodów właścicieli firm. W przypadku witryn korporacyjnych, e-commerce i członkowskich ważne jest, aby najpierw zablokować indeksowanie wrażliwych treści i prywatnych plików, a następnie prawdopodobnie umieścić je za porządnym systemem uwierzytelniania użytkowników.

Rzućmy okiem na to, jak możesz kontrolować zawartość i pliki, które mogą być indeksowane i indeksowane przez Google i inne wyszukiwarki.

1. Korzystanie z pliku Robots.txt dla obrazów

Robots.txt to plik znajdujący się w katalogu głównym witryny, który udostępnia robotom Google, Bing i innym wyszukiwarkom instrukcje dotyczące tego, co należy zaindeksować, a co nie. Podczas gdy plik robots.txt jest zwykle używany do kontrolowania ruchu indeksującego i przeszukiwaczy internetowych (mobilnych vs stacjonarnych), może być również wykorzystywany do zapobiegania pojawianiu się obrazów w wynikach wyszukiwania Google.

Plik robots.txt zwykłych stron WordPress wyglądałby tak:

Agent użytkownika: *
Disallow: / wp-admin /
Disallow: / wp-zawiera /

Standardowy plik robots.txt zaczyna się od instrukcji dla klienta użytkownika i symbolu gwiazdki. Gwiazdka jest instrukcją dla wszystkich botów przybywających na stronę, aby postępowały zgodnie z instrukcjami podanymi poniżej.

Trzymaj boty z dala od określonych plików cyfrowych za pomocą Robot.txt

Pliku robots.txt można również użyć do zatrzymania indeksowania plików cyfrowych, takich jak pliki PDF, JPEG lub MP4, w wyszukiwarkach. Aby zablokować przeszukiwanie plików PDF i JPEG, należy to dodać do pliku robots.txt:

Pliki PDF

Agent użytkownika: *
Disallow: / pdfs / # Zablokuj katalog / pdfs /.
Zabroń: * .pdf $ # Blokuj pliki pdf ze wszystkich botów. Choć niestandardowy, działa w przypadku większości wyszukiwarek.

Obrazy

Klient użytkownika: Googlebot-Image
Disallow: /images/cats.jpg #Block cats.jpg obraz specjalnie dla Googlebota.

Jeśli chcesz zablokować indeksowanie i wyświetlanie wszystkich obrazów .GIF w wyszukiwaniu obrazów Google, a jednocześnie zezwolić na inne formaty obrazów, takie jak JPEG i PNG, powinieneś zastosować następujące reguły:

Klient użytkownika: Googlebot-Image
Disallow: /*.gif$

Ważny: Powyższe fragmenty po prostu wykluczą indeksowanie treści przez strony osób trzecich, takich jak Google. Są nadal dostępne, jeśli ktoś wie, gdzie szukać. Aby ustawić prywatność plików, aby nikt nie miał do nich dostępu, należy użyć innej metody, takiej jak te wtyczki ograniczające zawartość.

Obraz Googlebot może być używany do blokowania obrazów i określonego rozszerzenia obrazu przed wyświetlaniem w wyszukiwarce obrazów Google. Jeśli chcesz wykluczyć je ze wszystkich wyszukiwań w Google, np. wyszukiwarka internetowa i obrazy, zaleca się zamiast tego użyć klienta użytkownika Googlebot.

Inne aplikacje klienckie Google dla różnych elementów witryny obejmują Googlebot-Video dla filmów wideo z aplikacji w sekcji Google wideo w Internecie. Podobnie korzystanie z klienta użytkownika Googlebot zablokuje wyświetlanie wszystkich filmów wideo w Google, wyszukiwaniu internetowym lub wyszukiwaniu mobilnym.

Robots txt Bez indeksu

Należy pamiętać, że korzystanie z pliku Robots.txt nie jest odpowiednią metodą blokowania poufnych lub poufnych plików i treści z powodu następujących ograniczeń:

  • Robots.txt może instruować tylko dobrze zachowujące się roboty. inne niezgodne wyszukiwarki i boty mogą po prostu zignorować jego instrukcje.
  • Robots.txt nie powstrzymuje twojego serwera przed wysyłaniem tych stron i plików do nieautoryzowanych użytkowników na żądanie.
  • Wyszukiwarki mogą nadal znajdować i indeksować stronę i treść, które blokujesz, na wypadek, gdyby były powiązane z innymi witrynami i źródłami.
  • Plik Robots.txt jest dostępny dla każdego, kto może przeczytać wszystkie dostarczone instrukcje i uzyskać bezpośredni dostęp do tych treści i plików

Aby skuteczniej zablokować indeksowanie wyszukiwania i chronić swoje prywatne informacje, użyj następujących metod.

2. Korzystanie z metatagu bez indeksu dla stron

Korzystanie z metatagu no-index jest właściwą i skuteczniejszą metodą blokowania indeksowania wrażliwych treści w Twojej witrynie. W przeciwieństwie do pliku robots.txt, metatag bez indeksu jest umieszczany w pliku sekcja strony z bardzo prostym znacznikiem HTML:



...

Żadna strona z tą instrukcją w nagłówku nie pojawi się w wynikach wyszukiwania Google. Inne dyrektywy takich jak nofollow i notranslate, można również powiedzieć robotom internetowym, aby nie indeksowały odpowiednio linków i oferują tłumaczenie tej strony.

Możesz poinstruować wiele robotów, używając wielu metatagów na stronie w następujący sposób:



...


Istnieją dwa sposoby dodania tego kodu do swojej witryny. Pierwszą opcją jest utworzenie motywu podrzędnego WordPress, a następnie w funkcjach. Php możesz użyć haka czynności WordPress wp_head, aby wstawić noindex lub inne metatagi. Poniżej znajduje się przykład tego, w jaki sposób możesz nieindex do swojej strony logowania.

działanie dodatkowe („wp_head”, funkcja () {
if (is_page („login”)) {
Echo '„;
}
});

Drugą opcją jest użycie wtyczki SEO do kontrolowania widoczności strony. Na przykład dzięki Yoast SEO możesz przejść do sekcji ustawień zaawansowanych na stronie i po prostu wybrać „Nie” dla opcji umożliwiających wyszukiwarce wyświetlanie strony:

Ustawienie wyników wyszukiwania Yoast SEO

3. Używanie nagłówka HTTP X-Robots-Tag dla innych plików

X-Robots-Tag zapewnia większą elastyczność w blokowaniu indeksowania wyszukiwania treści i plików. W szczególności, w porównaniu z metatagiem bez indeksu, można go użyć jako odpowiedzi nagłówka HTTP dla dowolnych podanych adresów URL. Na przykład możesz użyć X-Robots-Tag do plików obrazów, filmów i dokumentów, w których nie można używać metatagów robotów.

Możesz czytać Pełny przewodnik Google dotyczący metatagów robotów, ale w ten sposób możesz poinstruować roboty, by nie śledziły i nie indeksowały obrazu JPEG za pomocą tagu X-Robots-Tag w odpowiedzi HTTP:

HTTP / 1.1 200 OK
Typ zawartości: image / jpeg
Data: sob., 27 listopada 2018 01:02:09 GMT
(…)
X-Robots-Tag: noindex, nofollow
(…)

Wszelkie dyrektywy, których można użyć z metatagiem robots, mają również zastosowanie do tagu X-Robots-Tag. Podobnie możesz poinstruować wiele botów wyszukiwarek:

HTTP / 1.1 200 OK
Data: wtorek, 21 września 2018 21:09:19 GMT
(…)
X-Robots-Tag: googlebot: nofollow
X-Robots-Tag: bingbot: noindex
X-Robots-Tag: otherbot: noindex, nofollow
(…)

Należy zauważyć, że boty wyszukiwarek podczas procesu indeksowania wykrywają metatagi Robots i nagłówki HTTP X-Robots-Tag. Jeśli więc chcesz, aby te boty postępowały zgodnie z twoją instrukcją, aby nie śledzić ani nie indeksować żadnych poufnych treści i dokumentów, nie możesz zatrzymać indeksowania stron i plików URL.

Jeśli nie można ich zaindeksować przy użyciu pliku robots.txt, instrukcje dotyczące indeksowania nie zostaną odczytane, a więc zignorowane. W rezultacie, jeśli inne strony internetowe zawierają linki do twoich treści i dokumentów, nadal będą indeksowane przez Google i inne wyszukiwarki.

4. Korzystanie z reguł .htaccess dla serwerów Apache

Możesz również dodać nagłówek HTTP X-Robots-Tag do pliku .htaccess, aby zablokować przeszukiwacze przed indeksowaniem stron i cyfrowymi treściami Twojej witryny hostowanej na serwerze Apache. W przeciwieństwie do metatagów bez indeksu, reguły .htaccess można zastosować do całej witryny lub określonego folderu. Jego obsługa wyrażeń regularnych zapewnia jeszcze większą elastyczność, umożliwiając jednoczesne kierowanie na wiele typów plików.

Aby zablokować Googlebotowi, Bingowi i Baidu indeksowanie strony internetowej lub specjalnego katalogu, użyj następujących zasad:

RewriteEngine On
RewriteCond% {HTTP_USER_AGENT} (googlebot | bingbot | Baiduspider) [NC]
RewriteRule. * - [R = 403, L]

Aby zablokować indeksowanie wyszukiwania wszystkich plików .txt, .jpg, .jpeg, .pdf w całej witrynie, dodaj następujący fragment:


Zestaw nagłówków X-Robots-Tag „noindex, nofollow”

5. Korzystanie z uwierzytelniania strony przy użyciu nazwy użytkownika i hasła

Powyższe metody zapobiegają pojawianiu się prywatnych treści i dokumentów w wynikach wyszukiwania Google. Jednak każdy użytkownik mający link może uzyskać dostęp do treści i uzyskać bezpośredni dostęp do plików. Ze względów bezpieczeństwa wysoce zalecane jest skonfigurowanie prawidłowego uwierzytelniania przy użyciu nazwy użytkownika i hasła, a także uprawnień dostępu do roli.

Korzystanie z uwierzytelniania strony

Na przykład strony zawierające osobiste profile pracowników i poufne dokumenty, do których anonimowi użytkownicy nie mogą uzyskać dostępu, powinny zostać umieszczone za bramą uwierzytelniania. Nawet jeśli użytkownicy jakoś znajdą strony, zostaną poproszeni o podanie poświadczeń, zanim będą mogli sprawdzić zawartość.

WordPress Password Protect

Aby to zrobić za pomocą WordPress, wystarczy ustawić widoczność posta na hasło chronione. W ten sposób możesz wybrać hasło wymagane do wyświetlenia treści na tej stronie. Jest to dość łatwe do zrobienia w przeliczeniu na post / stronę. Aby uzyskać bardziej kompleksową prywatność witryny, spróbuj dodać jedną z tych wtyczek członkowskich WordPress do swojej witryny.

Należy pamiętać, że chronione hasłem lub ukryte strony wyszukiwarek i odwiedzających niekoniecznie chronią dokumenty, filmy i obrazy dołączone do ich treści. Dla prawdziwej ochrony przesyłanych plików WordPress wysoce zalecana jest usługa premium, taka jak Prevent Direct Access Gold.

Wniosek

W wyścigu na pierwszej stronie Google właściciele firm mogą nie brać pod uwagę tego, co mogą zobaczyć wyszukiwarki. Niezależnie od tego, czy blokujesz boty z określonego pliku, ukrywasz niestandardową stronę logowania, czy chronisz prywatne katalogi użytkowników hasłem… istnieje wiele stron, które można uznać za brak indeksowania, jeśli chodzi o wyszukiwarki.

Czy masz pytania dotyczące wykluczania treści z wyników wyszukiwania? Lub zapobieganie indeksowaniu niektórych plików? Pozostaw komentarz poniżej!

Jeffrey Wilson Administrator
Sorry! The Author has not filled his profile.
follow me