Como excluir conteúdo do WordPress da Pesquisa do Google

Como excluir conteúdo e arquivos do WordPress da Pesquisa do Google

Às vezes, você precisa excluir o conteúdo ou arquivos específicos do WordPress da indexação nos resultados de pesquisa do Google. Índice, ou “indexação” antes do surgimento do Google e de outros mecanismos de pesquisa, era uma palavra associada principalmente a livros. Ele geralmente reside na parte de trás da maioria dos livros, e é por isso que o dicionário Cambridge o define neste contexto como:


Índice: uma lista alfabética, como a impressa na parte de trás de um livro, mostrando em qual página um assunto, nome etc. está.

Avançando para 1995, durante o boom da Internet, temos serviços como o mecanismo de busca do Yahoo e, em 1997, a pesquisa no Google mudou drasticamente a maneira como pesquisamos e acessamos informações na Internet..

De acordo com uma pesquisa realizada em janeiro de 2018, existem 1.805.260.010 (mais de 1,8 bilhão) sites na Internet, e muitos desses sites não recebem visitantes..

O que é indexação do Google?

Existem diferentes mecanismos de pesquisa com um formato diferente de indexação, mas os populares mecanismos de pesquisa incluem Google, Bing e, para pessoas que se preocupam com a privacidade, duckduckgo.

A indexação do Google geralmente se refere ao processo de adicionar novas páginas da Web, incluindo conteúdo digital, como documentos, vídeos e imagens, e armazená-las em seu banco de dados. Em outras palavras, para que o conteúdo do seu site apareça nos resultados de pesquisa do Google, eles primeiro precisam ser armazenados no índice do Google.

O que é a indexação do Google?

O Google pode indexar todas essas páginas e conteúdos digitais usando suas aranhas, rastreadores ou bots que rastreiam repetidamente diferentes sites da Internet. Esses robôs e rastreadores seguem as instruções dos proprietários do site sobre o que rastrear e o que deve ser ignorado durante o rastreamento.

Por que os sites precisam ser indexados?

Nesta era da era digital, é quase impossível navegar por bilhões de sites que encontram um tópico e conteúdo específicos. Será muito mais fácil se houver uma ferramenta para nos mostrar quais sites são confiáveis, qual conteúdo é útil e relevante para nós. É por isso que o Google existe e classifica sites nos resultados de pesquisa.

A indexação se torna uma parte indispensável de como os mecanismos de pesquisa em geral e o Google em particular funcionam. Ajuda a identificar palavras e expressões que melhor descrevem uma página e contribui de maneira geral para a classificação de páginas e sites. Para aparecer na primeira página do Google, seu site, incluindo páginas da web e arquivos digitais, como vídeos, imagens e documentos, primeiro precisa ser indexado.

A indexação é uma etapa prévia para que os sites tenham uma boa classificação nos mecanismos de pesquisa em geral e no Google em particular. Usando palavras-chave, os sites podem ser melhor visualizados e descobertos após serem indexados e classificados pelos mecanismos de pesquisa. Isso abre portas para mais visitantes, assinantes e clientes em potencial para seu site e negócios.

O melhor lugar para esconder um corpo morto é a página dois do Google.

Embora ter muitas páginas indexadas não aumente automaticamente a classificação dos seus sites, se o conteúdo dessas páginas for de alta qualidade, você poderá obter um impulso em termos de SEO.

Por que e como bloquear o mecanismo de pesquisa da indexação de conteúdo

Embora a indexação seja excelente para proprietários de sites e empresas, há páginas que talvez você não queira que apareçam nos resultados de pesquisa. você também pode arriscar expor arquivos e conteúdo confidenciais pela Internet. Sem senhas ou autenticação, o conteúdo privado corre o risco de exposição e acesso não autorizado se os robôs tiverem liberdade sobre as pastas e arquivos do site.

No início dos anos 2000, hackers usou a pesquisa do Google para exibir informações do cartão de crédito de sites com consultas de pesquisa simples. Essa falha de segurança foi usada por muitos hackers para roubar informações de cartões de sites de comércio eletrônico.

Outra recente falha de segurança aconteceu no ano passado para box.com, um sistema de armazenamento em nuvem popular. A brecha na segurança foi exposta por Markus Neis, gerente de inteligência de ameaças da Swisscom. Ele relatou que explorações simples de mecanismos de pesquisa, incluindo Google e Bing, poderiam expor arquivos e informações confidenciais de muitos clientes comerciais e individuais.

Casos como esses acontecem on-line e podem causar perda de vendas e receita para os empresários. Para sites corporativos, de comércio eletrônico e associação, é extremamente importante primeiro bloquear a indexação de pesquisa de conteúdo confidencial e arquivos privados e, em seguida, provavelmente colocá-los atrás de um sistema decente de autenticação de usuário..

Vamos dar uma olhada em como você pode controlar quais conteúdos e arquivos podem ser rastreados e indexados pelo Google e outros mecanismos de pesquisa.

1. Usando o Robots.txt para imagens

Robots.txt é um arquivo localizado na raiz do seu site, que fornece ao Google, Bing e outros mecanismos de pesquisa robôs sobre o que rastrear e o que não rastrear. Embora o robots.txt seja geralmente usado para controlar o tráfego de rastreamento e os rastreadores da Web (celular x computador), ele também pode ser usado para impedir que as imagens apareçam nos resultados de pesquisa do Google.

Um arquivo robots.txt de sites normais do WordPress seria assim:

Agente de usuário: *
Não permitir: / wp-admin /
Não permitir: / wp-includes /

O arquivo robots.txt padrão começa com uma instrução para user-agent e um símbolo de asterisco. O asterisco é uma instrução para todos os bots que chegam no site e sigam todas as instruções fornecidas abaixo.

Mantenha os robôs longe de arquivos digitais específicos usando o Robot.txt

O Robots.txt também pode ser usado para interromper o rastreamento de arquivos digitais no mecanismo de pesquisa, como PDFs, JPEG ou MP4. Para bloquear o rastreamento de pesquisa de arquivos PDF e JPEG, isso deve ser adicionado ao arquivo robots.txt:

Arquivos PDF

Agente de usuário: *
Não permitir: / pdfs / # Bloquear o diretório / pdfs /.
Não permitir: * .pdf $ # Bloquear arquivos PDF de todos os bots. Embora não seja padrão, ele funciona para os principais mecanismos de pesquisa.

Imagens

Agente do usuário: Googlebot-Image
Não permitir: /images/cats.jpg #Block cats.jpg imagem especificamente para o Googlebot.

Caso você queira impedir que todas as imagens .GIF sejam indexadas e exibidas na pesquisa de imagens do google, permitindo outros formatos de imagem, como JPEG e PNG, você deve usar as seguintes regras:

Agente do usuário: Googlebot-Image
Não permitir: /*.gif$

Importante: Os snippets acima simplesmente excluirão seu conteúdo da indexação de sites de terceiros, como o Google. Eles ainda estão acessíveis se alguém souber onde procurar. Para tornar os arquivos privados para que ninguém possa acessá-los, você precisará usar outro método, como esses plug-ins de restrição de conteúdo.

O Googlebot-Image pode ser usado para impedir que imagens e uma extensão de imagem específica apareçam na pesquisa de imagens do Google. Caso você queira excluí-los de todas as pesquisas do Google, por exemplo, pesquisa na web e imagens, é recomendável usar um agente de usuário do Googlebot.

Outros agentes de usuário do Google para diferentes elementos em um site incluem o Googlebot-Video para vídeos, na aplicação na seção de vídeos do Google na web. Da mesma forma, o uso do agente do usuário do Googlebot impedirá a exibição de todos os vídeos nos vídeos do Google, pesquisa na Web ou pesquisa na Web para dispositivos móveis.

Robôs txt sem índice

Lembre-se de que o uso do Robots.txt não é um método apropriado para bloquear arquivos e conteúdos sensíveis ou confidenciais devido às seguintes limitações:

  • Robots.txt só pode instruir rastreadores bem comportados; outros mecanismos de pesquisa e bots não compatíveis poderiam simplesmente ignorar suas instruções.
  • O Robots.txt não impede o servidor de enviar essas páginas e arquivos para usuários não autorizados, mediante solicitação.
  • Os mecanismos de pesquisa ainda podem encontrar e indexar a página e o conteúdo que você bloqueia, caso estejam vinculados a outros sites e fontes.
  • O Robots.txt pode ser acessado por qualquer pessoa que possa ler todas as instruções fornecidas e acessar diretamente o conteúdo e os arquivos

Para bloquear a indexação de pesquisa e proteger suas informações privadas com mais eficiência, use os seguintes métodos.

2. Usando Meta Tag sem índice para páginas

O uso da metatag sem índice é um método adequado e mais eficaz para bloquear a indexação de pesquisa de conteúdo confidencial em seu site. Diferentemente do robots.txt, a metatag sem índice é colocada no diretório seção de uma página da web com uma tag HTML muito simples:



...

Qualquer página com esta instrução no cabeçalho não aparecerá no resultado da pesquisa do Google. Outras diretrizes como nofollow e notranslate também podem ser usados ​​para informar aos rastreadores da web para não rastrear os links e oferecer a tradução dessa página, respectivamente.

Você pode instruir vários rastreadores usando várias metatags em uma página da seguinte maneira:



...


Existem duas maneiras de adicionar esse código ao seu site. Sua primeira opção é criar um tema filho do WordPress e, em seu functions.php, você pode usar o gancho de ação wp_head do WordPress para inserir um noindex ou qualquer outra meta tag. Abaixo está um exemplo de como você indexaria sua página de login.

add_action ('wp_head', function () {
if (is_page ('login')) {
eco '';
}
});

Sua segunda opção é usar o plug-in SEO para controlar a visibilidade de uma página. Por exemplo, com o Yoast SEO, você pode ir para a seção de configurações avançadas em uma página e simplesmente escolher “Não” para as opções que permitem que o mecanismo de pesquisa mostre a página:

Configuração de resultados de pesquisa do Yoast SEO

3. Usando o cabeçalho HTTP X-Robots-Tag para outros arquivos

O X-Robots-Tag oferece mais flexibilidade para bloquear a indexação de pesquisa de seu conteúdo e arquivos. Em particular, quando comparado à metatag sem índice, ela pode ser usada como resposta do cabeçalho HTTP para qualquer URL. Por exemplo, você pode usar o X-Robots-Tag para arquivos de imagem, vídeo e documento em que não é possível usar as meta tags do robô.

Você pode ler Guia completo de metatags de robôs do Google, mas aqui está como você pode instruir os rastreadores a não seguir e indexar uma imagem JPEG usando a tag X-Robots na resposta HTTP:

HTTP / 1.1 200 OK
Tipo de conteúdo: image / jpeg
Data: sábado, 27 de novembro de 2018 01:02:09 GMT
(…)
X-Robots-Tag: noindex, nofollow
(…)

Quaisquer diretivas que possam ser usadas com uma metatag de robôs também são aplicáveis ​​a uma X-Robots-Tag. Da mesma forma, você também pode instruir vários bots de mecanismo de pesquisa:

HTTP / 1.1 200 OK
Data: terça-feira, 21 de setembro de 2018 21:09:19 GMT
(…)
X-Robots-Tag: googlebot: nofollow
X-Robots-Tag: bingbot: noindex
X-Robots-Tag: otherbot: noindex, nofollow
(…)

É importante observar que os robôs dos mecanismos de pesquisa descobrem as meta tags Robots e os cabeçalhos HTTP X-Robots-Tag durante o processo de rastreamento. Portanto, se você deseja que esses robôs sigam suas instruções para não seguir ou indexar conteúdo e documentos confidenciais, não deve impedir o rastreamento desses URLs de página e arquivo.

Se eles forem impedidos de rastrear usando o arquivo robots.txt, suas instruções sobre indexação não serão lidas e, portanto, ignoradas. Como resultado, caso outros sites tenham links para seu conteúdo e documentos, eles ainda serão indexados pelo Google e outros mecanismos de pesquisa.

4. Usando regras .htaccess para servidores Apache

Você também pode adicionar o cabeçalho HTTP X-Robots-Tag ao seu arquivo .htaccess para impedir que os rastreadores indexem páginas e conteúdos digitais do seu site hospedado em um servidor Apache. Diferentemente das metatags sem índice, as regras .htaccess podem ser aplicadas a um site inteiro ou a uma pasta específica. Seu suporte a expressões regulares oferece uma flexibilidade ainda maior para você segmentar vários tipos de arquivos de uma só vez.

Para impedir que o Googlebot, Bing e Baidu rastreiem um site ou diretório especial, use as seguintes regras:

RewriteEngine On
RewriteCond% {HTTP_USER_AGENT} (googlebot | bingbot | Baiduspider) [NC]
RewriteRule. * - [R = 403, L]

Para bloquear a indexação de pesquisa de todos os arquivos .txt, .jpg, .jpeg, .pdf em todo o site, adicione o seguinte snippet:


Conjunto de cabeçalho X-Robots-Tag "noindex, nofollow"

5. Usando a autenticação de página com nome de usuário e senha

Os métodos acima impedirão que seu conteúdo e documentos particulares apareçam nos resultados de pesquisa do Google. No entanto, qualquer usuário com o link pode acessar seu conteúdo e acessar seus arquivos diretamente. Por segurança, é altamente recomendável que você configure a autenticação adequada com nome de usuário e senha, bem como permissão de acesso à função.

Usando autenticação de página

Por exemplo, páginas que incluem perfis pessoais da equipe e documentos confidenciais que não devem ser acessados ​​por usuários anônimos devem ser colocadas atrás de um portão de autenticação. Portanto, mesmo quando os usuários conseguirem encontrar as páginas, serão solicitadas credenciais antes que possam verificar o conteúdo.

Senha WordPress Proteger

Para fazer isso com o WordPress, basta definir a visibilidade de uma postagem como protegido por senha. Dessa forma, você pode selecionar uma senha necessária para visualizar o conteúdo dessa página. Isso é bastante fácil de fazer por postagem / página. Para uma privacidade mais abrangente do site, tente adicionar um desses plugins de associação do WordPress ao seu site.

Lembre-se de que páginas protegidas por senha ou ocultas dos mecanismos de pesquisa e visitantes não protegem necessariamente os documentos, vídeos e imagens anexados ao seu conteúdo. Para uma proteção real dos seus uploads de arquivos do WordPress, é altamente recomendável um serviço premium como Prevent Direct Access Gold.

Conclusão

Na corrida para estar na página um do Google, os empresários podem não levar em consideração o que os mecanismos de pesquisa podem ver. Esteja você bloqueando os bots de um arquivo específico, ocultando uma página de login personalizada ou protegendo com senha os diretórios de usuários particulares … há muitas páginas para considerar a não indexação quando se trata de mecanismos de pesquisa.

Você tem alguma dúvida sobre a exclusão de conteúdo dos resultados da pesquisa? Ou impedindo que certos arquivos sejam indexados? Deixe um comentário abaixo!

Jeffrey Wilson Administrator
Sorry! The Author has not filled his profile.
follow me
    Like this post? Please share to your friends:
    Adblock
    detector
    map