WordPressのコンテンツとファイルをGoogle検索から除外する方法

場合によっては、特定のWordPressコンテンツまたはファイルをGoogle検索結果のインデックスに登録しないようにする必要があります。 Googleやその他の検索エンジンが登場する前のインデックス、つまり「インデックス作成」は、主に本に関連した言葉でした。それは通常ほとんどの本の後ろにあります、そしてそれがケンブリッジ辞書がこの文脈でそれを次のように定義する理由です:


インデックス: 書籍の巻末に印刷されている、件名や名前などが記載されているアルファベット順のリスト.

1995年に早送り、インターネットのブームの間に、Yahooの検索エンジンのようなサービスがあり、1997年にGoogle検索は、インターネット上の情報の検索およびアクセス方法を劇的に変えました.

2018年1月に行われた調査によると、インターネット上には1,805,260,010(18億以上)のWebサイトがあり、これらのWebサイトの多くはまったく訪問者を獲得していません.

Googleインデックスとは?

インデックス作成の形式が異なるさまざまな検索エンジンがありますが、人気のある検索エンジンには、Google、Bing、プライバシーを重視する個人向けのduckduckgoなどがあります。.

Googleのインデックス作成は、通常、ドキュメント、ビデオ、画像などのデジタルコンテンツを含む新しいWebページを追加し、それらをデータベースに保存するプロセスを指します。つまり、サイトのコンテンツをGoogle検索結果に表示するには、まずコンテンツをGoogleインデックスに保存する必要があります.

Googleインデックスとは何ですか?

Googleは、インターネット内のさまざまなWebサイトを繰り返しクロールするスパイダー、クローラー、またはボットを使用して、これらすべてのデジタルページとコンテンツをインデックスに登録できます。これらのボットとクローラーは、クロールする対象とクロール中に無視する必要があるものに関するWebサイト所有者の指示に従います.

Webサイトをインデックスに登録する必要がある理由?

このデジタル時代の時代では、特定のトピックやコンテンツを見つけるために何十億ものウェブサイトをナビゲートすることはほとんど不可能です。どのサイトが信頼できるか、どのコンテンツが有用で関連性があるかを示すツールがあれば、はるかに簡単になります。そのため、Googleが存在し、検索結果でウェブサイトをランク付けしています.

インデックス作成は、一般的な検索エンジン、特にGoogleの動作に不可欠な要素になります。これは、ページを最もよく表す単語や表現を特定するのに役立ち、全体的にページおよびWebサイトのランキングに貢献します。 Googleの最初のページに表示するには、Webページや、ビデオ、画像、ドキュメントなどのデジタルファイルを含む、最初にインデックスを作成する必要があります.

インデックス作成は、ウェブサイトが検索エンジン全般、特にGoogleで上位にランクインするための必須のステップです。キーワードを使用すると、検索エンジンによってインデックスに登録されてランク付けされた後、サイトをより見やすく発見することができます。これにより、より多くのビジター、サブスクライバー、およびWebサイトやビジネスの潜在的な顧客に門戸が開かれます。.

死体を隠すのに最適な場所はGoogleの2ページです.

インデックスに登録されたページがたくさんあるからといって、サイトが自動的に上位にランクされるわけではありませんが、それらのページのコンテンツも高品質であると、SEOの点で向上することがあります。.

コンテンツのインデックス作成を検索エンジンからブロックする理由と方法

インデックス作成はウェブサイトやビジネスオーナーには最適ですが、検索結果に表示したくないページがある場合があります。機密性の高いファイルやコンテンツをインターネット経由で公開するリスクもあります。パスワードや認証がないと、ボットがあなたのウェブサイトのフォルダやファイルに対して無料の手綱を与えられた場合、プライベートなコンテンツが公開されて不正アクセスされる危険があります。.

2000年代初頭、ハッカーは Google検索を使用してクレジットカード情報を表示 単純な検索クエリを使用するWebサイトから。このセキュリティ欠陥は、eコマースWebサイトからカード情報を盗むために多くのハッカーによって使用されました.

別の最近 昨年、box.comにセキュリティ上の欠陥が発生しました, 人気のクラウドストレージシステム。このセキュリティホールは、Swisscomの脅威インテリジェンスマネージャーであるMarkus Neisによって公開されました。彼は、GoogleやBingなどの検索エンジンの単純な悪用により、多くの企業や個人の顧客の機密ファイルや情報が漏洩する可能性があると報告しました.

このようなケースはオンラインで発生し、ビジネスオーナーの売上と収益に損失をもたらす可能性があります。企業、eコマース、およびメンバーシップのWebサイトでは、機密コンテンツとプライベートファイルの検索インデックス作成を最初にブロックし、おそらくそれらをまともなユーザー認証システムの背後に置くことが非常に重要です。.

Googleや他の検索エンジンでクロールしてインデックスに登録できるコンテンツとファイルを制御する方法を見てみましょう.

1.画像にRobots.txtを使用する

Robots.txtは、サイトのルートにあるファイルで、Google、Bingなどの検索エンジンボットに、クロールする対象としないものに関する指示を提供します。 robots.txtは通常、クロールトラフィックとWeb(モバイルvsデスクトップ)クローラーを制御するために使用されますが、Google検索結果に画像が表示されないようにするためにも使用できます。.

通常のWordPress Webサイトのrobots.txtファイルは次のようになります。

ユーザーエージェント: *
禁止:/ wp-admin /
禁止:/ wp-includes /

標準のrobots.txtファイルは、ユーザーエージェントの指示とアスタリスク記号で始まります。アスタリスクは、Webサイトに到着したすべてのボットがその下に記載されているすべての指示に従うための指示です.

Robot.txtを使用してボットを特定のデジタルファイルから遠ざける

Robots.txtは、PDF、JPEG、MP4などのデジタルファイルの検索エンジンのクロールを停止するためにも使用できます。 PDFおよびJPEGファイルの検索クロールをブロックするには、次のコードをrobots.txtファイルに追加する必要があります。

PDFファイル

ユーザーエージェント: *
禁止:/ pdfs /#/ pdfs /ディレクトリをブロック.
禁止:* .pdf $#すべてのボットからのPDFファイルをブロックします。標準ではありませんが、主要な検索エンジンで機能します.

画像

ユーザーエージェント:Googlebot-Image
Disallow:/images/cats.jpg #Googlebot専用のcats.jpgブロック画像.

JPEGやPNGなどの他の画像フォーマットを許可しながら、すべての.GIF画像がインデックスに登録されてGoogle画像検索に表示されないようにする場合は、次のルールを使用する必要があります。

ユーザーエージェント:Googlebot-Image
禁止:/*.gif$

重要: 上記のスニペットは、コンテンツがGoogleなどのサードパーティのサイトによってインデックスに登録されないようにするだけです。誰かがどこを見ればよいか知っていれば、それらはまだアクセス可能です。ファイルをプライベートにして誰もアクセスできないようにするには、これらのコンテンツ制限プラグインなどの別の方法を使用する必要があります.

Googlebot-Imageを使用して、画像や特定の画像拡張子がGoogle画像検索に表示されないようにすることができます。すべてのGoogle検索から除外したい場合は、例えばウェブ検索と画像、代わりにGooglebotユーザーエージェントを使用することをお勧めします.

ウェブサイトのさまざまな要素に対する他のGoogleユーザーエージェントには、ウェブ上のGoogleビデオセクションで動画を適用するためのGooglebot-Videoがあります。同様に、Googlebotユーザーエージェントを使用すると、すべての動画がGoogleビデオ、ウェブ検索、モバイルウェブ検索に表示されなくなります.

Robots txt No-Index

次の制限のため、Robots.txtを使用することは、機密ファイルや機密ファイルおよびコンテンツをブロックする適切な方法ではないことに注意してください。

  • Robots.txtは正常に動作するクローラーのみに指示できます。他の非準拠の検索エンジンとボットは単にその指示を無視することができます.
  • Robots.txtは、リクエストに応じてサーバーがこれらのページやファイルを無許可のユーザーに送信することを阻止しません.
  • 検索エンジンは、他のウェブサイトやソースからリンクされている場合に備えて、ブロックしたページやコンテンツを引き続き見つけてインデックスに登録することができます.
  • Robots.txtは、提供されたすべての指示を読み、それらのコンテンツとファイルに直接アクセスできるすべての人がアクセスできます

検索のインデックス作成をブロックし、個人情報をより効果的に保護するには、代わりに次の方法を使用してください.

2.ページにno-indexメタタグを使用する

no-indexメタタグを使用することは、Webサイト上の機密コンテンツの検索インデックス作成をブロックするための適切でより効果的な方法です。 robots.txtとは異なり、インデックスなしのメタタグは 非常に単純なHTMLタグを含むWebページのセクション:



...

ヘッダーにこの指示があるページは、Google検索結果に表示されません. その他の指令 nofollowやnotranslateなどを使用して、リンクをクロールしないようにWebクローラーに指示し、それぞれのページの翻訳を提供することもできます。.

次のように、ページで複数のメタタグを使用して、複数のクローラに指示できます。



...


このコードをWebサイトに追加するには2つの方法があります。最初のオプションは、WordPressの子テーマを作成することです。その後、functions.phpで、WordPressのwp_headアクションフックを使用して、noindexまたはその他のメタタグを挿入できます。以下は、ログインページにインデックスを付けない方法の例です。.

add_action( 'wp_head'、function(){
if(is_page( 'login')){
エコー '';
}
});

2番目のオプションは、SEOプラグインを使用してページの表示を制御することです。たとえば、Yoast SEOでは、ページの詳細設定セクションに移動し、オプションで[いいえ]を選択するだけで、検索エンジンにページを表示させることができます。

Yoast SEO検索結果設定

3.他のファイルにX-Robots-Tag HTTPヘッダーを使用する

X-Robots-Tagを使用すると、コンテンツとファイルの検索インデックス作成をより柔軟にブロックできます。特に、no-indexメタタグと比較すると、特定のURLのHTTPヘッダー応答として使用できます。たとえば、robotsメタタグを使用できない場合は、画像、動画、ドキュメントファイルにX-Robots-Tagを使用できます。.

あなたは読める Googleの完全なロボットメタタグガイド, ただし、HTTP応答でX-Robots-Tagを使用して、JPEG画像を追跡およびインデックス付けしないようにクローラーに指示する方法は次のとおりです。

HTTP / 1.1 200 OK
コンテンツタイプ:image / jpeg
日付:2018年11月27日、土曜日01:02:09 GMT
(…)
X-Robots-Tag:noindex、nofollow
(…)

robotsメタタグで使用できるディレクティブは、X-Robots-Tagにも適用できます。同様に、複数の検索エンジンボットに指示することもできます。

HTTP / 1.1 200 OK
日付:2018年9月21日火曜日21:09:19 GMT
(…)
X-Robots-Tag:googlebot:nofollow
X-Robots-Tag:bingbot:noindex
X-Robots-Tag:otherbot:noindex、nofollow
(…)

検索エンジンボットは、クロールプロセス中にRobotsメタタグとX-Robots-Tag HTTPヘッダーを検出することに注意してください。したがって、これらのボットが機密コンテンツやドキュメントをフォローしたり、インデックスに登録したりしないようにあなたの指示に従う場合は、これらのページとファイルのURLのクロールを停止しないでください。.

robots.txtファイルを使用したクロールがブロックされている場合、インデックス作成に関する指示は読み取られないため無視されます。その結果、他のウェブサイトがコンテンツやドキュメントにリンクしている場合でも、それらは引き続きGoogleや他の検索エンジンによってインデックスに登録されます.

4. Apacheサーバーでの.htaccessルールの使用

X-Robots-Tag HTTPヘッダーを.htaccessファイルに追加して、Apacheサーバーでホストされているウェブサイトのインデックスページやデジタルコンテンツからクローラーをブロックすることもできます。インデックスなしのメタタグとは異なり、.htaccessルールはWebサイト全体または特定のフォルダーに適用できます。正規表現のサポートにより、複数のファイルタイプを一度にターゲットにできるように、さらに高い柔軟性が提供されます.

Googlebot、Bing、Baiduによるウェブサイトや特別なディレクトリのクロールをブロックするには、次のルールを使用します。

RewriteEngine On
RewriteCond%{HTTP_USER_AGENT}(googlebot | bingbot | Baiduspider)[NC]
RewriteRule。*-[R = 403、L]

ウェブサイト全体ですべての.txt、.jpg、.jpeg、.pdfファイルの検索インデックスをブロックするには、次のスニペットを追加します。


ヘッダーセットX-Robots-Tag "noindex、nofollow"

5.ユーザー名とパスワードによるページ認証の使用

上記の方法により、非公開のコンテンツやドキュメントがGoogleの検索結果に表示されなくなります。ただし、リンクを持つすべてのユーザーがコンテンツにアクセスして、ファイルに直接アクセスできます。セキュリティのために、ユーザー名とパスワード、およびロールアクセス許可を使用して適切な認証を設定することを強くお勧めします.

ページ認証の使用

たとえば、匿名ユーザーがアクセスしてはならないスタッフの個人プロファイルや機密ドキュメントを含むページは、認証ゲートの背後にプッシュする必要があります。したがって、ユーザーがなんとかしてページを見つけることができたとしても、コンテンツをチェックアウトする前に資格情報を求められます.

ワードプレスのパスワード保護

WordPressでこれを行うには、投稿の表示設定を 守られたパスワード. この方法で、そのページのコンテンツを表示するために必要なパスワードを選択できます。これは、投稿/ページごとに行うのはかなり簡単です。サイトのプライバシーをより包括的にするには、これらのWordPressメンバーシッププラグインのいずれかをウェブサイトに追加してみてください.

パスワードで保護されたページや検索エンジンや訪問者からの非表示のページは、コンテンツに添付されたドキュメント、ビデオ、画像を必ずしも保護するわけではないことに注意してください。 WordPressファイルのアップロードを実際に保護するには、Prevent Direct Access Goldなどのプレミアムサービスを強くお勧めします.

結論

Googleのページ1になる競争では、ビジネスオーナーは検索エンジンが見ることができるものを考慮に入れない場合があります。ボットを特定のファイルからブロックする場合でも、カスタムログインページを非表示にする場合でも、プライベートユーザーディレクトリをパスワードで保護する場合でも、検索エンジンに関しては、インデックスを作成しないことを検討するページがたくさんあります。.

検索結果からコンテンツを除外することについて質問がありますか?または、特定のファイルがインデックス登録されないようにしますか?下にコメントを残してください!

Jeffrey Wilson Administrator
Sorry! The Author has not filled his profile.
follow me