そう思っている方いらっしゃいませんか??
調べてみると案外記事内のテキストが『重複』していることってかなりあったりするんですよね・・・
Twitterやアメブロ、社内ブログといったSNSや同一サイト内にある「自分が気が付いていない」重複コンテンツは意外と多いんです。
最近、検索順位が下がってきてるな〜と思ったらコピーコンテンツもちらっと疑ってみてください。
Disallowとnoindexの大きな違いは下記です。
- Googleにクロール(アクセス)させないようにする
- Googleにインデックス(登録)させないようにする
重複コンテンツを見つけたそのあとは・・・
重複コンテンツを見つけたら、どれか一つをGoogleに評価してもらえるようにしましょう。
そうなると思う浮かぶ方法がDisallowとnoindexです。
という方って多いんじゃないんでしょーか。
実は、DisallowとnoindexもGoogleに評価されないようにする処理ではあります。
が、実は意味合いが違うんです。
Disallowとnoindexの決定的な違いとは
コンテンツが弱いのにindexされてしまっていたり、Googleにアクセスしないで欲しい時や重複してしまっているページに対して使用するのが「Disallow」と「noindex」。
該当URLを外部からのアクセスを防ぐ目的で両方ともに使われているようです。
Disallowとnoindexは親戚みたいな関係ですけど、イコールではないんです。
恋人でもありません。
結論から言うと下記の違いがあります。
- Googleにクロール(アクセス)させないようにする
- Googleにインデックス(登録)させないようにする
ちなみに、インデックスされる順番(というより流れ)は下記の通りです。
- クローラーがURLを巡回(Disallow処理)
- インデックスをするかしないかの判断(noindex処理)
- インデックスする
ん?そうなるとインデックス(index)って何だ?となりませんか?笑
インデックスとは「登録」だと思ってください。
すごーっく簡単に説明しましょう。
我々人間がネットから検索して表示されるページはどうやって処理されていると思いますか??
Googleを始めとする検索エンジンは毎回検索されたページをその都度URLを見に行っているわけではないんです。
(そんな時間あったら探すだけで日が暮れてしまいます)
実は、世の中にある数多のURLをGoogle側が一時的に勝手に情報として保存しているんですね。
で、そこにラベルとか索引のような形でいつでも引き出せるような形にしておいて、
誰かが「みかんについて」と調べたら「みかんについて」に関連がありそうなURLを物凄い勢いで情報を引っ張り出してきています。
言い換えると、「登録(インデックス)」されないと検索結果に表示されません。
そのためインデックスされるところから全ては始まるんです。
現実世界に置き換えましょう。
本屋に行って受付の美人なお姉さんに、「みかんについて」の情報が知りたいんですけどと言ったら「これとこれとこれと、あとこれもありますね」ってほぼ瞬時に何万件も教えてくれるとイメージできます・・・か?笑
逆にインデックス(登録)していないと、
と冷たく対応されます。(つまり表示される件数が少なくなる)
なので、予め検索されるキーワードに関連しそうなページに目印をつけて倉庫(データベース)に情報を保管しておく必要があるんです。
これが「登録(インデックス)」の仕組みです。
Disallowとは
Disallowとは、クローラーに対して『アクセス制限をする意味合い』を持ちます。
簡単な言葉で言い換えると『アクセス許可の有無』です。
主な使い方としては、robots.txtに記述します。
User-Agent: * Disallow: /hogehoge.html
Sitemap: https://example.com/sitemap.xml
上記例だと、『hogehoge.htmlにはアクセスしないでね!
サイトマップは、https://example.com/sitemap.xmlだよ』と伝えていることになります。
つまり、Googleに登録(インデックス)されるかどうかのスタートとなる、クローラーがURLに巡回する際に案内をするかどうかの起点となるのがDisallow処理となります。
※反対に許可する場合はAllow処理です
『Disallow=アクセス制限』ということになりますね。
Disallowの見落としがちな点
見落としがちな点は、Disallowで制限されたページに何が書いてあるのかをクローラーも知ることができないということです。
良くある間違いが、インデックスされてしまっているURLを削除(noindex)したいけど、各URLに記述するのは面倒くさいから、robots.txtにまとめてアクセス制限しちゃえ!という発想。
結論をいうと、このやり方は間違いで、登録(インデックス)されてしまっているURLにDisallowをしてもインデックスは残っています。
なぜなら、アクセス制御をrobots.txtに記載してしまっているのだから、指定されたURLにnoindexが書いてあるかどうかも分からないからです。
そうするとクローラーが訪れないので、更新されないだけなので登録(インデックス)はされ続けます。
もし!
完全に該当URLやディレクトリをインデックス処理させないようにするには、サーチコンソールから削除申請を出した後にrobots.txtに該当URLを記述するようにしてください。
noindexとは?
noindexとは、no(否定)index(index)なので『indexさせない(しない)』ということになります。
主な使い方としては、robots.txt内に記述します。
User-Agent: * Disallow: /hogehoge.html
Sitemap: https://example.com/sitemap.xml
ここで注意してほしいのは、登録(インデックス)はしないということです。
登録(インデックス)しないということは、ユーザーにも表示されないから良いのでは?となりますが、ここが味噌醤油です!(ふるっ
その先にあるクローラーの動きを見越して問題なければ大丈夫です。
『noindex=indexはしないけどクローラーは巡回する』ということなんですね。
URL内にリンクが存在している場合はそのURLからリンクは見にいくので、注意が必要です。
『インデックスしないでね、あとリンクも辿らないでね』という場合には下記のように記述します。
<meta name="robots" content="noindex">
noindexしていてもindexされる??
noindex設定をしていても外部からリンクを貼られている場合は、世の中から必要とされている証拠と判断されindex処理されるケースもごく稀にあります。
Googleの本質は世の中で有益な情報を増やして上位表示させたいという原則がある以上、その点を見れば避けられないかもしれません。
その他、noindexを設定する際の注意点として良く挙がる例は、全ページのURLにnoindexが記述されている点でしょう。
noindex,nofollowが記述される例はリニューアル前のサイト構築に設定することがありますが、アップ(公開)した後も削除を忘れて運用し続けるといつまでたってもインデックスされないことになります。
Webサイト制作を外注に依頼していればそんな有り得ないことはないと思いますが、社内で制作しているケースではしばしば見受けられますので(苦笑)
あとWordPressで制作していて全体をindexしないよう処理していることを忘れていた!!なんてこともあります。
Disallowとnoindexの併用はダメ
インデックスされる流れ
- クローラーがURLを巡回(Disallow処理)
- インデックスをするかしないかの判断(noindex処理)
- インデックスする
- クローラーがURLを巡回(Disallow処理)
- インデックスをするかしないかの判断(noindex処理)
- インデックスする
整理すると、
・クローラーがURLを辿りたくても門前払いしてしまうのがDisallow
・クローラーに巡回してもらっても良いけどインデックスさせないのがnoindex
その両方の使い方をミスるとインデックスされてしまっているものが消えない!!という不思議な現象に陥った気持ちになりますが、設定のミスなので気をつけたいところですねぇ〜
なぜ併用はダメなのでしょう??
それはDisallow設定したページにnoindexページ(A)があっても、クロール(巡回)しないでくれって言っているから、インデックスされたページをnoindex処理しようにもnoindexの記述があるかどうかまで把握できないからみたいです。
まとめ
インデックスされた後にDisallowをしても削除はされにくい(ほぼされないでしょう)ということですねぇ。
削除申請はしておらず、アクセスを制限しているだけなので登録(インデックス)は残ったままなのですから。
①インデックスされている
↓
②消したい!Disallowで処理しよう!そしてnoindexにもしておこう!
↓
③Disallowでアクセス制限
↓
④クロール(巡回)されない=noindexがあるかどうか判断できない
↓
⑤結果、インデックスされたままになっている
Disallowとnoindexの併用がダメな記事はこちら
インデックスされているURLを削除したいのであれば、サーチコンソールから削除申請してからDisallowもしくはnoindex処理を行うようにしていきましょう!
それが一番手っ取り早いです♪