重複コンテンツの正規化と言っても、あまりピンとこないかも知れない。
アクアリウムサイトではあまり該当のサイトは見かけないし。
でも例えばうちがそうです(汗)
重複コンテンツとは?
重複コンテンツというのは、主に CGI や PHP なんかが動的に生成するページなどで発生します。静的な HTML で発生してたら、それは意図的な何か陰謀を感じます(曝)
例えば、見た目はほぼ同じページなのに、URL が微妙に違うってことありますよね?
こんな感じで。
http://www.1023world.net/city/eiji
http://www.1023world.net/city/eiji?menu=guestbook&date=20090207
http://www.1023world.net/city/eiji?menu=guestbook&date=20090208
これはどういうものかと言いますと、「基本的には同じページなんだけど、データや表示方法を切り替える目的で、プログラムに引数を渡して処理させるような場合」などによく用いられる URL 形式です。
但し、上記のURL例の場合は表示内容がかなり変わるため厳密には重複コンテンツにはならないと思いますが、よくある通販ページ等で、単に商品の並び替えソートを行うようなページは、記載順が違うだけで内容は同じなので、そういうものは重複コンテンツと見なせます。
また、単に以下のようなケースもあります。
http://1023world.net/
http://www.1023world.net/
www に対するサブドメインの処理はサーバーの設定によっても違いますが、多くの場合、上記のケースは同じページを指しますよね。こういうものも重複コンテンツになります。
重複コンテンツを正規化する
では、それがどうしたの?と言われそうですが、実はこれらのうんちくは他の誰でもない検索エンジンらが騒いでいることです(笑)
なんて言うと叱られるのできちんと説明しますと、要するに同じ内容なのに URL がいくつもあると、検索エンジンはそれだけ多くのページを巡回しなければならないし、保存データも多くなるので資源の無駄だから、もっとこれらを最適化しなさいよ。と言うことです。
とは言え、それらを無くすことが出来るなら、初めからそのような構造を作りませんよね。
もし無くせるならそれに越したことはありませんが、大抵の場合これは「必要悪」です(汗)
ですから、「せめてページでこのように宣言しなさいよ」と、検索各社が正式に発表したそうです。
<head> ... <link rel="canonical" href="本来の正式なページのURL" /> ... </head>
重複コンテンツに該当するページにこのように記述することで、「あぁ、このページはあのページのダブりね。OK!」と、検索エンジンがスマイルになるのです。
もちろん、ダブりに該当するページ全てに記述が必要ですね。
また正式ページにも記述して問題ないと思います。その方が判りやすいかも。
ちなみに多くの場合は CGI や PHP が対象だと思うので、その場合は HTML に記述するようにはいきません。該当のプログラムのテンプレートのヘッダに、動的な URL が割り当てられるように <link rel=”canonical” href=”正規な動的URL”> タグを適切に記述しなければなりません。詳しくは利用しているプログラムのヘルプを。
最終的にそれらの関係にあるページ群には、それぞれ以下のように記述させます。
Aページのヘッダ内 <link rel="canonical" href="AページのURL" />
Aページのダブりページ1のヘッダ内 <link rel="canonical" href="AページのURL" />
Aページのダブりページ2のヘッダ内 <link rel="canonical" href="AページのURL" />
これで検索エンジンにやさしいサイトに昇格です(笑)
1.023world の場合
今回、当サイトでも一部のページで重複コンテンツの正規化を行いました。
超ヤドカリ図鑑の以下のようなURLパターンのページがすべて対象です。
カシワジマヒメホンヤドカリ/Pagurixus fasciatus Komai & Myorin, 2005 の場合
そうです。これらは URL こそ異なりますが、同じページを指しています。
なので、現在これらのパターンで形成されている重複 URL は、全て和名 URL を正規 URL に設定しました。
既にお判りのように、まるっきり異なる URL 同士を関連づけることになるので、実験も兼ねてました。また、検索各社が内部処理に役立てるだけなのか、あるいは SERPs(検索結果)にも反映されるのか、それも実験の目的でした。
ところで、そもそも超ヤドカリ図鑑では何故こんな URL 形式が採用されたかと言いますと、
- 目的のヤドカリのページに容易に辿り着けること ( URL の簡略化)
- 学名でも和名でも辿り着けること (グローバル?)
- 子供でも簡単に辿り着けること (広いターゲット層)
このような意図があります。
「 1.023world のトップページ URL に、調べたいヤドカリの名前を付け足すだけでOK!」というコンセプトです。
wiki もこんな感じですよね。
でも、別に wiki を目指した訳ではなくて、単に検索でヒットして欲しいから(笑)
URL 自体にキーワードが入っていると、検索結果への効果が違いますからね。
最近はあまり影響が見られなくなったようだけど(汗)
いや、あくまでも真の目的は上記の意図1~3ですから、お間違えなく(汗)
で、実際に検索テストをおこなってみたら、3/15時点で Google では既にこれが完璧に適用されていました。この措置は2月の末くらいに施したので、およそ半月が経過していますが、さすが Google は仕事が速いです。
それに引き替え Yahoo と MSN は。。。未だ華麗にスルーですね(汗)
以下、3/15時点での検索各社の挙動です。
- 和名で検索しても学名で検索しても、正規化の指示通り和名 URL を返してくれます。これは単に内部アルゴリズムのためだけの正規化ではなく、SERPs への反映にも利用されているのが伺えます。
- Yahoo
- ヤドカリの種によっては和名 URL を返したり、学名 URL を返したり、特に何も考えて無さそう(苦笑)。多分、バックリンクの有無にも影響されているのでしょう。
- MSN
- 学名で検索しても和名で検索しても、意地でも学名 URL を示す(曝)
すべてのヤドカリを検索した訳ではないので、上記はあくまでも参考例としてお受け止めください。
こうして今日もまたひとつ、 Google のサービスの良さを実感したのでした♪
1. ゆーいち 2009/03/23 15:52
グーグル先生で調べたら重複コンテンツが44個も(;´Д`)
ブログの場合はしょうがないのかな?
2. エイジ 2009/03/24 07:00
ブログの独自タグがある程度判るなら(勿論そんな設定があるなら)、メタを自動生成するようにしておけば、とりあえずGoogle先生を満足させてあげられます(笑)
でも、カテゴリーもアーカイブもダブる時はダブるので仕方ないかも。
て言うか、ゆーいちさんとこって自前?レンタルブログだっけ?
3. ゆーいち 2009/04/10 14:56
うぉ 今ここ気づいたorz
豆にコメントもチェックしないと駄目ですね(;´Д`)
これを書いた時点の時も今も、レンタルですよぉ~
ただ忍者ブログの容量が結構いってしまわれてるんで
1.5Gまで無料ってとこがあったんで
そっちに今引っ越しましたw
そっちは最初からwordpressがインストールしてある無料サーバーなんで
色々弄るのも自由っぽいんで、弄くりまくってますw