1.023world - ヤドカリパークとマリンアクアリウム -

海洋の仕組みと細菌・微生物から学ぶマリンアクアリウムサイト

1.023world Facebook

結果 Oh! Life (旧ブログ)

懲りずに書いてみたりする結果オーライな日記

重複コンテンツ正規化の効果

重複コンテンツの正規化と言っても、あまりピンとこないかも知れない。
アクアリウムサイトではあまり該当のサイトは見かけないし。
でも例えばうちがそうです(汗)

重複コンテンツとは?

重複コンテンツというのは、主に CGI や PHP なんかが動的に生成するページなどで発生します。静的な HTML で発生してたら、それは意図的な何か陰謀を感じます(曝)

例えば、見た目はほぼ同じページなのに、URL が微妙に違うってことありますよね?
こんな感じで。

http://www.1023world.net/city/eiji
http://www.1023world.net/city/eiji?menu=guestbook&date=20090207
http://www.1023world.net/city/eiji?menu=guestbook&date=20090208

これはどういうものかと言いますと、「基本的には同じページなんだけど、データや表示方法を切り替える目的で、プログラムに引数を渡して処理させるような場合」などによく用いられる URL 形式です。
但し、上記のURL例の場合は表示内容がかなり変わるため厳密には重複コンテンツにはならないと思いますが、よくある通販ページ等で、単に商品の並び替えソートを行うようなページは、記載順が違うだけで内容は同じなので、そういうものは重複コンテンツと見なせます。

また、単に以下のようなケースもあります。

http://1023world.net/
http://www.1023world.net/

www に対するサブドメインの処理はサーバーの設定によっても違いますが、多くの場合、上記のケースは同じページを指しますよね。こういうものも重複コンテンツになります。

重複コンテンツを正規化する

では、それがどうしたの?と言われそうですが、実はこれらのうんちくは他の誰でもない検索エンジンらが騒いでいることです(笑)
なんて言うと叱られるのできちんと説明しますと、要するに同じ内容なのに URL がいくつもあると、検索エンジンはそれだけ多くのページを巡回しなければならないし、保存データも多くなるので資源の無駄だから、もっとこれらを最適化しなさいよ。と言うことです。

とは言え、それらを無くすことが出来るなら、初めからそのような構造を作りませんよね。
もし無くせるならそれに越したことはありませんが、大抵の場合これは「必要悪」です(汗)
ですから、「せめてページでこのように宣言しなさいよ」と、検索各社が正式に発表したそうです。

<head>
...
<link rel="canonical" href="本来の正式なページのURL" />
...
</head>

重複コンテンツに該当するページにこのように記述することで、「あぁ、このページはあのページのダブりね。OK!」と、検索エンジンがスマイルになるのです。
もちろん、ダブりに該当するページ全てに記述が必要ですね。
また正式ページにも記述して問題ないと思います。その方が判りやすいかも。

ちなみに多くの場合は CGI や PHP が対象だと思うので、その場合は HTML に記述するようにはいきません。該当のプログラムのテンプレートのヘッダに、動的な URL が割り当てられるように <link rel=”canonical” href=”正規な動的URL”> タグを適切に記述しなければなりません。詳しくは利用しているプログラムのヘルプを。

最終的にそれらの関係にあるページ群には、それぞれ以下のように記述させます。

Aページのヘッダ内
<link rel="canonical" href="AページのURL" />
Aページのダブりページ1のヘッダ内
<link rel="canonical" href="AページのURL" />
Aページのダブりページ2のヘッダ内
<link rel="canonical" href="AページのURL" />

これで検索エンジンにやさしいサイトに昇格です(笑)

1.023world の場合

今回、当サイトでも一部のページで重複コンテンツの正規化を行いました。
超ヤドカリ図鑑の以下のようなURLパターンのページがすべて対象です。

カシワジマヒメホンヤドカリ/Pagurixus fasciatus Komai & Myorin, 2005 の場合

和名 URL
http://www.1023world.net/カシワジマヒメホンヤドカリ
学名 URL
http://www.1023world.net/Pagurixus-fasciatus

そうです。これらは URL こそ異なりますが、同じページを指しています。
なので、現在これらのパターンで形成されている重複 URL は、全て和名 URL を正規 URL に設定しました。

既にお判りのように、まるっきり異なる URL 同士を関連づけることになるので、実験も兼ねてました。また、検索各社が内部処理に役立てるだけなのか、あるいは SERPs(検索結果)にも反映されるのか、それも実験の目的でした。

ところで、そもそも超ヤドカリ図鑑では何故こんな URL 形式が採用されたかと言いますと、

  1. 目的のヤドカリのページに容易に辿り着けること ( URL の簡略化)
  2. 学名でも和名でも辿り着けること (グローバル?)
  3. 子供でも簡単に辿り着けること (広いターゲット層)

このような意図があります。
「 1.023world のトップページ URL に、調べたいヤドカリの名前を付け足すだけでOK!」というコンセプトです。

wiki もこんな感じですよね。
でも、別に wiki を目指した訳ではなくて、単に検索でヒットして欲しいから(笑)
URL 自体にキーワードが入っていると、検索結果への効果が違いますからね。
最近はあまり影響が見られなくなったようだけど(汗)
いや、あくまでも真の目的は上記の意図1~3ですから、お間違えなく(汗)

で、実際に検索テストをおこなってみたら、3/15時点で Google では既にこれが完璧に適用されていました。この措置は2月の末くらいに施したので、およそ半月が経過していますが、さすが Google は仕事が速いです。
それに引き替え Yahoo と MSN は。。。未だ華麗にスルーですね(汗)

以下、3/15時点での検索各社の挙動です。

Google
和名で検索しても学名で検索しても、正規化の指示通り和名 URL を返してくれます。これは単に内部アルゴリズムのためだけの正規化ではなく、SERPs への反映にも利用されているのが伺えます。
Yahoo
ヤドカリの種によっては和名 URL を返したり、学名 URL を返したり、特に何も考えて無さそう(苦笑)。多分、バックリンクの有無にも影響されているのでしょう。
MSN
学名で検索しても和名で検索しても、意地でも学名 URL を示す(曝)

すべてのヤドカリを検索した訳ではないので、上記はあくまでも参考例としてお受け止めください。

こうして今日もまたひとつ、 Google のサービスの良さを実感したのでした♪

こちらのエントリーもどうぞ♪

WordPress高速化その後の経過報告

えー。まず事前案内から。

実は今月の投稿の約9割は、WordPress の予約投稿機能によるものです(汗)
今これを書いてる日付も本当は3/14ですが、今日のこの投稿内容で時系列が少し可笑しくなる恐れがあるので、予めお断りしておきます(曝)

先日(僕にとっては本当に昨日だけど、この投稿が公開される時点では一週間前になる)WordPress の高速化 と言う投稿をしました(と言ってもその投稿自体書いたのは今を遡ること2週間前になる)が、その後の効果を報告しておきます。
(あー。くどいので文中に時系列の解説はもう入れません)

QoSアラート再び

実はこの WordPress の高速化を実施する前までは、特に恐らく WordPress の最新版 2.7.1 をインストールしてからは、サーバーのメモリ使用率は一日あたり約10回前後のアラートが発生していました。
以前、このサーバーの下位プランを借りた時点ではアラートなんて出てませんでしたが、調子に乗ってあれやこれや回すようになったら、すぐにメモリが厳しくなってしまい、ものの3ヶ月ほどで現在の上位プランに移行せざるを得ませんでした(汗)
でもその後しばらくはまた平穏な日々が続いていたはずでしたが、今年の2月に入ってくらいかな、またアラートがポツ、ポツと出始めるようになってしまったのです。

ちなみに今僕が使ってるサーバーは VPS なので(厳密には性能保証プランの方)、管理画面が Virtuozzo (仮想化ソフト)やら Presk (コントロールパネル)やらが利用できるのですが、その Virtuozzo の方でリソースやら QoS アラートやらがモニタできるようになってます。

で、このアラートにも段階があり、普段出ていたのはソフトリミットの方で「イエローゾーン」と呼ばれています。これは、「契約しているプランの保証値に近づいてるぞ!」というものです。
と言っても、仮にコレを越えてもハードリミットまでの余裕があればそっちに回るので問題はありません。

が、ここ最近はまた契約初期のように「ブラックゾーン」と呼ばれるハードリミット越えが見られ始めていました。またかよ、と。
多分そのせいで WordPress が転けるようになり始めたんだと思います。
でも、こりゃどげんかせんといかん。
と言う経緯があっての、先日の WordPress の高速化 でした。

WordPress高速化の結果報告!

長くなりましたが、結果報告です。
なんと、これを実施した3/9以降、まだ一度もアラートは出てません!
ブラックどころかイエローすら見あたりません。
こりゃ凄い!!

いやぁ、ダメもとで試してみたMySQL のクエリキャッシュと、WordPress のコンテンツキャッシュの設定でしたが、なんとまあコレが覿面だったようです。

以下は、3/8まで出ていたアラートのログ。

20090321-qos-alert

また、平常時でもメモリ使用率はほぼ安定して40%台をキープしています。とてもこれがフローするとは今のところ思えません。

僕はサーバー関係は専門外でサッパリなのですが、これでしばらくは一安心です。
だったらルート権限付きのサーバーなんか借りるなって話ですが。。。汗

僕のようにリソースで困ってるサーバー初心者の方、もし WordPress を使ってるなら高速化をオススメしますです。

でも、早くも問題が・・・

ところで MySQL の状態を phpMyAdmin で見てみたら、なんか早くも Qcache_lowmem_prunes の値が現れていた。

20090321-phpmyadmin

Qcache_lowmem_prunes
新しい照会をキャッシュするためにメモリを解放するべく、キャッシュから削除された照会の数。この情報は照会キャッシュのサイズを調整するときに便利です。照会キャッシュがキャッシュから削除する照会を決定する際には、最後に使われた時刻が最も古いものから削除する戦略をとります。

これ、今 query_cache_size の値を 24M にしてあるんだけど、もう少し挙げた方が良いのかなぁ。
ま、ブログの方は閲覧者が少ないし、そこまで神経質になることないのかな?
サーバー先生。。。

こちらのエントリーもどうぞ♪

サイトリンクを狙い通りに攻略!

・・・できたら良いな(笑)
すみません。

最近、久しぶりに 1.023world のサイトリンクをチェックしたら、まあまあ見た目的には良い感じで更新されていました。

サイトリンクについては以前何度か書いてますが、サイトリンクとは Google 検索で一位表示された場合にSERPs(検索結果)の下に最大8つまでリストされるサイト内リンクのことです。これが出るかどうかはキーワードによって決定されますが、それ以前にこのサイトリンク自体、全てのサイトで表示されるものではありません。

詳しくは以前の記事を。

ちなみに去年の6月頃に見たサイトリンクは特に文句はありませんでしたが、7月頃に見たサイトリンクにはちょっと不満がありました(笑)
それは、1.023world の携帯表示モードをクロールしたときに抽出したと思われる半角カナのリンクテキストがいくつか使われていたことです。格好悪い。。。

こんなの↓

2008/7時点のサイトリンク

で、最近のがこちら↓

2009/3時点のサイトリンク

やった。半角カナがなくなった!
と思ったら、該当のリンクごと無くなってました(爆)
で、代わりに別のリンクが補填されてます。
しかも今度は結果 Oh! Life が「結果 Oh」ですって。。。やめて。

しかし今回のサイトリンクを見て、いくつか納得した部分があります。

元々以前からサイトリンクに出現していたページは、やはりいずれも当サイトではそこそこトラフィックのあるページばかりでしたが、今回はそれらのいくつかのページを差し置いて、それよりもトラフィックの浅いページがいくつも出現してきています。これは何を意味するのでしょうか?

残念ながら、当時から何度かソースをいじっているのでハッキリとは断定できませんが、ひとつはリンクテキストを操作するための rel=”nofollow” が裏目に出たかな?(汗)と言う点と、もうひとつは最近の Google のブランド指向が影響したのか、ページへのトラフィックよりも、強力なバックリンクに重点を置いた選出になっているように感じました。

例えば、バクテリアの役割水槽の微生物たち病気の基礎知識なんかは、階層的にはコンテンツのさらに下に位置する深いページですが、確かに以前から教えて系のサイトや某大型掲示板などではたまにリンクを受けてるページです。また相互リンクではなく、Google が特に評価する自然発生的なリンクです。そこにリンク元サイトのブランド力が加味された結果かな、と思います。

また、BBSちゃんぷるは昨年のリニューアル以降、URLとタイトルの最適化により一層SERPs(検索結果)に出やすくなってトラフィックも増大してますし、海水関連ショップリンクのページもここ最近なぜかアクセスが集中してます。

今回のサイトリンクは、そんなちょっと納得の内容でした。

但し、僕の意図とは別の結果ではあるので、もう一度内部リンクの見直しを考えてます。
もっとメインコンテンツをうまく並べたいな。。。失敗した。。。

最後にもうひとつ笑い話が。

僕の場合、サイトリンクは「1.023」と「1.023world」で出現することは前々から気づいていました。
しかし、最近になって第三のキーワードが存在することを発見しちゃいました。

なんと。

サンタマルターエイジです(爆)

誰のためのキーワードだっ!

ちなみに、これを分かち書きに分解すると、どうやら「サンタ」「マルタ」「エイジ」の3つの単語(?)で認識されているようです。なので、「サンタはマルタのエイジ」とかやってもサイトリンクが出ます(爆)

はぁ。。。がんばろ。

こちらのエントリーもどうぞ♪