ぼくはまちちゃん!

こんにちはこんにちは!!

はてなブックマークのやりすぎちゃったかもしれないSEO

※本ページにはプロモーションが含まれています

はい!こんにちはこんにちは!!
もうすぐ梅雨ですね! 2009年も半ばって感じです…!

2009年といえば…、
そう! マネタイズですね!! はてなマネタイズ!! マネーだいじ…!
だってお金がなくなっちゃうと、みんなの大好きなはてなもなくなっちゃうもんね…。

そうそう、ところで!
ぼくさっきGoogle検索していて、ちょっとしたことに気がついちゃったんですが!
今日はちょっとそれを、ここにメモしておきますね!

↓ほらこれ、

はてなブックマークのURLにタイトル文字列が…!
site:b.hatena.ne.jp エゴサーチしよう - Google 検索

はてなURLの末尾にタイトル文字列を含めてる。
あれれ…、前からこうだったっけ…!

URLキーワード文字列を含めてやるのって今のところものすごく強力なSEOのひとつで、
Amazonとかもその手法をつかっているからか、
本のタイトルなんかで検索すると、よくAmazonが一番上にでてきちゃうよね。

え、こんなのべつにAmazon以外にも、各種wikiなんかでも普通にやってることじゃないかって?
うん、そうですよね!
じゃあなんで今回、ぼくが「はてなやりすぎちゃってるかも?」って思ったのか、いまから説明します!

ほら、ブックマークページのURLって、元々のみんながよく知ってるやつは…、

http://b.hatena.ne.jp/entry/http://d.hatena.ne.jp/Hamachiya2/20090522/ego_search
(元エントリーのURLを使ったブックマークページURL)

↑こういうのだとか

http://b.hatena.ne.jp/entry/13603677
(通し番号を使ったブックマークページURL)

↑なんかこんな感じだったよね。

だけど…、

http://b.hatena.ne.jp/entry/13603677/%E3%82%A8%E3%82%B4%E3%82%B5%E3%83%BC%E3%83%81%E3%81%97%E3%82%88%E3%81%86%20-%20%E3%81%BC%E3%81%8F%E3%81%AF%E3%81%BE%E3%81%A1%E3%81%A1%E3%82%83%E3%82%93%EF%BC%81(Hatena)
(GoogleにインデックスされているブックマークページURL)

↑なんで末尾にタイトル文字列がくっついている方のURLが、Googleインデックスされているんだろう!
こんな形式のはてブのURL、はてな内では見たことないけど…!

うーん…。

あ、

これって

もしかして…?

(ふつうブラウザアクセス)

(Request)
GET /entry/[]http://d.hatena.ne.jp/Hamachiya2/20090522/ego_search[] HTTP/1.1
Host: b.hatena.ne.jp
User-Agent: Mozilla/5.0 (Windows; U; Windows NT 5.1; ja; rv:1.9.0.10) Gecko/2009042316 Firefox/3.0.10
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
Accept-Language: ja,en-us;q=0.7,en;q=0.3
Accept-Encoding: gzip,deflate
Accept-Charset: Shift_JIS,utf-8;q=0.7,*;q=0.7
Keep-Alive: 300
Connection: keep-alive

(Response)
HTTP/1.x 200 OK
Date: Tue, 09 Jun 2009 10:40:49 GMT
Server: Apache/2.2.3 (CentOS)
X-Framework: Ridge/0.05
X-Runtime: 2267ms
Content-Type: text/html;charset=utf-8
Vary: Accept-Encoding
Content-Encoding: gzip
Content-Length: 18086
X-Pad: avoid browser bug

(ブラウザのUser-AgentをGooglebotにしてアクセス) ※GoogleのWebページ収集プログラムに見せかけてアクセス

(Request)
GET /entry/[]http://d.hatena.ne.jp/Hamachiya2/20090522/ego_search[] HTTP/1.1
Host: b.hatena.ne.jp
User-Agent: Googlebot/2.1 (+[]http://www.googlebot.com/bot.html[])
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
Accept-Language: ja,en-us;q=0.7,en;q=0.3
Accept-Encoding: gzip,deflate
Accept-Charset: Shift_JIS,utf-8;q=0.7,*;q=0.7
Keep-Alive: 300
Connection: keep-alive

(Response)
HTTP/1.x 301 Moved Permanently ← あれっ
Date: Tue, 09 Jun 2009 10:43:59 GMT
Server: Apache/2.2.3 (CentOS)
Location: /entry/13603677/%E3%82%A8%E3%82%B4%E3%82%B5%E3%83%BC%E3%83%81%E3%81%97%E3%82%88%E3%81%86%20-%20%E3%81%BC%E3%81%8F%E3%81%AF%E3%81%BE%E3%81%A1%E3%81%A1%E3%82%83%E3%82%93%EF%BC%81(Hatena)
X-Framework: Ridge/0.05
X-Runtime: 253ms
Content-Type: text/html; charset=iso-8859-1
Age: 489
X-Cache: HIT from squid.hatena.ne.jp, MISS from squid.hatena.ne.jp
X-Cache-Lookup: HIT from squid.hatena.ne.jp:80, MISS from squid.hatena.ne.jp:80
Via: 1.1 bookmark2squid02.hatena.ne.jp:80 (squid/2.7.STABLE5), 1.0 bookmark2squid01.hatena.ne.jp:80 (squid/2.7.STABLE5)
Vary: Accept-Encoding
Content-Encoding: gzip
Content-Length: 264

わ…!
やっちゃってるね…、クローキング…。

クローキングとは、ユーザーと検索エンジンとで異なるコンテンツや URL を表示することです。
user-agent に基づいて異なる結果を表示するサイトは、偽装の意図があると見なされ、
Google インデックスから削除される場合があります。

クローキング、不正な JavaScript リダイレクト、誘導ページ - ウェブマスター/サイト所有者 ヘルプ

はてなって、SEO…つまり検索結果からくるユニークユーザーの広告クリック収益に
けっこう頼っているところがあるんじゃないかなーって思ってたんだけど…

こんなリスキーなことしちゃって大丈夫なのかな!
(Googleからペナルティを受けるかもしれないという意味で)
Googleから消されちゃったりして、いきなり路頭に迷ったりしませんか…!

ぼくすごい気になります><

とりあえず、はてながなくなったら超困るはてなっ子のみんなは、このことは、誰にも内緒にしておこうね!
Googleに通報なんて、したらダメですよ!!
特に米Google本店に通報とかだめです!!!! 絶対!!!

(追記)
何人かの人から「これは問題ないと思う」というご意見をいただきました!
そういった意見でだいたい共通しているのは…

・検索エンジンに対するURL共通化のためだから、これは良いクローキングなのだー
・かのAmazonもやっているんだから大丈夫なのであるー

といった感じです!

そう。 「良いクローキングもあるんだー!」と反論している人々が共通して根拠としているのが「Amazonが黙認されているから」。
あらあらなんだかちょっとおめでたい感じですね…!

たぶん、はてなはこのあたりに会社の存続がかかっていたりしそうだから、
無闇にリスクを取っていっているのではなくて、
少なくともかの頼りなさそうなGoogle日本法人あたりの適当な担当に確認とった上でやっていそうな気がするけど、
もしそうだとしたらGoogleもハッキリそうだとガイドラインに書いておいてくれればいいのにね!
だってこれが本当にGoogleも認める正しい行為なのだとしたら、
URLの正規化だとか建前はどうあれ、SEO的には「やっておかないと負ける技」なのだから…!

ところで、bodyにキーワードを詰め込んだページをbotに見せる昔ながらのクローキングはNGで
header(url)にキーワードを詰め込んだページをbotに見せる、よりSEO的には凶悪なこの手法が「Google先生的にはオッケーなんじゃね?」なんて思い込む人が多いのはなんでなんだろうね?
人間にはスマートなURLを見せておきつつ、
検索エンジンの巡回Botに対しては、効果的にキーワードを詰め込んだレスポンスを返しているのだから、
本質的にベタなクローキングスパムと何も違うところはない
というのに。
Googleのガイドラインにもハッキリと「ユーザーと検索エンジンとで異なる URL を表示することはしないでね」、と書いてあるよね。

ともかくそれが(Google検索的に)善なのか悪なのかを決めるのは、ぼくでもhatenaでも、ましてや、どこぞのSEOブログでもアルファブロガーでもなく、Googleなのは間違いなくて、
どっかの有名プログラマーが「これはURLのセイキカっていうんだぜフフン」なんて言ったからといって、みんなが安心して使える類の技でもない。

Google自身が、件のガイドラインにどちらともとれる文章を掲げておきながら、
上と同様の手法でキツイSEOを行っているAmazonをいつまでも放置(黙認?)しているあたりがやっぱり一番の問題なのかもしれないですね…!
Googleは、とっととガイドラインを修正するか、この手法を使っているサイトにペナルティを与えるかしないと混乱しちゃいますよ!

(追記) 2009/7/4

この日記かいてから約一ヶ月。
その取りすぎているかもしれないリスク(主な収入源でありながらガイドラインに抵触)に気づいたのか、
あるいは、Googleからお達しがきたのかはわからないけど、
はてなが対応したみたい…!

この同一リソースに対する URL が二つ以上あり、また検索エンジン向けとそうでない場合に異なる URL を見せる行為が恣意的なマナー違反であると考え、URL を一本化したく、今回の変更に至りました。

エントリーページの URL 変更について - はてなブックマーク日記 - 機能変更、お知らせなど

(関連記事)
mixiがクローキングしちゃってる :: ぼくはまちちゃん! (2007年)