検索ロボットのお話 | 走るのに疲れたら、歩けばいいじゃん!

検索ロボットのお話

検索エンジン最適化(SEO)の記事にコメントをいただきました。ありがとうございます。

****************************************************
Google等では、検索ロボットがキーワードを拾い集めてくる仕組みな様ですが、キーワードが認識、反映されるまでに時間が掛ると言うのは、検索エンジン最適化(SEO)する事で解決するのですか?
****************************************************

検索エンジンは以下のようなお仕事をしています。

1. 検索ロボット(クローラー)が、膨大なWeb世界を駆け巡り、Webページを集めてくる。

2. 集めたWebページをデータベースに分類して蓄積する索引処理(インデクサー)。

3. 文書の重要度のランク付け処理。


ですので、Webサイトを更新したら、リアルタイムにサーチエンジンに反映されるわけではありません。

検索ロボットがサイトを訪れ、Webページの収集行為があって、検索データベースに蓄積されます。


検索エンジン最適化(SEO)は、上記2.の索引処理部分に関係しています。

HTMLタグやテキスト情報を索引処理されやすいように、Webページを工夫することによって、検索データベースにきちんと蓄積されるのです(詳しい検索処理については後述しました)。


見栄えのために、tableタグだけで作成されているWebページを見かけます。

確かにレイアウトの崩れはおきにくいし綺麗に見えますが、こういったソースでは索引処理されにくいのです。

上記以外にも robots.txt やページランク演算方法のことも知っておくと面白いかもしれません。


*** 補足 ***

◇robots.txt
検索ロボットは、Webサイトを巡回するにあたって、まずサーバの最上位階層のrobots.txtにアクセスし、サーバ内のアクセスの許可を確認してから、アクセスを行うように推奨されています。

robots.txtの本来の使い道は、ロボットアクセス拒否です。その設定をしないとすべてのデータが収集されてしまいます。

◇索引処理
索引処理では、テキスト情報・ファイル情報・HTMLのタグ情報・リンク情報の4つの情報を抽出して整理します。

そして以下の3つの索引テーブルを作成します。これによって正確な検索結果を導き出します。

・キーワードをカギにして文書を見つけるための「キーワードテーブル」
・文書にIDをつけ、それをキーにしてより詳しい文書情報を引き出せる「文書テーブル」
・キーワードの重要度を整理分類した「ヒットテーブル」

◇ページランク演算方法
PR(A)=(1-d)+d*(PR(T1)/C(T1)+PR(T2)/C(T2)+・・・・+PR(Tn)/C(Tn))

*************************************************