『検索ロボットのお話』

検索エンジン最適化（SEO）の記事にコメントをいただきました。ありがとうございます。

****************************************************
Google等では、検索ロボットがキーワードを拾い集めてくる仕組みな様ですが、キーワードが認識、反映されるまでに時間が掛ると言うのは、検索エンジン最適化（SEO）する事で解決するのですか？
****************************************************

検索エンジンは以下のようなお仕事をしています。

1.　検索ロボット（クローラー）が、膨大なWeb世界を駆け巡り、Webページを集めてくる。

2.　集めたWebページをデータベースに分類して蓄積する索引処理（インデクサー）。

3.　文書の重要度のランク付け処理。

ですので、Webサイトを更新したら、リアルタイムにサーチエンジンに反映されるわけではありません。

検索ロボットがサイトを訪れ、Webページの収集行為があって、検索データベースに蓄積されます。

検索エンジン最適化（SEO）は、上記2.の索引処理部分に関係しています。

HTMLタグやテキスト情報を索引処理されやすいように、Webページを工夫することによって、検索データベースにきちんと蓄積されるのです（詳しい検索処理については後述しました）。

見栄えのために、tableタグだけで作成されているWebページを見かけます。

確かにレイアウトの崩れはおきにくいし綺麗に見えますが、こういったソースでは索引処理されにくいのです。

上記以外にも　robots.txt　やページランク演算方法のことも知っておくと面白いかもしれません。

***　補足　***

◇robots.txt
検索ロボットは、Webサイトを巡回するにあたって、まずサーバの最上位階層のrobots.txtにアクセスし、サーバ内のアクセスの許可を確認してから、アクセスを行うように推奨されています。

robots.txtの本来の使い道は、ロボットアクセス拒否です。その設定をしないとすべてのデータが収集されてしまいます。

◇索引処理
索引処理では、テキスト情報・ファイル情報・HTMLのタグ情報・リンク情報の4つの情報を抽出して整理します。

そして以下の３つの索引テーブルを作成します。これによって正確な検索結果を導き出します。

・キーワードをカギにして文書を見つけるための「キーワードテーブル」
・文書にIDをつけ、それをキーにしてより詳しい文書情報を引き出せる「文書テーブル」
・キーワードの重要度を整理分類した「ヒットテーブル」

◇ページランク演算方法
PR(A)=(1-d)+d*(PR(T1)/C(T1)+PR(T2)/C(T2)+・・・・+PR(Tn)/C(Tn))

*************************************************

ブログ画像一覧を見る

このブログをフォローする

走るのに疲れたら、歩けばいいじゃん！

一生懸命がんばったら、少しはお休みしましょ（笑）。

検索ロボットのお話