検索ロボットのお話
検索エンジン最適化(SEO)の記事にコメントをいただきました。ありがとうございます。
****************************************************
Google等では、検索ロボットがキーワードを拾い集めてくる仕組みな様ですが、キーワードが認識、反映されるまでに時間が掛ると言うのは、検索エンジン最適化(SEO)する事で解決するのですか?
****************************************************
検索エンジンは以下のようなお仕事をしています。
1. 検索ロボット(クローラー)が、膨大なWeb世界を駆け巡り、Webページを集めてくる。
2. 集めたWebページをデータベースに分類して蓄積する索引処理(インデクサー)。
3. 文書の重要度のランク付け処理。
ですので、Webサイトを更新したら、リアルタイムにサーチエンジンに反映されるわけではありません。
検索ロボットがサイトを訪れ、Webページの収集行為があって、検索データベースに蓄積されます。
検索エンジン最適化(SEO)は、上記2.の索引処理部分に関係しています。
HTMLタグやテキスト情報を索引処理されやすいように、Webページを工夫することによって、検索データベースにきちんと蓄積されるのです(詳しい検索処理については後述しました)。
見栄えのために、tableタグだけで作成されているWebページを見かけます。
確かにレイアウトの崩れはおきにくいし綺麗に見えますが、こういったソースでは索引処理されにくいのです。
上記以外にも robots.txt やページランク演算方法のことも知っておくと面白いかもしれません。
*** 補足 ***
◇robots.txt
検索ロボットは、Webサイトを巡回するにあたって、まずサーバの最上位階層のrobots.txtにアクセスし、サーバ内のアクセスの許可を確認してから、アクセスを行うように推奨されています。
robots.txtの本来の使い道は、ロボットアクセス拒否です。その設定をしないとすべてのデータが収集されてしまいます。
◇索引処理
索引処理では、テキスト情報・ファイル情報・HTMLのタグ情報・リンク情報の4つの情報を抽出して整理します。
そして以下の3つの索引テーブルを作成します。これによって正確な検索結果を導き出します。
・キーワードをカギにして文書を見つけるための「キーワードテーブル」
・文書にIDをつけ、それをキーにしてより詳しい文書情報を引き出せる「文書テーブル」
・キーワードの重要度を整理分類した「ヒットテーブル」
◇ページランク演算方法
PR(A)=(1-d)+d*(PR(T1)/C(T1)+PR(T2)/C(T2)+・・・・+PR(Tn)/C(Tn))
*************************************************