コンピュータ技術: どのように検索エンジンロボットを制御する

それはあなたのサイト番号のいずれかを作成する検索エンジンのスパイダーのクローラを伝えるWebサイトの一部のコードを残してことができてうれしいではないでしょうか？残念ながら、robots.txtファイルやロボットのメタタグはしないだろうが、彼らは、インデックス、クローラを助けることができるサイトを
より、不要なものをブロックします。

説明最初に少しの定義：

検索エンジンスパイダー、またはクロラ - Webクローラ（また、Webスパイダーとも呼ばれる）整然とした、自動化された方法で、World Wide Webを閲覧するプログラムです。 Webクローラは、主にインデックスのダウンロードページには高速な検索を提供するために以降の検索エンジンで処理するために、すべての訪問したページのコピーを作成するために使用されています。

Webクローラは、ボットのいずれかのタイプ、またはソフトウェアエージェントです。一般的には、アクセスするURLのリストを開始します。それはこれらのURLを訪問するように、ページ内のすべてのハイパーリンクを識別し、Webは一連のポリシーに応じて再帰的に参照し、アクセスするURLのリストに追加します。

robots.txtは - ロボット排除標準またはrobots.txtのプロトコルも防止するために行われています- allまたはウェブサイトの一部にアクセスするWebスパイダーやその他のWebロボットを振る舞った。ファイルで指定されてアクセスしてはならない部分を指定する情報はWebサイトの最上位ディレクトリにrobots.txtと呼ばれる。

robots.txtのプロトコルは、純粋に勧告され、Webロボットの協力に依存して、プライバシーを保証するものではありませんあなたのサイトからのrobots.txtと範囲の面積をマークするようにします。多くのWebサイトの管理者は、Webサイト、世界の残りの部分には見えないのプライベート部品を作るためのロボットをファイルを使用しようとして窮地に追い込まれている。ただし、ファイルは、必ずしも公開されて簡単にWebブラウザを使用して誰もがチェックされます。

というだけで、これらに比べて、一致することを文字列で始まる名前を持つそれ以外のすべてのファイル：robots.txtのパターンは、単純な文字列の比較で一致するので、注意がディレクトリにマッチするパターンが追加最終的な'/'文字を持っていることを確認するために注意が必要ですディレクトリが意図した。

メタタグ - メタタグは、データに関する構造化されたデータを提供するために使用されています。

多くのWebサイト、または不適切なキーワードを使用して、任意のすべてのトラフィックを可能に得るために詰めキーワードいた2000年代初頭では、検索エンジンは、メタタグへの依存から離れてそれた。

結果を出すとき、いくつかの検索エンジンは、しかし、まだいくつかの考慮メタタグを取る。近年では、検索エンジンは、（検索ランキングでブーストを得るために同じキーワードを複数回繰り返すことによって）不正行為をされているウェブサイトを罰する、賢くなっている。代わりにランキングを上がっていくのは、これらのウェブサイトは、ランキングの中では下がるだろうか、いくつかの検索エンジンでは、完全に検索エンジンのキックオフされます。

インデックスサイト - あなたのサイトや情報収集をクロールする行為。

ではなく、一致するだけで、これらのディレクトリ内の意図した文字列で始まる名前を持つそれ以外のすべてのファイル：ディレクトリにマッチするパターンが追加最終的な'/'文字を持っています。

メタタグ - メタタグは、データに関する構造化されたデータを提供するために使用されています。

インデックスサイト - あなたのサイトや情報収集をクロールする行為。

どのようにrobots.txtファイルやメタタグがあなたを助けることができますか？

robots.txtのには、単独でWebサイトを残して有害なのWebクローラ'を伝えることができますし、あなたのサイトをクロールするものに役立つヒントを与える。ここにあなたのサイトを検索するWebクローラーを拒否する方法の例を示します：

＃これはウェイバックマシンを識別する
ユーザーエージェント：ia_archiver
禁止：/

ia_archiverは、あなたが聞いたことがあるかもしれないタイムマシンのクローラ名/禁止はサイトの任意のインデックスではなく、ai_archiver指示した。＃は、あなたが入力した内容を追跡することができますあなたはとても自分にコメントを書き込むことができます。

Webサイト、世界の残りの部分には見えないのTS。ただし、ファイルは、必ずしも公開されて簡単にWebブラウザを使用して誰もがチェックされます。

メタタグ - メタタグは、データに関する構造化されたデータを提供するために使用されています。

インデックスサイト - あなたのサイトや情報収集をクロールする行為。

どのようにrobots.txtファイルやメタタグがあなたを助けることができますか？

＃これはウェイバックマシンを識別する
ユーザーエージェント：ia_archiver
禁止：/

コンピュータ技術

2011年1月22日土曜日

どのように検索エンジンロボットを制御する

0 件のコメント:

コメントを投稿