ホスト規制 (& robots.txt、SEO)
あまり多くに来てもらうと
転送量オーバーなどで
訪問者がみれなくなります。
不要なホストは .htaccessで撃退しましょう
さくらの場合は、
上位で規制すると全体に規制がかかるので便利です。
下位階層に適用しないサーバーは、要注意。
みられてこまるフォルダ名は、かかずに htaccessなどで対処しましょう
おすすめ ホスト規制 |
archive.org |
つよくお勧め
拒否する前に robots.txtを読ませてから、
アクセス規制するとよいかも |
.mil |
ふさぐと別からきそう・・・
でも 無駄なアクセス反対 |
.gov |
ここも・・・
無駄なアクセス反対 |
hatena.ne.jp |
従わないので強制退去。 |
picsearch.com |
ねこそぎアクセスしてきます。
きをつけましょう・・・ |
exabot.com |
|
64.124.85.212 |
BecomeBot |
eva03.razil.jp |
? |
別ホストでやってくることも十分ありますので
robots.txt にも 拒否書いておきましょう
くっついていると 境目を認識しないので
サイトとサイトは
行間を1行(空行)以上あけましょう。
やってきたドメイン |
robots.txt
|
archive.org |
User-agent: ia_archiver
Disallow: / |
picsearch.com |
User-agent: psbot
Disallow: / |
hatena.ne.jp |
User-agent: Hatena Antenna
Disallow: / |
64.124.85.212 |
User-agent: BecomeBot
Disallow: / |
User-agent: *
Disallow: /images/
User-agent: ia_archiver
Disallow: /
User-agent: psbot
Disallow: /
User-agent: Hatena Antenna
Disallow: /
|
あげると きりがないので あとは やってきたら
いらないものは撃退しましょう
全部拒否して、必要な物を許可する方法もあります・・・
きてほしいところの ボットの名前を網羅できるかが問題ですけどねぇ。。。。
名称変更とか・・・
拒否して 一部許可する? |
User-agent: *
Disallow: /
User-Agent: Googlebot
Disallow:
User-agent: msnbot
Disallow:
User-agent: Slurp
Disallow:
User-agent: ichiro
Allow: /
User-agent: Infoseek SideWinder
Disallow:
Crawl-delay: 1
|
※ 上記は ほとんどPC用エンジンです
携帯使っていないので、
主に日本で
携帯用の検索エンジンは、なにがあるのかしらないので
わかりません。 |
Crawl-Delay: 秒数
で巡回間隔をしてできる場合もあります。
1秒の場合
Crawl-delay: 1
おまけ
robots.txt
・自動収集ソフトへのお願いを書いた普通のテキストファイル
・だから人もみれるので、みられて困る内容は書かない。
・書式を間違えると、ダメ
・書いても、あくまでもお願いなので多々無視されることもある。
・トップフォルダのrobots.txtしかみないソフトがほとんど。
» ホスト規制 (& robots.txt、SEO) ロボットよ さようなら'">続きを読む