ブログをマスター?♪
カテゴリー
Links
blog(ブログ)マスター
アンドロイドの巣
ゼロから始めるベランダ菜園
タイトル
ラジコン
2022年10月
1 2
3 4 5 6 7 8 9
10 11 12 13 14 15 16
17 18 19 20 21 22 23
24 25 26 27 28 29 30
31

ホスト規制  (& robots.txt、SEO) ロボットよ さようなら

カテゴリー: General
2006-03-02 17:17
ホスト規制  (& robots.txt、SEO)


 あまり多くに来てもらうと
転送量オーバーなどで
訪問者がみれなくなります。

不要なホストは .htaccessで撃退しましょう

さくらの場合は、
上位で規制すると全体に規制がかかるので便利です。


下位階層に適用しないサーバーは、要注意。

みられてこまるフォルダ名は、かかずに htaccessなどで対処しましょう
 おすすめ ホスト規制 
archive.org つよくお勧め

拒否する前に robots.txtを読ませてから、
アクセス規制するとよいかも
.mil ふさぐと別からきそう・・・
でも 無駄なアクセス反対
.gov ここも・・・
 無駄なアクセス反対
hatena.ne.jp  従わないので強制退去。
picsearch.com ねこそぎアクセスしてきます。
きをつけましょう・・・
exabot.com  
64.124.85.212 BecomeBot
eva03.razil.jp


別ホストでやってくることも十分ありますので
robots.txt にも 拒否書いておきましょう

くっついていると 境目を認識しないので
サイトとサイトは
行間を1行(空行)以上あけましょう。

やってきたドメイン

robots.txt

archive.org User-agent: ia_archiver
Disallow: /
picsearch.com User-agent: psbot
Disallow: /
hatena.ne.jp User-agent: Hatena Antenna
Disallow: /
64.124.85.212 User-agent: BecomeBot
Disallow: /
User-agent: *
Disallow: /images/

User-agent: ia_archiver
Disallow: /

User-agent: psbot
Disallow: /

User-agent: Hatena Antenna
Disallow: /


あげると きりがないので あとは やってきたら
いらないものは撃退しましょう

全部拒否して、必要な物を許可する方法もあります・・・
きてほしいところの ボットの名前を網羅できるかが問題ですけどねぇ。。。。
名称変更とか・・・

拒否して 一部許可する? User-agent: *
Disallow: /

User-Agent: Googlebot
Disallow:

User-agent: msnbot
Disallow:

User-agent: Slurp
Disallow:

User-agent: ichiro
Allow: /

User-agent: Infoseek SideWinder
Disallow:
Crawl-delay: 1

※ 上記は ほとんどPC用エンジンです
 携帯使っていないので、
主に日本で
携帯用の検索エンジンは、なにがあるのかしらないので
わかりません。


Crawl-Delay: 秒数
で巡回間隔をしてできる場合もあります。
1秒の場合
Crawl-delay: 1


おまけ
robots.txt
・自動収集ソフトへのお願いを書いた普通のテキストファイル
だから人もみれるので、みられて困る内容は書かない
・書式を間違えると、ダメ
・書いても、あくまでもお願いなので多々無視されることもある。
・トップフォルダのrobots.txtしかみないソフトがほとんど。




.htaccess と cgi で robots.txt を動的生成。
なんてのいいかと思います。
useragentをひろって 保存しておくとか・・・
useragent爆撃を受ける可能性がありますが・・・


メモ:
日本のモバイルエンジン?
モバイルgoo http://mobile.goo.ne.jp/
Infoseekモバイル http://m.infoseek.co.jp/
Google の携帯サイト検索

モバイル サイトマップの作成
http://mobile.google.co.jp/mobile_search.html

ブログ内 関連記事: ホスト規制 (& robots.txt、SEO) ロボットよ


ブログ内 関連記事: ホスト規制 (& robots.txt、SEO) ロボットよ

トラックバック
トラックバックはありません。
PR