2012.4  The robot lists

うーん ログになんかみたことないアドレス。
しかも、月に7860回もアクセスしています。
.htaccessで拒否にいれてあげようかと思いましたが(ドメインブロック)
.go.jpドメインを参照してとあるので
とりあえず様子見。
※後日whois.jpドメイン管理情報を閲覧して本当に
.go.jpか調べます。

 [Domain Name] JGN-X.JP
 [登録者名] 独立行政法人情報通信研究機構

あとは、定番のロボしかlogに載っていないので
今回の定期ログ検閲は、問題なし。

ホスト名
host name
gw.ucri.jgn-x.jp
IP
-
ユーザーエージェント
UserAgent
ICC-Crawler/2.0 (Mozilla-compatible; ; http://kc.nict.go.jp/project1/crawl.html)
なんだろう ね?
行動分析や
犯罪捜査などに利用しているのかな?

検索エンジンでもないので、
サーバー負荷でペナルティー受けるリスクを考えると
協力する必要性は限りなくないですね。

アクセスお断り 拒否したい場合は

(.htaccess)
Deny from jgn-x.jp
SetEnvIf User-Agent " ICC-Crawler" setuzoku_kyohi
Deny from env=setuzoku_kyohi

(robots.txt)
User-agent: ICC-Crawler
Disallow: /


ホスト名
host name
crawl-数字-数字-数字-数字.googlebot.com
IP
-
ユーザーエージェント
UserAgent
Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
Google の自動サイトデータ収集ソフトウェア

ホスト名
host name
msnbot-数字-数字-数字-数字.search.msn.com
IP
-
ユーザーエージェント
UserAgent
Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm
前から bing? だったかな?
以前は、これだったみたい。
msnbot/2.0b (+http://search.msn.com/msnbot.htm)._

アクセスの80%は検索エンジンですけど、
利用統計 トップ 30 of 45 国
をみると、いろんな国からアクセスがあるのですね。
遠くに住む日本の方がアクセスしている場合もあるようです。