« SNS

Webサービス »

●スパイダーをつくりたい。

2007年04月18日
この記事にコメントする

情報の自動収集→自動HTML化から着想したアイデアが、
自分の頭の中で、ずいぶん発展してきた。

そしてそれはだんだんと、自分専用のスパイダーをつくりたい欲求に・・・。


ちなみにスパイダーとは、
クローラーとか、ロボットと呼ばれるものと同義。
自動的にウエブをはいまわって(クロールして)くる、ツール。

ちょっと調べてたら、↓こんなサイトを発見した。
IBMのサイトから。


  「Linuxでスパイダーをビルドする」


これって、もしかしてとんでもないお宝じゃないの?
それにそれに。


あの、いつもよく使ってたwgetって、そんなに便利なソフトだったんだー。
例えば↑のIBMのサイトで紹介されていた例として、


 wget -A mp3,mpg,mpeg,avi -r -l 3 http://"some URL"


定義されたURLに接続し、再帰的に 3 レベルまで辿って、
拡張子が mp3、mpg、mpeg、または avi のファイルを取り込む。
だって。

この他に、

 curl
 snarf
 fget
 fetch

あたりも有効だとか。
これはいいこときいた。

今まで、Linuxといえば サーバー(クライアントに対するという意味の)として
使うことしか頭になかったんだけど、
そう、Linuxをクライアントして、常時動かす道具にしたら、
すごいことができてしまう。。


早くDebianマシンをもう一度手元におきたい。Fedraでもいいけどね。
Vistaを買って、今動いてるXPをつぶしちゃおーかなぁ。

●NotFound のアクセスを強制的にトップページに誘導。

2007年04月09日
この記事にコメントする

今日は、久々にApacheの設定を思い出しながら、設定した。
毎日のようにLinuxサーバ上のhttpd.confといじってたころが、懐かしい。


前にどこかのサイトで、


ミラーサイトをつくると、SEO的にはかえってよくない可能性あり。
ランクを下げられる。


という話をきいたことがある。

これが本当なのかどうかは、詳しく調べてないので、私にはまだわからない。
(どなたか知ってたら教えてください)
理屈では理解できるので、そうなのかも知れない。

もしそれがほんとだとすると、同一サイト内に全く同じファイルが大量にあったら?
サイトマップを送ってるし、もしかしたら好ましくないのではないかという不安。


実は、前に、階層をあげるためにエントリーアーカイブの保存方法を変更したことで
ファイルが二重にできてしまった。


 前のパーマリンクは、 http://..../2007/04/02/221503.php みたいな感じで、
 今度のは、http://..../0704022215.php みたいな感じ。


だから、ちょっと怖かったけど、古いパスにあるファイルを削除した。


 ↓↓↓ しかし ↓↓↓


前のファイルを捨てたら、トラックバック先のリンクとか、
古い検索エンジンのキャッシュは捨てるの?
それってあまりにももったいない・・・

ということで、.htaccess で、リダイレクトを設定した。
ちなみにリダイレクト設定は簡単。

ErrorDocument 404 リダイレクト先

と書いたファイルを.htaccessという名前で保存してアップして、終わり。


# ただし、リダイレクトの内容によっては、その方法も細かく考える必要がある。
# 例えば、.htpasswdで認証エラーになった場合のものをリダイレクトする場合は、
# アクセスした人が、認証エラーになったことが明確にわかるようにしないと、
# 認証が通ったのかはじかれたのかわからず混乱してしまう。
# →ページをはさむ必要がある。など。


でも複雑なことをやってない人は、↑のでいける。
アクセスがある可能性のあるディレクトリに、この.htaccessをただおけばいい。


webをもっている人で、
もし、404 FileNotFound を避けて、少しでもアクセスをのばしたいなら、
この設定は必須。
もちろんこれは、ブログに限らない。