Home > Application > 文書全文検索の検討

文書全文検索の検討

  • Posted by: YAMAGISHI Norimasa
  • 2010年4月 6日 03:28
  • Application

やはり、所有する文書の全文検索は欲しい。

対象文書は、最低限テキスト、Word、Excel、PDF。Thunderbirdのメールデータも検索できればうれしいが、Thunderbird自体の検索機能を使えばよいので、必須ではない。

フリーソフトなどでもいくつかあるが、メインテナンスの安心感から最終候補として上がったのは以下の3つ。これらは、いずれもプラグインで検索対象を追加できる。

Windows デスクトップ サーチ(WDS)

長所

短所

  • Adobe PDF IFilter 6.0では、PDF検索がうまくいかないらしい(Acrobat 8付属のIFilter 8を使うとうまく行くかも?)。
  • Foxit PDF IFilterを使えばうまくいくようだ(Windows Vista 64bit 版 での PDF 全文検索)。

Googleデスクトップ(GDS)

長所

  • GoogleのWeb検索との統合。
  • Thunderbirdのメールデータも検索できる。
  • 様々なファイル形式に対応したプラグインが開発されている。
  • Google Desktop Gadgets

短所

Namazu

長所

  • オープンソース故の、開発の継続性および発展性。
  • search-s for Namazuを使えば、GUIでも使える。

短所

  • インデックス作成のタイミングは、自分で指定する必要がある。

結論

とりあえず、GDSは完全な全文検索ではないので、選択から外れる。

機能的な面から考えれば、CPUの空き時間に常に最新のインデックスを作ってくれるWDS
の方が、安易に使用することはできる。特に、OSと密接に開発されているWDSなら、新規ファイルが作成されたことをトリガにして、インデックス作成を指示するくらいのことはしているのかもしれない。

反面Namazuでは、インデックスの作成は、明示的に指示する必要がある。
が、現実問題として、ある程度定期的(週に1回程度)インデックスの作成を行っておけば、検索のお世話になることは無いのではないだろうか。どこに保存したかを忘れてしまった場合は別として...
さらに言えば、意図しない時にインデックスの作成が行われてしまい、コンピュータの負荷が上がってしまうという状況を避けることもできる。

検索の対象となるファイルの種類については、WDSの方が、Jpegなどのメタタグまで対応しており、広範囲と言えるだろう。だが、現状テキスト、HTML、Word、Excel、PDFが検索できればそれで十分だろう。

WDSであれば、WDS APIに対応した他のアプリケーションからの利用も可能というのは、メリットではあるが、現状はまずニーズはなさそうだ。

いずれWindows 7、Oddice 2007あたりに移行すれば、WDSを使いそうな気がするが、とりあえずは、Namazuを使ってみよう。

実際に、Namazuをインストールしてみた。

大量のファイルを一気に追加したときには、さすがにある程度時間はかかるが、
検索対象が300G程度の僕の環境では、日々普通に増えていくファイルのインデックスを追加するくらいであれば、数分以内に完了するのでそれほど気にならない。

その他にちょっと気になったツール。

DesktopHE -Hyper Estraierを使用したWindows用デスクトップ検索ツール-
やはりインデックスを作成して、それから検索するツール。Javaで動作する。

Everything Search Engine
ファイル名を高速に検索するツール。

Trackbacks:0

TrackBack URL for this entry
http://rally.jp/cgi-bin/mt/mt-tb.cgi/1909
Listed below are links to weblogs that reference
文書全文検索の検討 from Computer

Home > Application > 文書全文検索の検討

Search
etc...
Feeds

Return to page top