- 2010年4月 6日 03:28
- Application
やはり、所有する文書の全文検索は欲しい。
対象文書は、最低限テキスト、Word、Excel、PDF。Thunderbirdのメールデータも検索できればうれしいが、Thunderbird自体の検索機能を使えばよいので、必須ではない。
フリーソフトなどでもいくつかあるが、メインテナンスの安心感から最終候補として上がったのは以下の3つ。これらは、いずれもプラグインで検索対象を追加できる。
Windows デスクトップ サーチ(WDS)
長所
- OS開発元のものなので、若干の安心感。
- アイドルタイムにインデックス作成を行う。
- IFilterで様々なファイル形式に対応できる(Windows Searchで様々なファイルを検索する - memo.xight.org、IFilter dot org)。
- XMPメタデータを使った検索もできる(SeaGate Blog: WindowsデスクトップサーチでXMPメタデータの検索)。
- インクリメンタルサーチが可能。
短所
- Adobe PDF IFilter 6.0では、PDF検索がうまくいかないらしい(Acrobat 8付属のIFilter 8を使うとうまく行くかも?)。
- Foxit PDF IFilterを使えばうまくいくようだ(Windows Vista 64bit 版 での PDF 全文検索)。
Googleデスクトップ(GDS)
長所
- GoogleのWeb検索との統合。
- Thunderbirdのメールデータも検索できる。
- 様々なファイル形式に対応したプラグインが開発されている。
- Google Desktop Gadgets
短所
- 大きなファイルは、先頭の英単語レベルで75,000文字まで、日本語レべルで4000語程度しかインデックスされない(ファイル : アイテムを検索できない - Windows 用デスクトップ ヘルプ)。
- 標準のPDF検索では、透明テキストやスキャンされた画像が含まれているPDFは検索できない(GoogleXdocや、Xpdfテキスト付属のPDFtoTextを使えば可能)。
Namazu
長所
- オープンソース故の、開発の継続性および発展性。
- search-s for Namazuを使えば、GUIでも使える。
短所
- インデックス作成のタイミングは、自分で指定する必要がある。
結論
とりあえず、GDSは完全な全文検索ではないので、選択から外れる。
機能的な面から考えれば、CPUの空き時間に常に最新のインデックスを作ってくれるWDS
の方が、安易に使用することはできる。特に、OSと密接に開発されているWDSなら、新規ファイルが作成されたことをトリガにして、インデックス作成を指示するくらいのことはしているのかもしれない。
反面Namazuでは、インデックスの作成は、明示的に指示する必要がある。
が、現実問題として、ある程度定期的(週に1回程度)インデックスの作成を行っておけば、検索のお世話になることは無いのではないだろうか。どこに保存したかを忘れてしまった場合は別として...
さらに言えば、意図しない時にインデックスの作成が行われてしまい、コンピュータの負荷が上がってしまうという状況を避けることもできる。
検索の対象となるファイルの種類については、WDSの方が、Jpegなどのメタタグまで対応しており、広範囲と言えるだろう。だが、現状テキスト、HTML、Word、Excel、PDFが検索できればそれで十分だろう。
WDSであれば、WDS APIに対応した他のアプリケーションからの利用も可能というのは、メリットではあるが、現状はまずニーズはなさそうだ。
いずれWindows 7、Oddice 2007あたりに移行すれば、WDSを使いそうな気がするが、とりあえずは、Namazuを使ってみよう。
実際に、Namazuをインストールしてみた。
大量のファイルを一気に追加したときには、さすがにある程度時間はかかるが、
検索対象が300G程度の僕の環境では、日々普通に増えていくファイルのインデックスを追加するくらいであれば、数分以内に完了するのでそれほど気にならない。
その他にちょっと気になったツール。
DesktopHE -Hyper Estraierを使用したWindows用デスクトップ検索ツール-
やはりインデックスを作成して、それから検索するツール。Javaで動作する。
Everything Search Engine
ファイル名を高速に検索するツール。