- 2010年4月 6日 03:55
- Application | rodem
ActivePerlがインストールされていることが前提。
WebサーバからPPMファイルをインストールする必要があるので、インストール時にはインターネットに接続されている必要がある。
全文検索システム Namazu for Windowsから、nmz2.0.20.001-win32.zipをダウンロード。
展開したら、基本的にはreadme.txtどおりにインストール。
環境変数HOMEをc:\namazuにするように書いてあるのだが、HOMEはc:\homeにしてあるので、とりあえずC:\homeのままにしておく。
NamazuのHOMEを設定する必然性は無いような気がするのだが、mknmz.batなどでNAMAZURCが定義されていない場合、~namazu\.namazurcなどを読むようにしているからだろうか。
拡張タイプは必要無い気もするのだが一応ext-inst.batも実行する。
namazu\etc\namazuの下に-sample.win32を参考にnamazurc、mknmzrcを作っておく。
mknmzrcの変更点(コメントアウト含む)
$HTML_SUFFIX = "html?|[ps]html|html\\.[a-z]{2}";
$ALLOW_FILE = ".*\\.(?:$HTML_SUFFIX)|.*\\.txt" . # HTML, plain text
...
$DENY_FILE = ".*\\.(gif|png|jpg|jpeg)|.*\\.tar\\.gz|core|.*\\.bak|.*~|\\..*|\x23.*";
$NON_SEPARATION_ELEMENTS = 'A|TT|CODE|SAMP|KBD|VAR|B|STRONG|I|EM|CITE|FONT|U|'.
'STRIKE|BIG|SMALL|DFN|ABBR|ACRONYM|Q|SUB|SUP|SPAN|BDO';
$HTML_ATTRIBUTES = 'ALT|SUMMARY|TITLE';
$ON_MEMORY_MAX = 150000000;
$FILE_SIZE_MAX = 120000000;
$TEXT_SIZE_MAX = 6000000;
$WORD_LENG_MAX = 128;
%Weight =
(
'html' => {
...
);
$INVALID_LENG = 128;
$MAX_FIELD_LENGTH = 200;
$NKF = "module_nkf";
$KAKASI = "module_kakasi -ieuc -oeuc -w";
$WAKATI = $KAKASI;
$LIBDIR = 'C:/namazu/share/namazu/pl';
$FILTERDIR = 'C:/namazu/share/namazu/filter';
$TEMPLATEDIR = 'C:/namazu/share/namazu/template';
この時点でmknmz -Cで確認。
namazurcの変更点(コメントアウト含む)。
実際にはコマンドラインでnamazuを使うことはほぼ無いだろうから、必要ないかもしれない。
Index C:\namazu\var\namazu\index
Template C:\namazu\var\namazu\index
Lang ja_JP.SJIS
"C:\namazu\pltests> perl alltests.pl"によるテストが完了したら、とりあえずIndex作成と検索のテスト。
テストなので対象ディレクトリはあまり大きくない方がよいだろう。
mknmz -O c:\namazu\var\namazu\index c:\home\tmp
XPDF 3.02pl4
PDFの検索を行うために、XPDF(pdftotext)をインストールする。
Xpdfから、xpdf-3.02pl4-win32.zip(Xpdf 3.02pl4)、xpdf-japanese.tar.gz(Japanese Language Support Packages)をダウンロードする。
xpdfのexeファイルをすべて\usr\binに、sample-xpdfrcをxpdfrcにリネームして\usr\binにコピーする。
次に、Japanese Language Support Packagesを展開したxpdf-japaneseを\usr\libにコピーして、中のadd-to-xpdfrcをパスをWindows形式に書き換えて\usr\bin\xpdfrcにコピーする。
Excelの古いバージョンなどを読もうとしたときに、「このマクロは無効化できません」という、エラーメッセージが出て、Indexの作成がいったん止ってしまう。無人でインデックスを作成しようとしたときには、これはけっこう問題だ。xdoc2txtで解決できるかもしれない。
最後に、巨大なディレクトリにたいして一気にインデックスを作ると、エラーになる確率が非常に高い。
そこで、
allmknmz.bat
という、ディレクトリを分割してインデックスを作るバッチファイルを作成する。
search-s for Namazu 0.9.2
せっかくのWindowsなのでGUIで検索するためにsearch-s for Namazu 0.9.2もインストール。
search-s for Namazuより、srchs092.exeをダウンロードしてインストールした後に、srchs093beta-0421.lzhをダウンロードして、C:\Program Files\search-s\searchs.exeを上書き。
c:\namazuにインストールしていれば、とりあえずは設定不要。
インデックスは、ディスクのフラグメントにかなりの悪影響を与えるので、namazurcとmknmzの実行バッチファイルを変更して普段使わないディスクに作成するようにする。
- Newer: スパムフィルタの検討
- Older: 文書全文検索の検討