KH Coderで容量の大きいファイルを分析にかけるときには、あまりにも時間がかかることがあります。
前もって、エラーがあるかどうかを確認(「分析対象ファイルのチェック」)して、エラーが無い場合、加えて、エラーの表示が分析中に出ない場合には気長に待っているのも一つの策です。ただ、どれだけ待てばよいのかわからないこともあります。
そのため私の例を挙げておきます。
条件
- RAM 8MB
- CPU Intel i7
- ファイル容量:188MB
- 文書数:14万
結果
- 前処理(排除する単語を指定)の所要時間:4時間8分(一回目)、3時間41分(二回目)、4時間38分
- MDS分析の所要時間:7分前後
また、別のファイルでも試してみました。
条件
- RAM 8MB
- CPU Intel i7
- ファイル容量:10MB(エクセル)
結果
- エラーの事前チェック:50分
- 前処理(排除する単語を指定)の所要時間:14分
- ベイズ学習のための取り込み:20分前後
ちなみに開発者の方が試した結果は以下のリンク先にあります。
Frequently Asked Questions about KH Coder
他にも、処理とデータファイルの大きさに関連したFAQも備忘録として同時に掲載しておきます。
- http://www.koichi.nihon.to/cgi-bin/bbs_khn/khcf.cgi?&no=1277&mode=allread
- http://www.koichi.nihon.to/cgi-bin/bbs_khn/khcf.cgi?list=&no=1578&mode=allread&page=0
- http://koichi.nihon.to/cgi-bin/bbs_khn/khcf.cgi?no=1733&mode=allread
- http://koichi.nihon.to/cgi-bin/bbs_khn/khcf.cgi?no=1989&mode=allread#1989
- http://khc.sourceforge.net/FAQ.html#d-size-time