SpamAssassin-3.1.4日本語対応パッチ(案、その5)

SpamAssassin 3.1.4がリリースされました。
http://www.nabble.com/ANNOUNCE%3A-Apache-SpamAssassin-3.1.4-available%21-tf2006913.html#a5513234

また、日本語対応パッチ(案、その5)もリリースしました。メーリングリストに投稿した案内文を書きます。

SpamAssassin-3.1.4に対する日本語対応パッチ(案、その5)を公開しました。
http://www.emaillab.org/spamassassin/

注意事項:
 ライセンスの関係上、わかち書きプラグインとしてKAKASIを使うのをやめました。
 また、MeCabPerlバインディングとしてmecab-perlを使うのをやめ、Text::MeCab
 を使うようにしました。

文書も少しだけ書いてみました。
http://www.emaillab.org/spamassassin/patch/spamassassin-3.1.4-normalize-test5.txt

この案で私自身が懸念していた事項はだいたい解決したかなというところです。
後は、いろんなメールを食わせてみて問題が生じないかを様子見というところです。

                                                                                                                                                      • -

test4からの変更点

  • バグの修正
    • Message.pmにおいて言語情報を取得できないときに警告が出ていたのを修正した。
    • \x0が含まれているメッセージが誤ってUTF-16と判定されてしまうことを防止した。
  • パッチと一緒に配布するわかち書きプラグインにText::MeCabを使うことにした。
  • ベイズ処理時に1文字のトークンと2文字のひらがなあるいはカタカナのトークンを削除するようにした。
  • Tokenizer.pmの仕様を変更した。
  • Charset.pmの変換マップの整理を行った。
  • リファクタリングもどきを行った。
                                                                                                                                                      • -