SpamAssassin-3.1.5日本語対応パッチ(案、その6)

SpamAssassin 3.1.5が先日リリースされたので対応した日本語対応パッチを作り、公開しました。

メーリングリストに投稿した案内文を書きます。

SpamAssassin-3.1.5に対する日本語対応パッチ(案、その6)を公開しました。
http://www.emaillab.org/spamassassin/

3.1.5への対応が遅れて申し訳ありません。
機能を少し追加しました。

Tokenizer::SimpleJAプラグインというわかち書きプラグインを追加しました。
このプラグインは文字種毎にわかち書きを行います。実装上はアルファベット、カタカナ、漢字のみをベイズ用のトークンとして取り出すようにしました。ひらがなはノイズとなりやすいのでトークンとして使いません。かなり、乱暴な処理を行っていますが、実用上、それほど問題は生じないと思います。

なお、このプラグインを作成した意図は次の通りです。

  • 開発メーリングリストに投稿する際に、MeCabが無いと評価できないのは良くない。
  • MeCabを導入できない、あるいは手っ取り早く評価をしてみたい方のために、何かわかち書きプラグインが欲しかった。

もちろん、MeCabの方が精度が高いので、MeCabを使える方はMeCabプラグインの方をお使いください。

                                                                                                                                                      • -

spamassassin-3.1.5-normalize-test6.patch (2006-09-10)

test5からの変更点

  • ReplaceTagsプラグインをnbodyルールに対応させた。
  • 設定オプションreport_charsetに従ってreportの文字コードの変換を行うようにした。
  • 日本語の大雑把なわかち書きを行うTokenizer::SimpleJAプラグインを追加した。
                                                                                                                                                      • -