SpamAssassin 3.2.3の日本語対応パッチ

SpamAssassin-JPメーリングリストにしかアナウンスしていないのに、先ほど気が付きました。
SpamAssassin 3.2.3に対する日本語対応パッチを先月の末に公開しました。

http://spamassassin.jp/download/sa3.2/

注意点があるので、引用してみます。

概要

オリジナルのSpamAssassinの3.2系列はnormalize_charsetオプションを有効にする
ことにより、日本語等のマルチバイトの文字をUTF-8に正規化してから、ルールの
評価を行うことができることが意図されています。
しかし、SpamAssassin 3.2.3では、実はこの設定オプションは十分には機能してい
ません。
そのため、この日本語対応パッチでは日本語等のマルチバイト文字の言語を正しく
扱うことができるようにしています。

なお、このパッチは日本SpamAssassinユーザ会(http://spamassassin.jp/)により
開発が行われています。

      • -

バージョン3.1系列との違い

SpamAssassinの3.2系列ではJohn Gardiner Myer氏のnormalize_charsetパッチが
取り入れられています。normalize_charsetオプションを有効にすると、メールの
ヘッダや本文の文字エンコーディングUTF-8に変換した上で、ルールの評価を行
います。

日本語対応パッチでは3.2系列のnormalize_charsetオプションに仕様を合わせる
ために3.1系列に日本語対応パッチとは互換性が無くなっています。
3.1系列の日本語対応パッチで提供していた"nbody"ルールやヘッダテストにおける
":utf8"クエリはなくなりました。直接、bodyルールやヘッダテストにUTF-8の文字
を記述することになります。
また、旧来のISO-2022-JPの文字をバイト文字で記述するルールは
normalize_charsetオプションを有効にすると使えなくなります。