2006-01-01から1年間の記事一覧

Text::MeCab 0.09

http://d.hatena.ne.jp/lestrrat/20060711#1152640821 Text::MeCab 0.09をアップロードしたとのことなので、早速CPANからダウンロードしてRPMパッケージを作ってインストールしてみました。 気になる点 処理速度の問題はほぼ無くなったのですが、気になった…

Text::MeCabの処理時間、その2

牧さんが、早速対応してくれました。 http://d.hatena.ne.jp/lestrrat/20060711#1152613230処理時間を計測してみると次のようになります。 $ time ./wakati-text-mecab.pl < ~/spam-utf8.txt > /dev/null real 0m0.041s user 0m0.028s sys 0m0.012s $ time .…

Text::MeCabの処理時間

Text::MeCabでのわかち書き処理が遅い件について、記録を取っていなかったので再度処理時間を計り直しました。用意した文章は次のものをUTF-8に変換したものです。 実際に来た迷惑メール(1767バイト) 青空文庫より『瓶詰地獄』(夢野 久作著)(25496バイト) …

文字列の連結、その2

前回に引き続き、変数を含む3つの文字列を連結する場合はどの方法がよいのか調べてみます。結果の変数に格納する際に"+="を使うのは明らかに遅いのでconcatを使うことにします。 テスト1: "+"による連結 str = 'def' for i in 1..100000 buf = 'abc' + str +…

文字列の連結

Rubyにおける文字列の連結に関してどの方法で処理した方がコストが小さいかを調べてみます。PerlやJavaでの経験上ある程度の予測は付きますが。 テスト1: "+"による連結 buf = '' for i in 1..100000 buf += 'abc' end テスト2: " buf = '' for i in 1..1000…

エアコン買い換え

今まで使っていたエアコンに気に入らない点や問題*1があったので、本格的な夏が始まる前に買い換えました。 買ったのはダイキンの昨年のモデルAN22FRSです。型落ちなので工事費込みで86000円で買えました。 なんか色々機能がてんこ盛りです。補給水いらずで…

SF 2.0トークショーネット中継

http://geetstate.org/より カウントダウン企画として、7月8日の深夜25:30(7月9日午前1:30)より2時間、桜坂洋と東浩紀が第45回日本SF大会会場で行うトークショー「SF 2.0」の模様を生中継いたします。以下の要領にしたがって、お聴きください。 とのことな…

日本語対応パッチのバグ発見

ということで、sa-learnで学習させていたら、日本語対応パッチのバグを2つ見つけてしまいました。 一つ目は値が未定義だった場合のチェック漏れ。これはよくやります。反省。 二つ目はあり得ない文字コードがあった場合の例外処理。UTF-16な文書ではないのに…

OSC2006.DB

オープンソースカンファレンス2006.DBに行ってきました。今回はオープンソースに的を絞ったサブカンファレンスということです。MySQLのセッションから聴こうと思っていたのですが、寝坊*1と会場近くで思いっきり道に迷った*2ため、PostgreSQLのセッションか…

青木智仁さん逝去

http://www.nikkei.co.jp/news/okuyami/20060613AS1G1301H13062006.html http://d.hatena.ne.jp/sugarbabe49/20060613えー、嘘だろう、冗談じゃないのか。 何だか言葉が出ない。

某所の原稿執筆完了

結構時間を費やしました。面白かったけど疲れました。

Text::MeCab

牧大輔さんがText::MeCabを作って公開しているのに今更ながら気が付きました。 http://search.cpan.org/~dmaki/Text-MeCab/ Text::KakasiのMeCab版のようなものが欲しいなと思っていたのありがたく試させていただきました。分かち書き処理をするだけの場合っ…

To Do

Message->new()に渡す引数としてconfは渡さずに、normalize_charsetを直接渡した方がよいのではないか? Message::Nodeへも同様に行い、内部的にはconfは一切使わないようにする。 normalize_charsetに関して脱設定オプション化を計る。(やたらめったらconf…

MeCabのPerlバインディング

MeCabのPerlバインディングに少々問題があります。test3より - MeCab-0.90rc10以降では次のようなエラーが出て、分かち書きが失敗する。 TypeError in method 'Tagger_parse', argument 2 of type 'char const *' どうしてか? まだ、深く追いかけていないが…

SpamAssassin 3.1.3

http://www.nabble.com/ANNOUNCE%3A-Apache-SpamAssassin-3.1.3-available%21-t1736096.htmlspamdを"--vpopmail"と"-P"の両方のオプションを付けて起動しているときにリモートからコードの実行が可能であるというセキュリティーホールの対応が行われました。…

日本語対応パッチ案、その4

SpamAssassinの日本語対応パッチ案その4を公開しました。 http://www.emaillab.org/spamassassin/SpamAssassin 3.1.3が出たのでその対応とバグの修正です。 spamassassin-3.1.3-normalize-test4.patch (2006-06-06) test3からの変更点 - バグの修正 -- Messa…

日本語対応パッチ案、その3

バグがありました orz warningが出るだけで実害はないのですが。 即席パッチを作ってサイトに載せました。

日本語対応パッチ案、その3

SpamAssassinの日本語対応パッチ案その3を公開しました。 http://www.emaillab.org/spamassassin/ 少しはマシなコードになっているのでここでも公開します。test1,test2は酷かった orz 修行不足です。昨日、まるまる一日かけて作業しました。月に1,2日しか作…

風邪

前回の記事の結論は風邪でした。 5月始めまで風邪をひきっぱなしでした。風邪は一応治ったようなのですが、咳のし過ぎで気管を痛めたのか咳がよく出るようになりました。体調はあまり良くない状態が未だに続いています。

風邪?黄砂?

鼻水は止まらないは、くしゃみがでるは、喉が痛いは、目はくしゃくしゃするは、肺が何となく痛いは、軽い微熱(36.6〜8℃という微妙な体温)がでるはというアレルギー症状なのか風邪なのかわからない状態が木曜日から続いています。 最近話題の黄砂の影響なのか…

UTF-8 -> ISO-2022-JP

私のメール環境は、WindowsのノートPCからLinuxサーバにPuttyを使ってsshでログインして、VimやMuttを使ってメールを読み書きしています。このときの端末の文字符号化方式はUTF-8にしています。この環境でメールを書いているときに時々問題が生じます。それ…

飲み過ぎ

先週は水木金と3日連続で酒を飲みに行ったので飲み疲れました。他人の部署の解散会とか、部署の引っ越し作業の打ち上げとか。 今週も月火と連続で酒を飲んでいます。先週と違うのは飲み始める時間が21時〜22時という点です。おかげで午前様。めちゃくちゃ眠…

春眠暁を覚えず

眠いです。ひたすら眠いです。 春先は体調が悪いので、思わず永眠しそうなほど眠いです。 朝起きて飯を食う。寝る。昼起きて飯を食う。パソコンを立ち上げてなにやら作業をする。寝落ちする。夕方目を覚まして、飯を食う。パソコンで作業をする。0時過ぎて寝…

呪文と仕事

昨日書いておいた呪文を自宅から会社のサーバに入って唱えてきました。 特に問題なく魔法が発動したので仕事終了。 ということで明日の出勤を回避。 それにしてもこの1週間は会社がどたばたして仕事がほとんど進まなかった。来週もどたばたするのが確定なの…

メモ/分かち書き

平日に作業すると23時から2時の作業になり、睡眠不足に陥るので平日作業は行わないと今日決めた。春は花粉によるストレスもあり毎年体調を崩すので。 思いついたこともあるのでメモ書きを行う。 言語別の分かち書きオブジェクトの変数名を$localized_tokeniz…

SpamAssassinの日本語対応パッチの開発

久保さんのパッチをベースにして設定スイッチ化とプラグイン化を行っています。日曜日と今日はほぼこの作業で終わっています。 Perlのオブジェクト指向に関しては見よう見まねでやっているのでちょっとやばいです。らくだ本をしっかり読み直さなければ。ちな…

Fedora Core 5

今日までyumのレポジトリをdevelopmentにしていたので、fedora-releaseパッケージを更新してFedora Core 5のできあがり。

OSC2006Tokyo/Spring 2日目

今日は4つのセッションを聴きました。 Wiki記法のエトセトラ WalWikiの塚本さんのセッションです。朝一番のセッションであるせいか人が少なかったです。最初は10人くらいしかいませんでした。最終的には20人くらいになりましたが。参加者に意見を聞きながらW…

OSC2006Tokyo/Spring 1日目

オープンソースカンファレンス2006 Tokyo/Spring の1日目に行ってきました。 今日は森山さんのセッションのみを聴きました。 強風の影響 強風の影響で電車が遅れたので開始時間に間に合わないかと思いましたが、何とか間に合いました。今日はこのセッション…

OSC2006Tokyo/Spring参加予定

上記の記事にも関係ありますが、オープンソースカンファレンス2006Tokyo/Springに参加します。 森山氏のセッションや日本SpamAssasinユーザ会発足ミーティングなどに参加する予定です。