タグ

NLPに関するkat0usiのブックマーク (108)

  • 芝玉ブログ: SCIM-1.6の開発から手を引きます

    実は、近いうちにOSSにおける日本語入力関連の開発から手を引こうと考えています。今月24にSCIM-Bridge-0.4.14(でしたっけ?)をリリースしますが、その際にSCIMの開発者メーリングリストでその旨を告げるつもりです。今後は、SCIMはメンテナンスのみに集中するつもりです。 少し前まで、SCIM-1.5の開発を進めていたわけですが、ここに来て開発を止める気になった理由は2つあります。1つ目は個人的に忙しくなって、開発に十分な時間が取れなくなったことです。不十分な開発時間で不完全な製品をリリースする位なら、開発を中断する方が被害は少なくなると考えた次第です。2つ目はSCIMプロジェクトが激しい人員不足に陥っていることです。こうした限られたメンバーでプロジェクトを回し続けることを考えると、SCIM-1.6の開発に貴重な人材リソースを割り振るのはまずいと考えました。 しかし、SCIM

    kat0usi
    kat0usi 2008/02/18
  • テキストの文字種分割の補足 - daily dayflower

    Perl で日語テキストを簡単に字種かたまりに分割できないかな、 と思い、perlunicode を読みながらサンプルプログラムを書いてみました。 対象テキストは UTF-8Perl で日語テキストを字種分割 たつをさんは,m// でマッチングさせて分割させてますけど,これだと正規表現で網羅されてないトークンが失われてしまうと思います。 #!/usr/bin/perl use strict; use warnings; use utf8; binmode \*STDOUT, ':utf8'; my $src = <<"END_DATA"; zーあyxルーラでう、う9 10AB.DE「"GH'」★で漢字をカ・ナったー!?MJD39\x{2466}。 END_DATA print $src, "\n"; my @cs = ( $src =~ m/ ( \p{M}+ | \p{N}+

    テキストの文字種分割の補足 - daily dayflower
    kat0usi
    kat0usi 2008/02/17
  • ATOKなら3倍速く打てる!

    Windowsをインストールしたら、アンチウィルスソフトとATOKは入れておけ!」 という格言(*1)が示すとおり、Windowsを操作する上で必須なのがATOK(*2)。 今まで「ATOK最高!」と叫ぶには、敵を作りすぎると思って控えてきましたが、 古川 享 ブログ: MS IMEさらに...お馬鹿になっていく にて、元マイクロソフト株式会社・執行役最高技術責任者の古川さん(去年の怒りはこちら)が、 某MS社員に、「MS IME最近どうなっているのよ?」と先週聞いた答えが...「IME開発の主体が、中国にシフトしまっていて我々も手を出せない......個人的にはATOKに切り替えようと思っている」と言う現役開発系社員の発言に絶句!!! とおっしゃっていたので、今日はATOKの素晴らしさを語ってしまいます。 今では手放せないツールとなってしまったATOK(エイトック)。 Windows

    ATOKなら3倍速く打てる!
    kat0usi
    kat0usi 2008/02/16
    IME開発の主体が、中国にシフトしまっていて我々も手を出せない
  • 大規模テキスト処理を支える形態素解析技術(工藤拓氏・Google) - Cafe Babe

    第80回知識ベースシステム研究会を開催したが,二日間で58名の方々に参加して頂き,積極的に議論に加わって頂いた.この場を借りて,参加してくれた方々に感謝したい.大変遅くなった(爆)が,Googleの工藤拓氏による招待講演「大規模テキスト処理を支える形態素解析技術」の概要を,このブログで報告しておきたい.工藤氏の専門分野は統計的自然言語処理と機械学習であるが,日形態素解析エンジンMeCabの開発者であり,他にも自然言語処理関連の有益なツールや,Webベースの日本語入力を可能にするAjax IMEのようなユニークなサービスを提供しているなど,時代をリードする研究開発者の一人である.彼の活動に興味があれば,彼のブログ「きまぐれ日記」は必見だろう. なお,当日は弊社側の不手際で,予定していた工藤氏の重要なデモをおこなうことができなかった.弊社はネットワーク会社であるにもかかわらず,ネットワーク

    大規模テキスト処理を支える形態素解析技術(工藤拓氏・Google) - Cafe Babe
    kat0usi
    kat0usi 2008/02/15
  • Sen - FrontPage

    Generated by Hiki 0.8.6 (2006-07-03). Powered by Ruby 1.8.5 (2006-08-25). Founded by ghfghgh564.

    kat0usi
    kat0usi 2008/02/04
  • Mooter 会社情報

    2001年 Mooter は創業者のリーゼル ケイパー(Liesl Capper)により、オーストラリアの大学の小さな研究室から 生まれました。人が何かを知りたいときにその質を理解すること、Mooter はそこから始めました。 Mooter は、ユーザーが検索結果を予測して検索するのではなく、ソフトウェアがユーザーを予測するという概念に基づき開発されて きた Mooter は、世界から評価を得るまでに至っています。 Mooter は英語の‘Moot’(討論する)に由来しており、ユーザーへ個々もっともふさわしい検索結果を提供する事を 目標としてきました。Mooter という名前は、ウェブ上で使用可能な膨大な量の情報を組織化し、有意義に情報分 類をして人を科学するという Mooter の使命を反映しています。

    kat0usi
    kat0usi 2008/01/08
  • きまぐれ日記: IMEにおける「文節」とは何ぞや

    とあるIME開発者と仮名漢字変換(IME)における「文節」についてディスカッションする 機会がありました。今まであまり真剣に考えたことなかったのですが、 この「IME文節」、いろんな意味で興味深いということを改めて認識しました。 学校文法や自然言語処理におけるいわゆる「文節」とは 統語的な性質からほぼ一意に決定できる単位です。 簡単には 自立語連続+付属語 と言えるでしょう。 たとえば、 「東京特許許可局で工藤は講演をした。」 は 東京特許許可局で|工藤は|講演した。 の3文節になります。小学校のときに「~ね」を挿入できる単位として 習ったかと思います。 しかし、IMEで上記の文を変換してみると。 東京|特許|許可局で|工藤は|講演した|。 と分割されます。(WinXP) あきらかにNLP業界の文節と単位が異なるようです。 このIMEが使っている分割の単位を「IME文節」と呼ぶことにしまし

    kat0usi
    kat0usi 2007/07/29
    工学的には、IMEの変換候補の最大表示数を n とするならば、ある文節の変換候補の平均分割数(perplexity) が n を超えない程度の長さが最適な文節長
  • Webでの単語共起を調べるサイトを作った

    Webでの単語共起を調べるサイトを作った 2007-07-29-3 [Programming][NLP] ヤフー検索を用いてWebでの単語共起を調べるサイト 「Web単語共起」(http://yapi.ta2o.net/tangokyouki/) を作りました。 日語だけじゃなく英語もいけますよ。 Yahoo!ウェブ検索APIで検索結果100件を取ってきて、 日語の場合は形態素解析(MeCabを使用)をかけて、 単語の出現頻度をカウントして表示します。 Unigram は1語単位でのカウント、 Bigram は連続2語単位でのカウント、 Trigram は連続3語単位でのカウントを意味します。

    Webでの単語共起を調べるサイトを作った
    kat0usi
    kat0usi 2007/07/29