タグ

自然言語処理に関するhoshiminのブックマーク (24)

  • 古川 享 ブログ: MS IMEさらに...お馬鹿になっていく

    You are about to permanently delete this entry. When you delete an entry, you also delete any comments and trackbacks associated with it. This action cannot be undone. Delete|Cancel またMS IMEの辞書が壊れたか、もしくは「MS IMEスイッチ」...実は、"使い込むほどお馬鹿になって壊れていく"仕様になっているのか知りませんが...MS内部では、「古川の言っていることは再現性が無い」ってことになっているそうですが..何度でもMS IMEの辞書壊れますよぉーっ..電源スイッチを”長尾氏”(長押し?)したり、動作中のアプリケーションが”新だ”(死んだ)後に強制終了すると、毎回このような”ご変換”(誤変換)に悩ま

    hoshimin
    hoshimin 2008/02/16
    MS-IME。
  • 国立国語研究所のこと(1): やまもも書斎記

    2008/02/15 當山日出夫 この問題、あえて触れずにそっとしておいた方が賢明であるのかもしれないが、日語学(国語学)にかかわる者として、また、文字研究にたずさわる者として、みすごせないので、書く。また、これは、デジタル・アーカイブや、デジタル・ヒューマニティーズ(人文情報学)のゆくえとも、深く関連すると判断するので、書く。 まず、国立国語研究所は「廃止」ではなく大学共同利用機関への「移管」であること。したがって、組織全体としては、基的に残る。だが、その移管にあたって、次のような条件がついている。 http://www.gyoukaku.go.jp/siryou/tokusyu/h191224/index_dokuhou.html 【日語コーパス事業】 ○民間事業者等との共同事業とすることについて平成20年度中に検討し、結論を得る。 【病院の言葉を分かりやすくするプロジェクト

  • DO++ : 線形識別器チュートリアル

    ワークショップ中の夕で話したのですが、今のところ日で(素性関数ベース&線形識別器)機械学習のいろいろな手法をまとめて体系的に教えてる資料などがあまりないなぁという話をしていました。 で、探すと、このあたりの大部分をまとめて説明しているいいチュートリアル(英語)がありました。 夏の学校資料[pdf] その他のコードやリンク ちょっとだけ解説 現在自然言語処理の多くで使われている学習器は線形識別器です。 入力x(例:単語、文、文書)から出力y(例:品詞、品詞列、文書のトピック)を予測したいという場合は、(x,y)のペアからいろいろな値を取り出し(x,yのペアから値を取り出す関数を素性関数と呼ぶ)、その値を並べたベクトルを素性ベクトルと呼び、f(x,y)とかきます。そして、その素性ベクトルf(x,y)と同じ次元数を持つ重みベクトルwとの内積を測って、その値が正か負か、または大きいか小さいかを

    DO++ : 線形識別器チュートリアル
  • 大規模テキスト処理を支える形態素解析技術(工藤拓氏・Google) - Cafe Babe

    第80回知識ベースシステム研究会を開催したが,二日間で58名の方々に参加して頂き,積極的に議論に加わって頂いた.この場を借りて,参加してくれた方々に感謝したい.大変遅くなった(爆)が,Googleの工藤拓氏による招待講演「大規模テキスト処理を支える形態素解析技術」の概要を,このブログで報告しておきたい.工藤氏の専門分野は統計的自然言語処理と機械学習であるが,日形態素解析エンジンMeCabの開発者であり,他にも自然言語処理関連の有益なツールや,Webベースの日本語入力を可能にするAjax IMEのようなユニークなサービスを提供しているなど,時代をリードする研究開発者の一人である.彼の活動に興味があれば,彼のブログ「きまぐれ日記」は必見だろう. なお,当日は弊社側の不手際で,予定していた工藤氏の重要なデモをおこなうことができなかった.弊社はネットワーク会社であるにもかかわらず,ネットワーク

    大規模テキスト処理を支える形態素解析技術(工藤拓氏・Google) - Cafe Babe