タグ

nlpに関するhiromarkのブックマーク (106)

  • NLP関係のリソースまとめ - nokunoの日記

    先日オープンソースのtrieライブラリについてまとめましたが、それ以外にも家での開発に使えるリソースが増えてきました。 コーパス WikipediaコーパスTwitterコーパスBaiduコーパスWebコーパスWikipedia対訳コーパスオープンソース対訳コーパスMS-IMEコーパス 辞書 WikipediaタイトルはてなキーワードIPAdicUnidicalt-cannadicSKK評判辞書

    hiromark
    hiromark 2010/12/19
  • スペル訂正エンジンを作ってみた - nokunoの日記

    紫蘇カンファレンス2010というイベントでLTをしました。紫蘇カンファレンス 2010 - しソ部Togetter - 「紫蘇カンファレンス 2010」内容は、StaKKのスペル訂正機能についての解説です。統計的自然言語処理エンジンStaKK - nokunoの日記shisoconf 2010 Spelling CorrectionView more presentations from nokuno. 他の人は画像会話用の画像検索エンジン「tiqav(ちくわぶ)」や、Flickrのお気に入りをふぁぼったー的に表示してくれる「flistr」など、幅広いサービスや技術やネタが満載の楽しいイベントでした。tiqav / ちくわぶFlistr - View Flickr Photos Favorited by Your ContactsWWSみんなが頑張っているのを見ると刺激になりますし、今の環

  • 統計的自然言語処理エンジンStaKK - nokunoの日記

    統計的自然言語処理エンジンStaKK を開発しました。nokuno’s stakk at master - GitHub 以下、READMEからの引用です。 現在の機能 かな漢字変換 予測変換 または サジェスト スペル訂正 形態素解析 HTTPによるAPIサーバ Trieの直接操作現在は、StaKK は辞書として Mozc (Google日本語入力のOSS版)のデータを使っています。 リバースモードについてStaKK はノーマルモードとリバースモードの2つのモードを持っています。 ノーマルモードでは、かなを入力し、単語(主に漢字)を出力します。 リバースモードでは、単語を入力し、読みや品詞を出力します。これらの2つのモードの応用例をまとめると、次の表のようになります。 機能 ノーマルモード リバースモード Convert かな漢字変換 形態素解析 Predict 予測変換 検索ワードのサ

  • E-010 Webサーチエンジンを用いた回文生成(E分野:自然言語) | CiNii Research

    hiromark
    hiromark 2010/11/22
    なんかこの論文読んでみたい。
  • 第3回自然言語処理勉強会で発表してきました - 蝉々亭

    少々間が空いてしまいましたが、先週の日曜日11月7日、第3回自然言語処理勉強会で発表させていただきました。内容としては、自然言語処理において名高い教科書の一つである Foundations of Statistical Natural Language Processing の第3章 Linguistic Essentials を解説しました。 Foundations of Statistical Natural Language Processing (The MIT Press) 作者: Christopher Manning,Hinrich Schuetze出版社/メーカー: The MIT Press発売日: 1999/05/28メディア: ハードカバー購入: 3人 クリック: 169回この商品を含むブログ (18件) を見る 以下は発表の際に用いたスライドです。 FSNLP Ch

    第3回自然言語処理勉強会で発表してきました - 蝉々亭
    hiromark
    hiromark 2010/11/14
    未読。
  • 「第3回自然言語処理勉強会@東京」でCSAについて発表します - EchizenBlog-Zwei

    @nokunoさんの好意で「第3回自然言語処理勉強会@東京」でCompressed Suffix Arrayについて発表させていただくことになりました。 つきましては参考のため発表資料を以下に置いておきます。参加される方はもちろん、興味のある方はご覧になっていただけるとうれしいです。 第3回自然言語処理勉強会@東京 : ATND 第3回自然言語処理勉強会@東京を開催します - nokunoの日記 なお資料は以下の皆様のアドバイスを頂きました。ありがとうございました(とくに@overlastさんには4-5時間もお付き合い頂きました。おかげさまでスライドの質が大幅アップしました。感謝)。 @overlastさん @tamago_donburiさん @tsubosakaさん @machyさん

    「第3回自然言語処理勉強会@東京」でCSAについて発表します - EchizenBlog-Zwei
    hiromark
    hiromark 2010/11/10
    この話をここまできれいにまとめるとはすばらしい。
  • 自然言語処理勉強会@東京に参加しました

    @nokunoさん主催の自然言語処理勉強会@東京で「統計的係り受け解析入門」というタイトルで話をしてきました.資料はこちらにおいておきます.CKYアルゴリズムに関して質問が多かったので,説明を加筆しました. 内容は「入門」と銘打っておきながら,3rd order Eisnerまで紹介するアレな内容.どういう方が出席されるかわからなかったので,ちょっと最新の話題も入れてみたかったのでした.もともと社内セミナーで使った資料を半分流用しています. Eisner法の理解の肝は,三角と台形がCFGにおける非終端記号に相当している,三角が三角と台形に分割されるというルールが,CFGにおける書き換え規則に相当している,という点が理解できれば後はCFGの知識で理解できます.この記法に慣れてくると,例えば3rd orderの論文はほとんど図を見るだけで理解できます :) 割愛しましたが,当はこのあとスコア

    hiromark
    hiromark 2010/11/08
    あとで資料を読む。
  • 入門 自然言語処理

    自然言語処理(NLP:Natural Language Processing)の実践的な入門書です。「自然言語」とは、英語や日語など人々が日常のコミュニケーションで使う言語のことで、NLPに基づく技術は、モバイル端末におけるテキストの予測や手書き文字認識、検索エンジンにおける統一されていないテキスト内の情報取得、機械翻訳においてはある言語で書かれたテキストの分析と多言語への変換など、広範囲に活用されるようになってきています。書では、NLPの理論的な基礎、理論、応用をバランスよく解説。書の例から学び、実際のプログラムを書き、そして実装することを通して、読者はNLPを始めるための実用的な知識と技術を得られるでしょう。 関連ファイル ダウンロードの場所と使用法 Python による日語自然言語処理(12章の公開版) 正誤表 ここで紹介する正誤表には、書籍発行後に気づいた誤植や更新された情

    入門 自然言語処理
    hiromark
    hiromark 2010/10/26
    買った
  • Perl で自然言語処理

    これから自然言語処理を業務でやってみようとしている技術者を対象にしています。 前半は自然言語処理や学習方法について述べており、後半はWebサービスに適用しやすい自然言語処理技術について述べています。Read less

    Perl で自然言語処理
    hiromark
    hiromark 2010/10/17
    まとまってるなあ。
  • Google 音声検索と自然言語処理の未来 - 武蔵野日記

    先日 Google 音声検索を取り上げたことはあるのだが、再度取り上げてみる。 というのも、kmurakami さんが来週音声情報処理と自然言語処理についてのパネル発表に呼ばれているらしいのだが、自然言語処理と音声情報処理の人ってあまり交流がないよね、という話で、その理由と、今後どうしたらいいか、という意見を聞かれたので。 分野外の人から見ると、音声認識音声合成と、自然言語処理(かな漢字変換とか機械翻訳とか)は、どっちもコトバを使っているから同じように見えるかもしれないが、大学というのは思った以上に縦割り組織なので、研究室が違うと全くといってよいほど交流がない(教授のレベルではあるのだろうが、学生のレベルでは)。理由の一つとしては、自分の専門分野の国際会議なり論文誌なりに研究成果を発表するのが業績になり、自分の専門分野以外で発表しても評価のしようがないので、タコツボ化してしまう、というも

    Google 音声検索と自然言語処理の未来 - 武蔵野日記
    hiromark
    hiromark 2010/10/04
    良記事
  • 自然言語処理勉強会で「ナイーブベイズによる言語判定」を発表してきました - 木曜不足

    第2回自然言語処理勉強会@東京 にのこのこ行ってきました。 ありがとうございました&お疲れ様でした>各位。 今回も全然専門じゃあないのに「ナイーブベイズで言語判定」というタイトルで発表してきた。 ナイーブベイズによる言語判定 from Shuyo Nakatani 内容は、仕事で作った(←ここ重要)言語判定ライブラリの紹介。 前回の「文抽出 using CRF」は検証プロトタイプであったわけだが、今回はオープンソースとして公開&最終的に製品に組み込むことを目標とした代物なので、「なんか良さげな感じ〜」だと駄目。目指すのは 50言語、99.うん%。 精度を上げるためにやれることならなんでもやる、というのがミッションなので、限りなく泥臭いことの積み重ねになる。 というわけでここ2ヶ月の積み重ねを資料にしてみたら、なんか膨大になってきて、また今回もしゃべりすぎてしまった(汗 楽しんでいただけた

    自然言語処理勉強会で「ナイーブベイズによる言語判定」を発表してきました - 木曜不足
    hiromark
    hiromark 2010/09/26
    あとでよむ
  • 「Web本文抽出 using CRF」の学習用データの作り方 - 木曜不足

    第2回自然言語処理勉強会@東京が 9/25 に行われます。 前回よりキャパの大きい会場&週末に参加募集が始まったばかりですが、早くもほぼ定員。 自然言語処理に興味のある人はぜひ。でも、計画的なドタキャンは運営の方にご迷惑がかかるのでやめてね。 今度の第2回でも出しゃばって発表させてもらう予定だが、第1回も「Web文抽出 using CRF」という話をさせてもらった。 CRF(Conditional Randam Fields) を Web ページからの文抽出に用いるという手法の提案という内容で、実際に動作する Python スクリプトもあわせて公開している。 資料: http://www.slideshare.net/shuyo/web-using-crf 実装: http://github.com/shuyo/iir/blob/master/sequence/crf.py http:

    「Web本文抽出 using CRF」の学習用データの作り方 - 木曜不足
    hiromark
    hiromark 2010/09/22
    ちゃんとよむ
  • 自然言語処理の定番の教科書まとめ - 武蔵野日記

    自然言語処理や機械学習でいくつか新しい教科書的なものが登場してきたので、まとめてみようと思う。 教科書について。Introduction to Information Retrieval Introduction to Information Retrieval 作者: Christopher D. Manning,Prabhakar Raghavan,Hinrich Schuetze出版社/メーカー: Cambridge University Press発売日: 2008/07/07メディア: ハードカバー購入: 7人 クリック: 115回この商品を含むブログ (37件) を見るの翻訳が進んでいる(あとこれを研究室の輪読に使っていたりする)という話を聞いたりするのだが、やっぱり知識として知っておくべきというのと、そこから超えていくというのは違うものであって、どれだけ研究が進んでも、分

    自然言語処理の定番の教科書まとめ - 武蔵野日記
    hiromark
    hiromark 2010/08/25
    IIR って翻訳されるんだ。もう原著で読んだけど。
  • 「言語処理のための機械学習入門」を参考に各種モデルに対するEMアルゴリズムを実装したよ - nokunoの日記

    Amazonにもレビューを書いたのですが、高村さんの「言語処理のための機械学習入門」を読みました。実はこのを読むのは2回目で、1回目はドラフト版のレビューをさせていただく機会があったのですが、そのときは「言語処理研究者のための機械学習入門」というタイトルで、ちょっと敷居が高いのではないかとコメントしたら「研究者」の部分が削られたという経緯があったりしました。 それはともかくとして、以前読んだときは時間もなくて実装までする暇はなかったのですが、今度はもうちょっとじっくり読みたいなということで、このブログに書いてみようと思います。EMアルゴリズムは教師なし学習を確率モデルと最尤推定でやろうとするときに必ず出てくる手法で、隠れ変数や欠損値を含む色々なモデルに適用できる汎用的なフレームワークになっています。一般的には混合ガウス分布の場合をまず説明して、それがk-means法の一般化した形になって

    hiromark
    hiromark 2010/08/08
    しらふのときにエントリちゃんと読む。この本買ったけど他の専門書が読み終わってなくてまだ手付かず。。。
  • 自然言語処理の研究者が SKK を使うのはちょっと悲しい - 武蔵野日記

    午前中助教室にいると自分を訪ねて来てくれた学生さんがいる。どうもこれからインターンシップに行く人だそうで、いろいろと不安なので相談に乗ってほしい、ということだ。 自分の経験や今後のキャリアについてお話してみたり。やはり今どきの女性は一生働く(途中に出産や育児で休んだり時短にしたりするのを考慮に入れて)キャリアを考えて人生設計すべきだと思うし、男性も同様。意外に行ってみるといろいろ道が開ける(というかつながっている)ものである。 そうそう、今年の SVM 勉強会は 8月7日開催 なので、お日にち間違えなきよう (※松研の OB/OG の同窓会です)。 午後は水曜日からの読書会の読み合わせ。夏の勉強会は The Syntactic Process (Language, Speech, and Communication) 作者: Mark Steedman出版社/メーカー: A Bradfo

    自然言語処理の研究者が SKK を使うのはちょっと悲しい - 武蔵野日記
    hiromark
    hiromark 2010/08/03
    良記事
  • 日本語述語項構造解析器 YuCha 「夕茶」

    目的 「述語項構造解析」とは文書中の各述語に対して,「項」となる名詞句等を当てることです. 私は今日,トマトカレーを(1)べました. 明日は太郎とインドカレーを(2)べにショッピングセンターに(3)行く予定です. 上の例では, 私が トマトカレーべる 私が インドカレーべる 私が ショッピングセンターに 行く ということを当てるのが目的です. このようなことが分かれば,表面的な記述に惑わされない自動翻訳や, 精度の高い情報検索などに役立ちます. 開発状況 TODO 述語の格フレーム判定等,まだまだ未実装の機能がたくさんあります. $ ./bin/default/yucha /tmp/ntc 私は今日,トマトカレーべました. 明日は太郎とインドカレーべに,ショッピングセンタへ行く予定です. EOT GA 0 私は べました. GA 1 私は べに, GA

    hiromark
    hiromark 2010/07/25
    これすごっ。
  • 企業向けのオーダーメード自然言語処理の時代の到来 - 武蔵野日記

    @descool2003 さんに教えてもらったのだが、Language Weaver という企業向け機械翻訳では世界トップの企業が、なんと昨日 SDL という会社に買収されたらしい。英日翻訳に力を入れる、と聞いていたので、え! という感じだが、どういう経緯なんだろう。 SDL というのは Trados という翻訳支援ツールを開発(した企業を買収)したことで知られており(その割に Wikipedia に Trados のページがあっても SDL のページはないが)、これは「翻訳メモリ」という考え方で作られているので有名である。 翻訳メモリというのは、自分が(もしくはグループの誰かが)過去に翻訳した例文を蓄積しておいて、新しい文を翻訳するとき類似する過去の文を参考に翻訳する(ので自分の言い回しが使い回せる)というシステムである。機械翻訳の精度が全然よくならないので、翻訳するという部分を人手に任

    企業向けのオーダーメード自然言語処理の時代の到来 - 武蔵野日記
    hiromark
    hiromark 2010/07/17
    うんうん。
  • 単語分割器Micterを公開しました - 射撃しつつ前転 改

    しばらく日記書いてなかったら、また文体忘れて敬体で書いちゃったよ…。でも常体に書き換えるのもめんどくさいのでこのままうpします。 単語分割器を作ったので、githubで公開しました。→http://github.com/tkng/micter 名前は単純にMIC segmenTERでmicterにしました。作ってから気づいたのですが、segmentという単語のうち、最後のtしか名前に入っていません。今更名前を変えるのも面倒なのでこのままにしておきますが、微妙に失敗した感がありますね…。 形態素解析器としては既にmecabやらchasenやらjumanやらがありますし、最近では単語分割&読み推定のkyteaもあります。そんなにいろいろある中でまた似たようなツールを書いたのは、自分のパッケージに取りこめる小さな単語分割器が欲しかったのが理由です。文章を単語に分割する機能だけあればいいんだけど、

    単語分割器Micterを公開しました - 射撃しつつ前転 改
    hiromark
    hiromark 2010/07/13
    GJ!要チェック。
  • BLOG::broomie.net: 言語処理のための機械学習入門

    東工大の奥村先生監修、高村先生著の「言語処理のための機械学習入門」が発売されました。これは読まなければ!と思い、さっそく手に入れました。書の感想は当にシンプルな一言に尽きます。 「大学時代にこのがほしかった。。。」 書の目次の中見出しまでを以下に引用させていただきます。 言語処理のための機械学習入門 (自然言語処理シリーズ 1) 高村 大也 1. 必要な数学的知識 1.1 準備と書における約束事 1.2 最適化問題 1.3 確立 1.4 連続確率変数 1.5 パラメータ推定法 1.6 情報理論 1.7 この章のまとめ 2. 文書および単語の数学的表現 2.1 タイプ、トークン 2.2 nグラム 2.3 文書、文のベクトル 2.4 文書に対する前処理とデータスパースネス問題 2.5 単語ベクトル表現 2.6 文書や単語の確率分布による表現 2.7 この章のまとめ 3. クラスタリン

    hiromark
    hiromark 2010/07/10
    こういう内容か。やはり読もう。
  • Micterの単語分割部の高速化を試してみた結果 - sileのブログ

    tkngさんが作成したMicterという単語分割器の分割部を高速化できるような気がしたので試してみた。 そのメモ。 試した結果のソース一式はmimicという名前でgithubに保存しておくことにする*1。 結果 まず、結果から*2。 # 分割対象のテキスト(のサイズ) $ ls -lh /tmp/test.data -rw-r--r-- 1 user user 41M 2010-07-05 22:48 /tmp/test.data # MeCab $ time mecab -Owakati /tmp/test.data > /dev/null real 0m10.843s # 10秒 user 0m10.777s sys 0m0.068s # Micter $ ls -lh micter.model -rw-r--r-- 1 user user 1.8M 2010-07-06 08:30

    Micterの単語分割部の高速化を試してみた結果 - sileのブログ