タグ

自然言語処理に関するdkfjのブックマーク (10)

  • twitterで自然言語処理 - Preferred Networks Research & Development

    勢い余ってスイカを買ったら、毎日べるハメになってしまいました。海野です。 どんな業界もそうだと思いますが、世の中の流行りものの論文が増えるという面が自然言語処理界隈にもあります。Web、blog、と来て、最近のトレンドはやはりtwitterに代表されるmicro blogでしょうか。今年の言語処理学会の年次大会でtwitterセッションは大盛況でしたが、国際会議でもtwitterを題材として発表が増えています。 数えてみたら、重要国際会議であるACLで6件、EMNLPでも3件、twitterをタイトルに含む発表が今年ありました。ちなみに2010年の会議では1件もありませんでした。そんなわけで、私も今日はそんな流行りに乗っかって、twitter言語処理関連の論文を3つ紹介します。 Cooooooooooooooollllllllllllll!!!!!!!!!!!!!! UsingWord

    twitterで自然言語処理 - Preferred Networks Research & Development
  • 予測入力システム: PRIME

    最新版 prime-1.0.0 のインストールには、suikyo-2.0.0.1 の インストールも必要になります。また、効果的な活用のために、最新版の クライアントと単語辞書のインストールもお勧めします。 prime (PRIME サーバ) Ver 1.0.0.1 (安定版): 連文節変換への対応 英語入力への対応 学習辞書のフォーマットの変更 UTF-8, SJIS への対応 動作速度の向上 prime-dict (辞書) Ver 0.8.7: ことわざの追加 語彙数は 1,800語増えて 25万7,100語へ (7.3MB) prime-el (Emacs クライアント) Ver 1.5.1.2: 要 prime-0.8.5.2 以降 or prime-0.9.3 以降 単語候補の表示方法の追加 バグの修正 uim-prime (uim クライアント) uim クライアントは、

  • 第4回 検索キーワードを提案するSuggest機能の実装 | gihyo.jp

    今回は、検索文字列に関連するキーワードを提案するSuggest機能を実装したいと思います。 実装の前に Suggest機能の実装に入る前に、第3回までのプログラムをちょっと整理しましょう。第3回までの実装では、とりあえずグローバルな名前空間に関数を追加していました。しかし、名前空間がどんどん汚染されよくありません。必要なものだけをグローバルな名前空間に追加しましょう。 スコープを隠蔽する jQueryにならって、スコープを隠蔽してみることにします。次のように無名関数を使って実装します(リスト1⁠)⁠。 リスト1 スコープの隠蔽 (function(){ // (1) このスコープは公開されない var local = ・・・ // (2) 必要なものだけを公開する window.global = ・・・ })(); 無名関数の定義(function(){})と、実行()を同時に行っています

    第4回 検索キーワードを提案するSuggest機能の実装 | gihyo.jp
  • 自分がフォローしている人たちだけのbuzztterみたいなものを実現する with Echofon - Unchained Life

    先日中川さん(id:Psychs)によってEchofon for Macのベータ版がnaan studioからリリースされました。 http://echofon.com/twitter/mac/ http://d.hatena.ne.jp/Psychs/20091001/1254351633 必要な機能をシンプルにまとめたTwitterクライアントでとても使いやすいです。(個人的にはあとjk移動がほしい) さてEchofonはTwitterのログを保存する際にSQLiteを使っているのが一つの特徴です。 そのため自分の過去ログをいじっていろんなことができておもしろいです。 例えば自分がフォローしている人たちだけを対象にしたbuzztterみたいなことを実現することができます。 (Twitter語圏全体からのホットなキーワード抽出として、ぼくは@yazztterというのを作っています:)

    自分がフォローしている人たちだけのbuzztterみたいなものを実現する with Echofon - Unchained Life
  • livedoor clipsのデータを少しだけ眺めてみた。 - プログラマでありたい

    データ貰うだけもらって、放置していたlivedoor clipsのデータを覗いてみました。 クローリングしてる暇があるなら…論文かいたら? | EDGE Datasets(研究用データセット) ダウンロードと一緒に取り扱い説明がついています。そのままだとtagが文字列データとして1カラムに複数件入り使いにくいので、分割するようにしました。 #!/usr/bin/perl use strict; use Text::CSV_XS; my $csv = Text::CSV_XS->new({ binary => 1 }); my $i = 1; while (<>) { if ($csv->parse($_)) { my ($user_id, $url, $created_on, $tags) = $csv->fields; foreach my $tag (split(/\s/,$tags)

    livedoor clipsのデータを少しだけ眺めてみた。 - プログラマでありたい
  • これはセンスが良い。Lingua::JA::TFIDF - プログラマでありたい

    手軽にTF/IDFを計算するモジュール 情報検索の分野でよく使われるアルゴリズムで「TF/IDF」というものがあります。 ドキュメントの中から「特徴語」を抽出する、といったような用途でよく使われています。 TF/IDFアルゴリズムのくわしい解説はこことかここを見てください。 今回はこのTF/IDFの計算を「簡単」に実現するためのperlモジュールをCPANに上げましたので、ご紹介します。なまえはLingua::JA::TFIDFといいます。 TF/IDFのネックは、製作者の指摘の通り「ある程度のボリュームもったドキュメントセット」というところ。これに対しての解は、wikipediaを使う、もしくは、検索エンジンを使うといったものです。が、確かに面倒くさい。 これに対して、予めドキュメントセットを用意しましたというのが、Lingua::JA::TFIDFの凄いところ。この場合、未知語の対応ど

    これはセンスが良い。Lingua::JA::TFIDF - プログラマでありたい
  • 手軽にTF/IDFを計算するモジュール - download_takeshi’s diary

    情報検索の分野でよく使われるアルゴリズムで「TF/IDF」というものがあります。 ドキュメントの中から「特徴語」を抽出する、といったような用途でよく使われています。 TF/IDFアルゴリズムのくわしい解説はこことかここを見てください。 今回はこのTF/IDFの計算を「簡単」に実現するためのperlモジュールをCPANに上げましたので、ご紹介します。なまえはLingua::JA::TFIDFといいます。 Lingua::JA::TFIDF - TF/IDF calculator based on MeCab. http://search.cpan.org/~miki/Lingua-JA-TFIDF TF/IDF実装の困りどころ TF/IDFの実装を試みた方であればわかると思うのですが、実際にやろうとすると、TF(Term Frequency)の計算はなんら難しくありませんが、IDF(Inve

    手軽にTF/IDFを計算するモジュール - download_takeshi’s diary
    dkfj
    dkfj 2008/11/04
    センス良いなぁ
  • 集合知プログラミングが凄すぎる件について - プログラマでありたい

    ようやく集合知プログラミングが届きました。まだ30分くらいざっと目を通しただけですが、これだけは言えます。自然言語処理をテーマとして扱う書籍の中で、実用度No.1です。文句なしにお勧めです。これで3,400円は安すぎます。倍の値段であっても買います。 気に入った点といえば、例えばです。2章「推薦を行う」は、所謂リコメンドエンジンをテーマにしているのですが、この方法に複数のアプローチを紹介しつつ解説しています。レコメンドエンジンの代表的な方法に強調フィルタリングというのがあるのですが、この方法は類似スコアを出す必要があります。スコアの出し方に、ユークリッド距離やピアソン相関などの例を挙げ、それぞれの長所短所を述べています。また相関の種類にもユーザ相関とアイテム相関があり、それぞれどのようなデータの時に向いているのか等を解説してくれています。ですので、複数の手法は知っていてもどちらの方が良いか

    集合知プログラミングが凄すぎる件について - プログラマでありたい
  • MeCabで、キーワード抽出 - プログラマでありたい

    形態素解析器として圧倒的な性能を誇るMeCabですが、出来る事は形態素解析にとどまりません。公式ページにも載っているように、辞書さえカスタマイズすればひらがな⇔カタカナ変換やAutoLinkの作成といったことまで出来ます。 WikipediaのデータとMeCabを使えば、高速なキーワード抽出が出来ないかなと思い試してみました。辞書の定義にコストを書けば、長いキーワードを優先して抽出する最長一致法が出来そうです。それが出来れば、辞書にキーワードを登録すればおっけいかなと思い実験です。 準備 ・Mecabのインストール 省略 ・Wikipediaのダウンロード wikipediaからコーパスの作成を参照 ・辞書生成用のCSV作成 xml2sqlで作ったpage.txtを変換します。 この際、(曖昧さ回避)は除いておきます。 併せて、カンマが入っている見出し文は、別のものに置き換えておくこと c

    MeCabで、キーワード抽出 - プログラマでありたい
  • 30分で理解する自然言語処理 まとめ - プログラマでありたい

    今まで何か日語処理のエントリーを書いてきました。後で振り返り易いように、ここらで一覧にまとめておきます。 wikipediaのダウンロード&データベースにインポート コーパスとして、wikipediaの存在はありがたいです。まずはここから始めるのが良いですね。併せて紹介しているxml2sqlも秀逸です。 特徴語抽出のあれこれ あれこれと言いつつ形態素解析Yahoo APIを使った特徴語抽出のみを紹介しています。手軽に出来るのが魅力です。 ベイジアンフィルター Perlで作りたい人に教えてあげたいちょっとしたこと Algorithm::NaiveBayesの使い方を簡単なサンプルで紹介いたしました。割と好評です。ベイジアンフィルターの人気の高さを垣間みれますね。 TermExtract Perlで出来る特徴語抽出 TermExtractという専門語抽出モジュールの紹介です。TermEx

    30分で理解する自然言語処理 まとめ - プログラマでありたい
  • 1