タグ

nlpに関するnobu666のブックマーク (24)

  • ACL2011論文「Faster and Smaller N-Gram Language Models」を読んだ - EchizenBlog-Zwei

    ACL2011の論文で「Faster and Smaller N-Gram Language Models」というのが気になったので読んでみた。 ACL Anthology » P11 Faster and Smaller N-Gram Language Models Adam Pauls, Dan Klein; 2011 論文はこれまで提案されている言語モデルの圧縮・高速化の手法を実装して比較したよ、というもの。各種法が丁寧に解説されており、性能比較もよく知られているツールであるSRILMをベースラインとして行っているので参考になる。サーベイ論文として優れていると感じた。 論文で紹介されている手法はモデルのサイズ圧縮と高速化の2点に関するもの。 まずはサイズ圧縮について。これはTRIEを使うことで各Nグラムの共通したプレフィクスを圧縮するのが基らしい。でTRIEについてはノードの持

    ACL2011論文「Faster and Smaller N-Gram Language Models」を読んだ - EchizenBlog-Zwei
  • http://www.chasen.org/~taku/publications/mecab-sigkbs-20070115.pdf

    nobu666
    nobu666 2011/06/03
  • 入門 自然言語処理を禁書にすべき10の理由 | TRIVIAL TECHNOLOGIES on CLOUD

    みんなのIoT/みんなのPythonの著者。二子玉近く160平米の庭付き一戸建てに嫁/息子/娘/わんこと暮らしてます。月間1000万PV/150万UUのWebサービス運営中。 免責事項 プライバシーポリシー 「入門 自然言語処理」はヤバい書籍なので禁書にすべきだ。 タイトルは釣りじゃない。その理由を10個挙げる。 自然言語処理のかなり基的なことからそこそこ高度なことについて解説されてあり,自然言語処理について理解が深まり過ぎる ボリュームがあるのに書き方が平易でついつい読みふけってしまう 演習問題があり,自分の理解度を確かめられたりするのもケシカラン 原著は欧米語のための言語処理について書かれた書籍なのに,日語の形態素解析などについても解説してあって我慢できない 必要ライブラリのインストールなど環境構築に時間が取られそうでヤバい 書籍の応用でBotとか人工無能とか作ったらどうかな−,と

  • [業務外]社内Python勉強会用の資料|社内NEET宣言

    社内NEET宣言 文学部出身なのにIT企業で研究開発をすることになった社員のブログです。 PR Profile [ルーム|なう|ピグの部屋] ニックネーム:just do neet 性別:男性 誕生日:さだまさしがソロデビューしたあたり 出身地:神奈川県 自己紹介: NEETは豊かさの象徴だから進んでNEETになるべきです。 ブログジャンル:エンジニア/ニート メッセージを送る アメンバーになる プレゼントを贈る [Publish] Calendar <<November>> S M T W T F S 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 Theme ブログ ( 25 ) Java ( 31 ) 職場の風景 ( 34 ) インターネット ( 17 ) Unix系OS

  • 大規模データで単語の数を数える - ny23の日記

    大規模データから one-pass で item(n-gram など)の頻度を数える手法に関するメモ.ここ数年,毎年のように超大規模な n-gram の統計情報を空間/時間効率良く利用するための手法が提案されている.最近だと, Storing the Web in Memory: Space Efficient Language Models with Constant Time Retrieval (EMNLP 2010) とか.この論文では,最小完全ハッシュ関数や power-law を考慮した頻度表現の圧縮など,細かい技術を丁寧に組み上げており,これぐらい工夫が細かくなってくるとlog-frequency Bloom filter (ACL 2007) ぐらいからから始まった n-gram 頻度情報の圧縮の研究もそろそろ収束したかという印象(ちょうど論文を読む直前に,この論文の7節の

    大規模データで単語の数を数える - ny23の日記
  • 感情のこもった返答テンプレ生成君について - Google スライド

    感情のこもった返答テンプレ生成君に ついて fuba

    感情のこもった返答テンプレ生成君について - Google スライド
  • Google N-gram V.S. Baidu N-gram 〜ケータイウェブは本当にエロいのか?〜 - nokunoの日記

    近年検索エンジンのBaiduは不自然言語処理コンテストなるものを開催し、今日が締切のはずだったのだが24時間延長されたらしいことを聞いてBaiduコーパスをダウンロードしたid:nokunoは仕事帰りの電車で思いついたアイデアを30分ほどで実装してみたところそれなりに面白い結果がでたので応募してみることにした。そもそもBaiduのコーパスはエロいというのを最初に誰かが言ったら@mhagiwaraさんがこんなツイートをしたことに話は遡る。インターネットがエロいのは誰でも知っている。けれど、ケータイウェブが特別にエロいのか? については寡聞にして知らなかったため、検証してみることにした。今回はケータイウェブがエロいかどうかを検証するため、以下のコーパス(N-gramデータ)を相互に比較することとした。Baidu N-gram(Baidu絵文字入りモバイルウェブコーパス) 今回のメインターゲット

  • 絵文字を「語」として処理する難しさ~「ビール」と「飲み会」見分ける技術 バイドゥ「絵文字の意味検索」ができるまで(3)

  • 自然言語処理勉強会@東京 第1回 の資料 - 木曜不足

    日の tokyotextmining こと 自然言語処理勉強会@東京 第1回 で話す「Webページの文抽出 using CRF」の資料(自己紹介は除く)です。 以前、Ruby で作った文抽出モジュール を機械学習技術を使って作り直してみたら、というお話。 CRF は Conditional Random Fields の略。 Web文抽出 using crf from Shuyo Nakatani 実装はこのあたり。 http://github.com/shuyo/iir/blob/master/sequence/crf.py http://github.com/shuyo/iir/blob/master/sequence/pg.py http://github.com/shuyo/iir/blob/master/extractcontent/webextract.py 【追記】

    自然言語処理勉強会@東京 第1回 の資料 - 木曜不足
  • Baidu Japan(バイドゥ株式会社)

    このページをブックマーク登録されていた方は、 お手数ですがブックマークの変更をお願いいたします。 なお、このページは5秒後に自動的にジャンプします。 自動的にジャンプしない場合は、下記のリンクをクリックして下さい。

    nobu666
    nobu666 2010/06/22
  • 大規模文字列解 析の理論と実践@IBISML - DO++

    IBISML 第一回研究会の招待講演での発表資料です。参考文献などを追加しました。 "大規模文字列解 析の理論と実践" (pdf|pptx) 最初はもっとサーベイ的にしたかったのですが、まとめあげられず、テーマを部分文字列の計量に絞ってやりました。後半の予備スライドにそのへんの名残があります。 番で口頭で説明したところは、スライドだけだと追いづらいかもしれません。 --- 研究会は武田ホールで立ち見がでるくらい盛況でした。 プログラムを見ていただければわかるとおもいますが、みなさん非常に濃い内容でした。 久しぶりのこうした研究会参加で大変刺激になりました。

    大規模文字列解 析の理論と実践@IBISML - DO++
  • TermExtract Perlで出来る特徴語抽出 - プログラマになりたい

    PerlのCPANモジュールを使って、簡単にベイジアンフィルターを使う方法を紹介したエントリーが思いのほか好評でした。ベイジアンフィルター Perlで作りたい人に教えてあげたいちょっとしたこと  調子に乗ってもう一つ、お気に入りのCPANモジュールの紹介です。日語の形態素解析といえばMeCabでほぼ間違いないのですが、MeCabはあくまで形態素解析器です。ということで、最小単位の形態素を検出することは出来ますが、連語等は分解されて出てきます。(当はちょっと工夫したら出せるのですが、それはまた次回)例えば、「集合知」という言葉が出てきたら、下のように分解されて出てきます。 集合 名詞,サ変接続,*,*,*,*,集合,シュウゴウ,シューゴー 知 名詞,一般,*,*,*,*,知,チ,チ 使い方にもよりますが、集合知という言葉で取りたい場合も多いと思います。以前、Yahoo!APIと組み合わせ

  • Não Aqui! » SimString (類似文字列検索ライブラリ) 1.0 released

    SimStringという類似文字列検索ライブラリをBSDライセンスでリリースしました.類似文字列検索とは,文字列集合(データベース)の中から,クエリ文字列と似ているものを見つけ出す処理です.コンピュータは,正確に一致する文字列を探すのは得意ですが,表記揺れに出くわすと,途端に対応できなくなります.例えば,「スパゲティ」に対して,レストラン情報などを返すサービスにおいて,「スパゲッティ」や「スパゲティー」などの表記揺れが検索クエリに与えられると,通常のデータベースでは情報を提示することが出来ません.類似文字列検索を用いると,表記揺れが検索クエリに与えられても,「スパゲティ」という既知語を代替クエリとして提案したり,「スパゲティ」の情報をダイレクトに引き出すことができるようになります. 似てる語を探す技術って,文字列処理の基中の基で,自然言語処理では当たり前のように使われていてもおかしくな

    nobu666
    nobu666 2010/05/24
  • 自然言語処理入門

    岩崎のホームページへ戻る 自然言語処理入門 0. 入力処理(欧文のリスと形式への変換、大文字・小文字の処理、宿約形の扱いなど) 1. 簡単な文脈自由文法とDCG(いわゆる基文型の導入と主格関係代名詞の処理) 2. 文の構造表示のための技法 3. 文法素性による文脈自由文法の補強(性、数、格、人称、時制、動詞形態、選択制限) 4. 文法規則と語彙データの切り離しによる辞書の整理と語彙登録の簡素化 5. 動詞句にかかわる文法素性(助動詞の導入、決定疑問文、進行形、完了形、to不定詞) 6. Gap素性の導入(補足疑問文と主格以外の関係代名詞など一見移動しているかにみえる 要素の扱い) 7. 文法の拡張(左再帰規則と無限ループ、前置詞句・形容詞句の処理、その他の特殊構文) 8. 翻訳の際の諸問題(日語用言の活用・語尾の処理、量詞の扱いなど ) 入力処理 (1)欧文入力処理 通常の欧文形式で入

    nobu666
    nobu666 2010/05/21
  • NLP2010 言語処理学会チュートリアル - DO++

    今日から開催されている言語処理学会のチュートリアルで ”超高速テキスト処理のためのアルゴリズムとデータ構造” というタイトルで発表させていただきました。 チュートリアル資料はこちら(pdf)です。(出典などは適宜追加します) 今までいろいろなところで話してきた、オンライン学習、文字列、疎ベクトルデータ構造を最新の話を追加して、さらに乱択化(Hash Kernel, 乱択化SVD)を解説しています。 発表自体は途中でブルースクリーンが出るということもありましたが、なんとか終えられてよかったです。 これに付随していろいろツールを公開する予定だったがまにあわなかった。そのうち公開します

    NLP2010 言語処理学会チュートリアル - DO++
    nobu666
    nobu666 2010/03/09
  • 日本テレビ東京で学ぶMeCabのコスト計算 | mwSoft

    今回はこの言葉の解析をMeCab+NAIST辞書にお願いして、結果を分析することで、MeCabが行っているコスト計算について勉強してみたいと思います。 とりあえず実行してみる さっそくMeCabに「日テレビ東京」を解析してもらいましょう。 $ echo 日テレビ東京 | mecab 日 名詞,固有名詞,地域,国,*,*,日,ニッポン,ニッポン,, テレビ東京 名詞,固有名詞,組織,*,*,*,テレビ東京,テレビトウキョウ,テレビトーキョー,, EOS 「日 | テレビ東京」と分けていますね。視聴率的には負けていますが、NAIST辞書的には日テレビよりもテレビ東京が優先されたようです。 ちなみに「フジテレビ東京」ではどうなるでしょうか。 $ echo フジテレビ東京 | mecab フジテレビ 名詞,固有名詞,組織,*,*,*,フジテレビ,フジテレビ,フジテレビ,, 東京 名詞,

  • Google Code Archive - Long-term storage for Google Code Project Hosting.

    Code Archive Skip to content Google About Google Privacy Terms

  • 自分がフォローしている人たちだけのbuzztterみたいなものを実現する with Echofon - Unchained Life

    先日中川さん(id:Psychs)によってEchofon for Macのベータ版がnaan studioからリリースされました。 http://echofon.com/twitter/mac/ http://d.hatena.ne.jp/Psychs/20091001/1254351633 必要な機能をシンプルにまとめたTwitterクライアントでとても使いやすいです。(個人的にはあとjk移動がほしい) さてEchofonはTwitterのログを保存する際にSQLiteを使っているのが一つの特徴です。 そのため自分の過去ログをいじっていろんなことができておもしろいです。 例えば自分がフォローしている人たちだけを対象にしたbuzztterみたいなことを実現することができます。 (Twitter語圏全体からのホットなキーワード抽出として、ぼくは@yazztterというのを作っています:)

    自分がフォローしている人たちだけのbuzztterみたいなものを実現する with Echofon - Unchained Life
  • 文体による個人識別法 : 研究開発

    総合研究大学院大学 複合科学研究科  情報学専攻 卒 博士(情報学) 自然言語処理や機械学習データ分析に関する研究内容とwebシステムの開発と運用について書いています。 シリコンバレーベンチャーみたいに深い技術の事業化をしたいと思っています。 ご興味ある方はご連絡ください。 人が記述する文章には人それぞれに固有の特徴があり、 声紋、指紋、網膜、DNAなど、バイオメトリクス(生体認証)と同様に個体識別が可能になるという考えがあります。 少なくとも、筆跡鑑定程度には個人性が現れてきます。 この研究は元は文書(主に古典文学)の著者が誰であるのかを判別するために取り組まれてきて 古い歴史があるのです。 著者判別に有効な特徴量の推定 吉田篤弘 延澤志保 平石智宣 斎藤博昭慶應義塾大学大学院 情報処理学会研究報告  情報学基礎 2001(86) 文献の真贋問題は有史以来人類が向き合ってきた問題の一つ

    nobu666
    nobu666 2009/09/14
  • WordPress Related Post for Japanese で全文検索を行う - dogmap.jp

    hiromasaさんが作成したWordPress用の関連投稿表示プラグインWordPress Related Post for Japanese(wp-jrelated)を利用して、各記事に過去記事から関連する記事を自動で表示しています。 この wp-jrelated が関連記事を検索する仕組みですが、おおよそ以下のとおりです。 Yahoo!形態素解析でコンテンツを解析し、名詞を抽出 抽出された名詞を頻出順でカンマ区切りでDBに格納 抽出された名詞の中から頻出する名詞トップn個を抜き出し、それを使って過去記事を like 検索 関連度合いは、元記事の頻出単語が幾つ関連記事に含まれるかを計算 その際、上位頻出単語の方が重みを持つようにランク付け ※このランク付け方法が中々良くできてます、ソースを読むことをオススメ これだけで、かなりの精度を出せているので大したモノです。 しかし、単語