[B! nlp] nobu666のブックマーク

ACL2011論文「Faster and Smaller N-Gram Language Models」を読んだ - EchizenBlog-Zwei

ACL2011の論文で「Faster and Smaller N-Gram Language Models」というのが気になったので読んでみた。 ACL Anthology » P11 Faster and Smaller N-Gram Language Models Adam Pauls, Dan Klein; 2011 本論文はこれまで提案されている言語モデルの圧縮・高速化の手法を実装して比較したよ、というもの。各種法が丁寧に解説されており、性能比較もよく知られているツールであるSRILMをベースラインとして行っているので参考になる。サーベイ論文として優れていると感じた。本論文で紹介されている手法はモデルのサイズ圧縮と高速化の2点に関するもの。まずはサイズ圧縮について。これはTRIEを使うことで各Nグラムの共通したプレフィクスを圧縮するのが基本らしい。でTRIEについてはノードの持

nobu666 2011/06/16

nlp
n-gram

リンク

http://www.chasen.org/~taku/publications/mecab-sigkbs-20070115.pdf

nobu666 2011/06/03

nlp

リンク

入門自然言語処理を禁書にすべき10の理由 | TRIVIAL TECHNOLOGIES on CLOUD

みんなのIoT/みんなのPythonの著者。二子玉近く160平米の庭付き一戸建てに嫁/息子/娘/わんこと暮らしてます。月間1000万PV/150万UUのWebサービス運営中。免責事項プライバシーポリシー「入門自然言語処理」はヤバい書籍なので禁書にすべきだ。タイトルは釣りじゃない。その理由を10個挙げる。自然言語処理のかなり基本的なことからそこそこ高度なことについて解説されてあり，自然言語処理について理解が深まり過ぎるボリュームがあるのに書き方が平易でついつい読みふけってしまう演習問題があり，自分の理解度を確かめられたりするのもケシカラン原著は欧米語のための言語処理について書かれた書籍なのに，日本語の形態素解析などについても解説してあって我慢できない必要ライブラリのインストールなど環境構築に時間が取られそうでヤバい書籍の応用でBotとか人工無能とか作ったらどうかな−，と

nobu666 2010/11/17

books
nlp

リンク

[業務外]社内Python勉強会用の資料｜社内NEET宣言

社内NEET宣言文学部出身なのにIT企業で研究開発をすることになった社員のブログです。 PR Profile [ルーム｜なう｜ピグの部屋] ニックネーム：just do neet 性別：男性誕生日：さだまさしがソロデビューしたあたり出身地：神奈川県自己紹介： NEETは豊かさの象徴だから進んでNEETになるべきです。ブログジャンル：エンジニア/ニートメッセージを送るアメンバーになるプレゼントを贈る [Publish] Calendar <<November>> S M T W T F S 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 Theme ブログ ( 25 ) Java ( 31 ) 職場の風景 ( 34 ) インターネット ( 17 ) Unix系OS

nobu666 2010/11/12

python
nlp

リンク

大規模データで単語の数を数える - ny23の日記

大規模データから one-pass で it em（n-gram など）の頻度を数える手法に関するメモ．ここ数年，毎年のように超大規模な n-gram の統計情報を空間／時間効率良く利用するための手法が提案されている．最近だと， Storing the Web in Memory: Space Efficient Language Models with Constant Time Retrieval (EM NLP 2010) とか．この論文では，最小完全ハッシュ関数や power-law を考慮した頻度表現の圧縮など，細かい技術を丁寧に組み上げており，これぐらい工夫が細かくなってくるとlog-frequency Bloom filter (ACL 2007) ぐらいからから始まった n-gram 頻度情報の圧縮の研究もそろそろ収束したかという印象（ちょうど論文を読む直前に，この論文の7節の

nobu666 2010/11/12

nlp
ngram

リンク

感情のこもった返答テンプレ生成君について - Google スライド

感情のこもった返答テンプレ生成君について fuba

nobu666 2010/07/27

nlp
japanese

リンク

Google N-gram V.S. Baidu N-gram　〜ケータイウェブは本当にエロいのか？〜 - nokunoの日記

近年検索エンジンのBaiduは不自然言語処理コンテストなるものを開催し、今日が締切のはずだったのだが24時間延長されたらしいことを聞いてBaiduコーパスをダウンロードしたid:nokunoは仕事帰りの電車で思いついたアイデアを30分ほどで実装してみたところそれなりに面白い結果がでたので応募してみることにした。そもそもBaiduのコーパスはエロいというのを最初に誰かが言ったら@mhagiwaraさんがこんなツイートをしたことに話は遡る。インターネットがエロいのは誰でも知っている。けれど、ケータイウェブが特別にエロいのか？については寡聞にして知らなかったため、検証してみることにした。今回はケータイウェブがエロいかどうかを検証するため、以下のコーパス（N-gramデータ）を相互に比較することとした。Baidu N-gram（Baidu絵文字入りモバイルウェブコーパス）今回のメインターゲット

nobu666 2010/07/21

リンク

絵文字を「語」として処理する難しさ～「ビール」と「飲み会」見分ける技術　バイドゥ「絵文字の意味検索」ができるまで（3）

nobu666 2010/07/15

search
nlp

リンク

自然言語処理勉強会＠東京第1回の資料 - 木曜不足

本日の tokyotextmining こと自然言語処理勉強会＠東京第1回で話す「Webページの本文抽出 using CRF」の資料(自己紹介は除く)です。以前、Ruby で作った本文抽出モジュールを機械学習の技術を使って作り直してみたら、というお話。 CRF は Conditional Random Fields の略。 Web本文抽出 using crf from Shuyo Nakatani 実装はこのあたり。 http://github.com/shuyo/iir/blob/master/sequence/crf.py http://github.com/shuyo/iir/blob/master/sequence/pg.py http://github.com/shuyo/iir/blob/master/extractcontent/webextract.py 【追記】

nobu666 2010/07/05

リンク

Baidu Japan（バイドゥ株式会社）

このページをブックマーク登録されていた方は、お手数ですがブックマークの変更をお願いいたします。なお、このページは５秒後に自動的にジャンプします。自動的にジャンプしない場合は、下記のリンクをクリックして下さい。

nobu666 2010/06/22

nlp

リンク

大規模文字列解析の理論と実践＠IBISML - DO++

IBISML 第一回研究会の招待講演での発表資料です。参考文献などを追加しました。 "大規模文字列解析の理論と実践" (pdf|pptx) 最初はもっとサーベイ的にしたかったのですが、まとめあげられず、テーマを部分文字列の計量に絞ってやりました。後半の予備スライドにそのへんの名残があります。本番で口頭で説明したところは、スライドだけだと追いづらいかもしれません。 --- 研究会は武田ホールで立ち見がでるくらい盛況でした。プログラムを見ていただければわかるとおもいますが、みなさん非常に濃い内容でした。久しぶりのこうした研究会参加で大変刺激になりました。

nobu666 2010/06/16

document
nlp

リンク

TermExtract Perlで出来る特徴語抽出 - プログラマになりたい

PerlのCPANモジュールを使って、簡単にベイジアンフィルターを使う方法を紹介したエントリーが思いのほか好評でした。ベイジアンフィルター　Perlで作りたい人に教えてあげたいちょっとしたこと　調子に乗ってもう一つ、お気に入りのCPANモジュールの紹介です。日本語の形態素解析といえばMeCabでほぼ間違いないのですが、MeCabはあくまで形態素解析器です。ということで、最小単位の形態素を検出することは出来ますが、連語等は分解されて出てきます。（本当はちょっと工夫したら出せるのですが、それはまた次回）例えば、「集合知」という言葉が出てきたら、下のように分解されて出てきます。集合名詞,サ変接続,*,*,*,*,集合,シュウゴウ,シューゴー知名詞,一般,*,*,*,*,知,チ,チ使い方にもよりますが、集合知という言葉で取りたい場合も多いと思います。以前、Yahoo!APIと組み合わせ

nobu666 2010/06/14

perl
nlp

リンク

Não Aqui! » SimString (類似文字列検索ライブラリ) 1.0 released

SimStringという類似文字列検索ライブラリをBSDライセンスでリリースしました．類似文字列検索とは，文字列集合（データベース）の中から，クエリ文字列と似ているものを見つけ出す処理です．コンピュータは，正確に一致する文字列を探すのは得意ですが，表記揺れに出くわすと，途端に対応できなくなります．例えば，「スパゲティ」に対して，レストラン情報などを返すサービスにおいて，「スパゲッティ」や「スパゲティー」などの表記揺れが検索クエリに与えられると，通常のデータベースでは情報を提示することが出来ません．類似文字列検索を用いると，表記揺れが検索クエリに与えられても，「スパゲティ」という既知語を代替クエリとして提案したり，「スパゲティ」の情報をダイレクトに引き出すことができるようになります．似てる語を探す技術って，文字列処理の基本中の基本で，自然言語処理では当たり前のように使われていてもおかしくな

nobu666 2010/05/24

nlp

リンク

自然言語処理入門

岩崎のホームページへ戻る自然言語処理入門 0. 入力処理（欧文のリスと形式への変換、大文字・小文字の処理、宿約形の扱いなど） 1. 簡単な文脈自由文法とＤＣＧ（いわゆる基本文型の導入と主格関係代名詞の処理） 2. 文の構造表示のための技法 3. 文法素性による文脈自由文法の補強（性、数、格、人称、時制、動詞形態、選択制限） 4. 文法規則と語彙データの切り離しによる辞書の整理と語彙登録の簡素化 5. 動詞句にかかわる文法素性（助動詞の導入、決定疑問文、進行形、完了形、to不定詞） 6. Gap素性の導入（補足疑問文と主格以外の関係代名詞など一見移動しているかにみえる要素の扱い） 7. 文法の拡張(左再帰規則と無限ループ、前置詞句・形容詞句の処理、その他の特殊構文） 8. 翻訳の際の諸問題（日本語用言の活用・語尾の処理、量詞の扱いなど ) 入力処理（１）欧文入力処理通常の欧文形式で入

nobu666 2010/05/21

nlp

リンク

NLP2010 言語処理学会チュートリアル - DO++

今日から開催されている言語処理学会のチュートリアルで ”超高速テキスト処理のためのアルゴリズムとデータ構造” というタイトルで発表させていただきました。チュートリアル資料はこちら(pdf)です。（出典などは適宜追加します）今までいろいろなところで話してきた、オンライン学習、文字列、疎ベクトルデータ構造を最新の話を追加して、さらに乱択化（Hash Kernel, 乱択化SVD)を解説しています。発表自体は途中でブルースクリーンが出るということもありましたが、なんとか終えられてよかったです。これに付随していろいろツールを公開する予定だったがまにあわなかった。そのうち公開します

nobu666 2010/03/09

nlp

リンク

日本テレビ東京で学ぶMeCabのコスト計算 | mwSoft

今回はこの言葉の解析をMeCab＋NAIST辞書にお願いして、結果を分析することで、MeCabが行っているコスト計算について勉強してみたいと思います。とりあえず実行してみるさっそくMeCabに「日本テレビ東京」を解析してもらいましょう。 $ echo 日本テレビ東京 | mecab 日本名詞,固有名詞,地域,国,*,*,日本,ニッポン,ニッポン,, テレビ東京名詞,固有名詞,組織,*,*,*,テレビ東京,テレビトウキョウ,テレビトーキョー,, EOS 「日本 | テレビ東京」と分けていますね。視聴率的には負けていますが、NAIST辞書的には日本テレビよりもテレビ東京が優先されたようです。ちなみに「フジテレビ東京」ではどうなるでしょうか。 $ echo フジテレビ東京 | mecab フジテレビ名詞,固有名詞,組織,*,*,*,フジテレビ,フジテレビ,フジテレビ,, 東京名詞,

nobu666 2009/10/21

mecab
nlp

リンク

Google Code Archive - Long-term storage for Google Code Project Hosting.

Code Archive Skip to content Google About Google Privacy Terms

nobu666 2009/10/05

リンク

自分がフォローしている人たちだけのbuzztterみたいなものを実現する with Echofon - Unchained Life

先日中川さん(id:Psychs)によってEchofon for Macのベータ版がnaan studioからリリースされました。 http://echofon.com/twitter/mac/ http://d.hatena.ne.jp/Psychs/20091001/1254351633 必要な機能をシンプルにまとめたTwitterクライアントでとても使いやすいです。(個人的にはあとjk移動がほしい) さてEchofonはTwitterのログを保存する際にSQLiteを使っているのが一つの特徴です。そのため自分の過去ログをいじっていろんなことができておもしろいです。例えば自分がフォローしている人たちだけを対象にしたbuzztterみたいなことを実現することができます。 (Twitter日本語圏全体からのホットなキーワード抽出として、ぼくは@yazztterというのを作っています:)

nobu666 2009/10/05

twitter
nlp

リンク

文体による個人識別法 : 研究開発

総合研究大学院大学　複合科学研究科　情報学専攻　卒　博士（情報学）自然言語処理や機械学習、データ分析に関する研究内容とwebシステムの開発と運用について書いています。シリコンバレーベンチャーみたいに深い技術の事業化をしたいと思っています。ご興味ある方はご連絡ください。人が記述する文章には人それぞれに固有の特徴があり、声紋、指紋、網膜、DNAなど、バイオメトリクス（生体認証）と同様に個体識別が可能になるという考えがあります。少なくとも、筆跡鑑定程度には個人性が現れてきます。この研究は元は文書（主に古典文学）の著者が誰であるのかを判別するために取り組まれてきて古い歴史があるのです。著者判別に有効な特徴量の推定吉田篤弘　延澤志保　平石智宣　斎藤博昭慶應義塾大学大学院情報処理学会研究報告　情報学基礎　2001(86) 文献の真贋問題は有史以来人類が向き合ってきた問題の一つ

nobu666 2009/09/14

nlp

リンク

WordPress Related Post for Japanese で全文検索を行う - dogmap.jp

hiromasaさんが作成したWordPress用の関連投稿表示プラグインWordPress Related Post for Japanese(wp-jrelated)を利用して、各記事に過去記事から関連する記事を自動で表示しています。この wp-jrelated が関連記事を検索する仕組みですが、おおよそ以下のとおりです。 Yahoo! 日本語形態素解析でコンテンツを解析し、名詞を抽出抽出された名詞を頻出順でカンマ区切りでDBに格納抽出された名詞の中から頻出する名詞トップｎ個を抜き出し、それを使って過去記事を like 検索関連度合いは、元記事の頻出単語が幾つ関連記事に含まれるかを計算その際、上位頻出単語の方が重みを持つようにランク付け ※このランク付け方法が中々良くできてます、ソースを読むことをオススメこれだけで、かなりの精度を出せているので大したモノです。しかし、単語

nobu666 2009/06/02

リンク

はてなブックマーク

タグ

関連タグで絞り込む (25)

nlpに関するnobu666のブックマーク (24)

お知らせ

今週のはてなブックマーク数ランキング（2024年8月第1週）

月間はてなブックマーク数ランキング（2024年7月）

今週のはてなブックマーク数ランキング（2024年7月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス