[B! 自然言語処理] torutoのブックマーク

toruto id:toruto

自然言語処理に関するtorutoのブックマーク (125)

Sign in - Google Accounts
Not your computer? Use a private browsing window to sign in. Learn more about using Guest mode
toruto 2011/05/22
日本語

自然言語処理
リンク
Improving Recommendation for Long-tail Queries via Templates(WWW 2011) - 糞糞糞ネット弁慶
Improving recommendation for long-tail queries via templates 概要グラフベースのクエリ推薦において，クエリごとにクエリ-ページの遷移を考えるのではなく，クエリ-テンプレート，テンプレート-テンプレートでの遷移を考える．これにより，従来のクエリ推薦では対応できなかったロングテール（つまりは検索数が少ないクエリ）に対応する．例えば，"Montezuma surf"というクエリについて，" surf → beach"というルールがあれば"Montezuma beach"なるクエリを推薦することが出来る． Query-Flow Graph Boldiがこれまで何度か書いてきた手法．いくつか読んではいるがブログで書いた事は無かったのでいつかまとめて書く． QUERY TEMPLATES AND THE QUERY TEMPLATE F
toruto 2011/05/10
recommendation

自然言語処理
リンク
第5回自然言語処理勉強会を開催しました #TokyoNLP - nokunoの日記
というわけでようやく第5回を開催しました！！第5回自然言語処理勉強会 #TokyoNLP : ATND n-gramを小さくする話を調べてみた by @machyさんCompressed ngram View more presentations from Keigo Machinaga N-gramとは今日の題材はn-gramインデックスではなくn-gram確率（言語モデル）の話応用：音声認識、手書き文字認識、スペル訂正、かな漢字変換、機械翻訳単語n-gramを題材とする P(晴れ | 天気は) = 0.24 P(きっと | 天気は) = 0.03 n-gramを小さくしたいクライアサイドで動作するアプリケーションのためとかサーバサイドでもオンメモリになるとうれしい注目するのはメモリ使用量：ファイルサイズではないまずはデータを見てみます大規模なn-gramを自分で用
toruto 2011/04/24
自然言語処理
リンク
NLP関係のリソースまとめ - nokunoの日記
先日オープンソースのtrieライブラリについてまとめましたが、それ以外にも家での開発に使えるリソースが増えてきました。コーパス WikipediaコーパスTwitterコーパスBaiduコーパスWebコーパスWikipedia対訳コーパスオープンソース対訳コーパスMS-IMEコーパス辞書 WikipediaタイトルはてなキーワードIPAdicUnidicalt-cannadicSKK評判辞書
toruto 2010/12/19
Twitter

自然言語処理
リンク
入門自然言語処理
自然言語処理（NLP：Natural Language Processing）の実践的な入門書です。「自然言語」とは、英語や日本語など人々が日常のコミュニケーションで使う言語のことで、NLPに基づく技術は、モバイル端末におけるテキストの予測や手書き文字認識、検索エンジンにおける統一されていないテキスト内の情報取得、機械翻訳においてはある言語で書かれたテキストの分析と多言語への変換など、広範囲に活用されるようになってきています。本書では、NLPの理論的な基礎、理論、応用をバランスよく解説。本書の例から学び、実際のプログラムを書き、そして実装することを通して、読者はNLPを始めるための実用的な知識と技術を得られるでしょう。関連ファイルダウンロードの場所と使用法 Python による日本語自然言語処理（12章の公開版）正誤表ここで紹介する正誤表には、書籍発行後に気づいた誤植や更新された情
toruto 2010/10/26
book

自然言語処理
リンク
Twitterを用いたリアルタイムイベント検出・位置推定及びその他の取り組みについて @tksakaki 榊　剛史東京大学工学系研究科　博士課程, Twitterの持つリアルタイム性を生かし、キーワードと��
Twitterを用いたリアルタイムイベント検出・位置推定及びその他の取り組みについて @tksakaki 榊　剛史東京大学工学系研究科　博士課程
toruto 2010/10/18
twitter

資料

自然言語処理

機械学習
リンク
HTML からのテキスト抽出をウェブサービス化 - やた＠はてな日記
日本語ウェブコーパスを処理するためのプログラムを改修しているのですが，HTML アーカイブからのテキスト抽出までは問題なく動く状態になったので，HTML 文書からテキストを抽出するウェブサービスを公開してみました． http://s-yata.jp/apps/nwc-toolkit/text-extractor HTML の入力方法は，以下の 3 種類を用意しています．入力方法 URL を入力：指定した URL からテキストを抽出します．ファイルを入力：アップロードした HTML ファイルからテキストを抽出します． HTML を入力：フォームに入力した HTML からテキストを抽出します．テキスト抽出の中身は，HTML 文書の文字コードを UTF-8 に変換してから，テキスト部分のみを切り出し，Unicode 正規化（NFKC）を施した後で，句点や感嘆符による文区切りをおこない，さら
toruto 2010/10/11
web

自然言語処理
リンク
「Mozcソースコード徹底解説」 at 第２回自然言語処理勉強会 - nokunoの日記
というわけで自然言語処理勉強会を開催しました。第2回自然言語処理勉強会＠東京 : ATND私の発表は、シルバーウィークにもう１回読んでみたMozcのソースコードの解説をしました。Tokyotextmining02 mozcView more presentations from nokuno. その他、関連するリンクです。Togetter - 「第2回自然言語処理勉強会＠東京 (#tokyotextmining)」自然言語処理研究会 - tsubosakaの日記 (id:tsubosakaさん）自然言語処理勉強会で「ナイーブベイズによる言語判定」を発表してきました - Mi manca qualche giovedi`? (id:n_shuyoさん）Query Suggestion @ tokyotextmining#2 (@y_benjoさん）
toruto 2010/09/26
mozc

機械学習

自然言語処理
リンク
第二回自然言語処理勉強会で「『あずにゃんに関連する検索キーワード』→『あずにゃん　ペロペロ』を実現するクエリ推薦技術について（仮）」を発表した - 糞ネット弁慶
第2回自然言語処理勉強会＠東京 : ATND スライドはこちら。参加者の方々に検索エンジン業界で働いている人が多すぎて、もはや釈迦に説法レベルのスライドだった。というか9月は勉強会が多くて疲れた。補足書きました→tokyotextmining#2で発表したあずにゃんぺろぺろの補足 - 糞ネット弁慶
toruto 2010/09/25
自然言語処理
リンク
「言語処理のための機械学習入門」勉強会を開催しました - kisa12012の日記
2010/8/6,7の2日間を用いて、「言語処理のための機械学習入門」を輪読する勉強会を開催しました。発表者の皆様、お疲れ様でした。以下、現時点で公開されている発表スライドを掲載します。（発表資料に問題等あれば、TwitterのDMなどで御連絡ください。サイドバーのプロフィール欄に連絡先が記載されています。） 2章：文書および単語の数学的表現 100816 nlpml sec2View more presentations from shirakia. 4章：分類 Ml for nlp_chapter_4View more presentations from hylosy.Ml4nlp 4 2View more presentations from beam2d. 5章：系列ラベリング NLPforml5View more presentations from kisa12012.
toruto 2010/08/08
自然言語処理

機械学習
リンク
言語処理のための機械学習入門を読んだ - 射撃しつつ前転改
言語処理のための機械学習入門という本が出版される、という話はtwitterで知っていたのだが、8月ぐらいに出るのだろうとばかり思っていたら、なんかもう発売されているらしい。Amazonでは早速売り切れていたので、某大学生協の書籍部まで行って購入してきた。おかげで、この週末は280円で過ごすハメになってしまった。まだざっと眺めただけだが、ラベルを人手でつけるのに隠れマルコフモデルと言うのは本来はちょっとおかしいんだけどNLPの分野だとそう表現する事が多いよ対数線形モデルと最大エントロピーモデルは同じものだよ出力変数の間に依存関係がなければCRFではなく対数線形モデルとか最大エントロピーモデルと表現するべきだよといった、これまでの教科書にはあまり載っていなかったような事が載っているのはとても良いと感じた。こういった情報は、これまではどこかの大学の研究室で学ぶか、もしくはウェブ上の資料
toruto 2010/07/12
機械学習

book

自然言語処理
リンク
自然言語処理勉強会＠東京第1回の資料 - 木曜不足
本日の tokyotextmining こと自然言語処理勉強会＠東京第1回で話す「Webページの本文抽出 using CRF」の資料(自己紹介は除く)です。以前、Ruby で作った本文抽出モジュールを機械学習の技術を使って作り直してみたら、というお話。 CRF は Conditional Random Fields の略。 Web本文抽出 using crf from Shuyo Nakatani 実装はこのあたり。 http://github.com/shuyo/iir/blob/master/sequence/crf.py http://github.com/shuyo/iir/blob/master/sequence/pg.py http://github.com/shuyo/iir/blob/master/extractcontent/webextract.py 【追記】
toruto 2010/07/04
ruby

自然言語処理

機械学習
リンク
http://atnd.org/events/5858
toruto 2010/06/20
自然言語処理
リンク
Zzz Eee Lll Ccc Hhh
仮名漢字変換統計的なモデル(クラス2-gramモデル)を用いる方法を1998年に世界で初めて(!?)提案しました。当時は、開発者が一生懸命手で書いた規則を用いる方法が主流でした。確率的手法は理論的なので、保守が容易であったり発展性が格段に高いのが利点です。実際、分野適応が容易であったり、単語の自動獲得などに発展させることができます。モデルやコードを簡素化した統計的仮名漢字変換が、以下の SIMPLE リンクからダウンロードできます。詳細の解説はいずれ書きますが、とりあえずよい解説に譲ります。リンク SIMPLE (Statistical Input Method for Personal Learning and Education; 仮) or KyKC (休憩しぃ)? simple.tar ダウンロード (とりあえず再配布不可です) 統計的仮名漢字変換の学習用単語と読
toruto 2010/06/12
自然言語処理
リンク
単語と入力記号列の組の1-gramモデルによる統計的仮名漢字変換
toruto 2010/06/12
ui

自然言語処理
リンク
自然言語処理勉強会＠東京　のグループを作りました。 - nokunoの日記
最近、統計・機械学習・データマイニング関係の勉強会に顔を出しているわけですが、自然言語処理の勉強会がなぜか無かったので作りたいと思い、とりあえずグループを作りました。きっと大学の研究室レベルとか研究会とかがいっぱいあるのだと思いますが、社会人でも週末で気軽に参加できるオープンな勉強会、という点では意義があるのではないかと思います。自然言語処理勉強会＠東京 | Google グループまだ何もありませんが、興味がありましたらご参加ください。自然言語処理（Natural Language Processing; NLP)に関する勉強会です。自然言語処理について、理論と実践の両面について深く学び、発表と議論を通じて共有していくことを目的としています。概要主に東京で週末に開催されます。発表者と会場提供を募集しています。神経なんとかとの誤爆を避けるため、英名はtokyotextmining
toruto 2010/05/30
自然言語処理

study
リンク
PFI seminar 2010/05/27 統計的機械翻訳
8. 統計的機械翻訳(SMT: Statistical Machine translation)パラレルコーパスを用いて翻訳ルールを獲得c.f. ロゼッタストーン言語の専門家がいなくてもよい（国家的な理由も）高品質・大量のパラレルコーパスは国連・EUの国際会議の議事録などで大量に入手可LDC, Acquis, OPUS, Communautaire, …例：Europarlの場合 11言語毎に4000万単語言語のスケーラビリティが高いコーパスさえあれば良い c.f .Google 50言語間 9. 統計的機械翻訳の歴史 (1/2)～1980 用例ベース機械翻訳1989 IBMResearchによる著名な論文NLP業界での引用数第2位 (約1000件）翻訳システムのパラメータをパラレルコーパスから自動推定する簡単な手法から順に IBMモデル1 - 5がある提案者自身らは金融業界へと去っていっ
toruto 2010/05/28
資料

自然言語処理
リンク
Wikipediaから作成したN-gramデータを公開しました - nokunoの日記
id:toilet_lunch さんに先を越された感がありますが、Wikipediaから作成したN-gramデータを公開しました。Downloads - nokuno - Project Hosting on Google Code処理方法については先日の日記を御覧下さい。Wikipediaによるテキストマイニング入門 - nokunoの日記
toruto 2010/05/23
自然言語処理

wikipedia
リンク
2010-05-22
データ http://dl.dropbox.com/u/2996612/idf.txt.bz2 集計条件品詞は細分類を無視文書数はタイトルの行数とし、空の文書*1でもカウントを行っている*2 定義式：　単語のIDF値：　総文書数：　単語が出現する文書の総数文書数、異なり単語数総ドキュメント数 123,7429 単語異なり数 216,9308 データ形式と例タブ区切りデータ例形態素品詞 idf値あいぞう名詞 6.09252 あいぞめ名詞 5.01334 あいた感動詞 4.58737 あいたい名詞 4.46927 あいだ名詞 2.82231 *1:WP2TXTの変換によって本文がなくなる場合がある *2:めんどくさかったので・・・データ 1-gram http://dl.dropbox.com/u/2996612/1gram.bz2 2-gram http:
toruto 2010/05/23
wikipedia

自然言語処理
リンク
Wikipediaによるテキストマイニング入門
Loading… Flash Player 9 (or above) is needed to view presentations. We have detected that you do not have it on your computer. To install it, go here. Datamining04 textmining - Presentation Transcript Wikipediaによるテキストマイニング入門 @nokuno #TokyoWebmining 2010/05/16 アジェンダ 1. はじめに 2. テキストマイニング入門 3. Wikipediaデータの解析 4. まとめ 2 1. はじめに 3 自己紹介  Twitter: @nokuno  はてな：id:nokuno  Social IME開発者  自然言語処理とか  RとかP
toruto 2010/05/16
自然言語処理

wikipedia
リンク
1 2 3 4 5 6 7 次のページ