計算機科学最近サザエさんとキュアピースのじゃんけん対決が話題になっている。じゃんけんポンで日曜日またこれに関連して「サザエさん ジャンケン学」というサイトが注目を集めている様子。サザエさん ジャンケン学このサイトによるこれまでの予測的中率は44.7... 続きを読む
松本研究室で開発した自然言語処理ツールの一覧です. 公開中のツール 日本語形態素解析システム ChaSen 「茶筌」 品詞タグ付きコーパス作成支援 GUI ツール VisualMorphs 日本語係り受け解析システム CaboCha「南瓜」 汎用 テキストチャンカー/タガー YamCha S... 続きを読む
解析結果がほぼMeCab互換のJavaおよびCommon Lispで実装された形態素解析器IgoのRuby版を作りました。 正確にはIgoのエンジン部分をRubyに移植しましたですけれども。 ソース ソースはGitHubに公開。 また、RubyGems.orgにgemを公開してあるので、インターネッ... 続きを読む
出力結果の並び順を思いどおりにしたいなら「ランキング学習」 Tweet [日記] 何でも良いけど機械的に結果を出力したするときに「何か違うんだよな」ということが多々ある。 by kktryj 例えば、「六本木 スタバ」という検索クエリに対して、 六本木ヒルズスター... 続きを読む
index 既知のチャンネル歪みとAWGN (Additive White Gaussian Noise 加法的白色ガウス雑音)を仮定したとき、最良の受信方法は最尤(ユウ)系列推定でした(最適判定法を参照)。 その原理は次のようです。 送信シンボル系列を有限長とする。 既知チャンネル歪... 続きを読む
日本語形態素解析エンジン・言語郎。日本語の文章を、形態素(言語で意味を持つ最小単位)に分割する技術です。自然言語で書かれた文を、形態素(言語で意味を持つ最小単位)に分割する技術です。この際、辞書 (「品詞」などの情報つきの単語リスト)中の情報を... 続きを読む
プログラミング, 自然言語処理はじめに形態素解析器のデコーダ部分を超簡単に書いてみた。 いつも通り速度などは考えずに流れを学ぶために書いているので遅い。。。 あと「辞書の構築(コスト計算)」と「未知語処理」ができればそれっぽいものができそうな予感。... 続きを読む
上手に反論する方法 11/05/23 Comment(0) Trackback(0) 上手に反論する方法 他人と上手くコミュニケーションをとるには、どうしたらよいのだろう?と思い始め、調べているうちにある「考え方」にたどり着きました。 心の動きが手にとるようにわかるNLP理論 とて... 続きを読む
NLP2011の一日目(チュートリアル)が終了しました。 チュートリアルというだけあって分かりやすい言葉で話されてるケースも多いのですが、濃い話が長時間に渡って続いたので途中から自分で咀嚼することができなくなってる部分が多数。頂いた資料には参考文献も... 続きを読む
NLP, Python※この記事には映画「The Social Network」のネタバレがそれなりに含まれています.これから映画を観る予定の方は逃げた方が賢明です. 最近ブログで宣言した通り,入門 自然言語処理を読みつつPythonのNLTK(Natural Language ToolKit)を使った自然... 続きを読む
自然言語処理, 機械学習1/28 に行われた第200回 NL研(情報処理学会の自然言語処理研究会)でのパネル討論会を @mamoruk さんが twitter で中継してくださってて、これが本当にとてもおもしろかった。Togetter でのまとめがこちら。 Togetter - 「NL研 #signl200 ... 続きを読む
自然言語処理に関係した企業と大学と学生の関係が変化しています。 自然言語処理に関する大学での研究内容と企業での応用が非常に近くなって来ています。 企業がデータを大学等に提供し、その研究成果が社会に還元される仕組みができつつあります。 多くの学生... 続きを読む
最近、Q&AコミュニティのQuoraが流行っていますね。Quoraそこで、個人的に興味のある分野のQAについてまとめておきます。 自然言語処理・機械学習系 What is the best way to analyze a corpus of text to determine the most popular phrases? - QuoraWhat is ... 続きを読む
出版業界中堅の青空出版社(板橋区)がライトノベル(ラノベ)を対象に募集した「星雲J新人賞」で、大賞を受賞した作品がコンピューターのプログラムによって自動で書かれたものであったことを、23日の授賞式で作者自らが暴露する出来事があった。これを受け... 続きを読む
UnNatural Language Processing Blog What kind of language technologies would the “World Government” require in 30 years from now? — And why don’t we just start now? 「自然言語処理をやっている人なら必ず読むべき論文 100 は何か」と言われたら... 続きを読む
「入門 自然言語処理」はヤバい書籍なので禁書にすべきだ。 タイトルは釣りじゃない。その理由を10個挙げる。 自然言語処理のかなり基本的なことからそこそこ高度なことについて解説されてあり,自然言語処理について理解が深まり過ぎる ボリュームがあるのに書... 続きを読む
はじめに この文書は、 Steven Bird, Ewan Klein, Edward Loper 著 萩原 正人、中山 敬広、水野 貴明 訳 『入門 自然言語処理』 O'Reilly Japan, 2010. の第12章「Python による日本語自然言語処理」を、原書 Natural Language Processing with Python と同じ ... 続きを読む
Loading… Flash Player 9 (or above) is needed to view presentations. We have detected that you do not have it on your computer. To install it, go here. Perl で自然言語処理 - Presentation Transcript Perl で自然言語処理 佐藤 敏紀(さとうとしの... 続きを読む
Loading… Flash Player 9 (or above) is needed to view presentations. We have detected that you do not have it on your computer. To install it, go here. 続きを読む
OpenNLP is an organizational center for open source projects related to natural language processing. Its primary role is to encourage and facilitate the collaboration of researchers and developers on such projects. Click here to see the curre... 続きを読む
自然言語処理(しぜんげんごしょり、英: Natural language processing、NLP)は、人間が日常的に使っている自然言語をコンピュータに処理させる一連の技術であり、人工知能と言語学の一分野である。「計算言語学 Computational Linguistics」も同じ意味であるが... 続きを読む
#tokyotextmining ( http://atnd.org/events/8140 )応援企画で、COLING2010 の読んだ papers の感想をいくつかPOSTしてみる。NLPは素人なので誤読指摘歓迎。 続きを読む
NLP, 言語判定, 自然言語処理第2回自然言語処理勉強会@東京 にのこのこ行ってきました。ありがとうございました&お疲れ様でした>各位。 今回も全然専門じゃあないのに「ナイーブベイズで言語判定」というタイトルで発表してきた。 LangdetectView more prese... 続きを読む
[Library] NGramJ にチャレンジ NGramJ とは NGramJ は、Natural Language Processing(NLP)用のライブラリ。 与えられたバイト配列の言語、文字エンコーディングを判別してくれる。 たとえば、"竹やぶに竹立てかけた。"という文字列を Shift_JIS のバイト配列で... 続きを読む
第2回自然言語処理勉強会@東京 - ATND 「あずにゃんに関連する検索キーワード」→「あずにゃん ペロペロ」を実現するクエリ推薦技術について by @y_benjo n㌘超入門~FSNLP6章を読みながら by @naoya_t Malettを使ったLDA(仮)by @tsubosaka Mozcソースコー... 続きを読む
言選Webは東京大学情報基盤センター中川研究室で公開している 専門用語(キーワード)自動抽出サービスです。 このシステムは内部で、専門用語(キーワード)自動抽出Perlモジュール"TermExtract"を活用しています。 特に西欧言語版では英語だけではなく、フラ... 続きを読む
TextCat TextCat is an implementation of the text categorization algorithm presented in Cavnar, W. B. and J. M. Trenkle, ``N-Gram-Based Text Categorization'' In Proceedings of Third Annual Symposium on Document Analysis and Information Retriev... 続きを読む
日時 / DATE : 2010/09/25 13:00 to 18:00 定員 / LIMIT : 50 人 会場 / PLACE : ECナビ(渋谷) (〒150-0045 東京都渋谷区神泉町8-16 渋谷ファーストプレイス8F ) URL / URL : http://groups.google.com/group/tokyotextmining 管理者 / ADMIN : nokuno 概... 続きを読む
近年検索エンジンのBaiduは不自然言語処理コンテストなるものを開催し、今日が締切のはずだったのだが24時間延長されたらしいことを聞いてBaiduコーパスをダウンロードしたid:nokunoは仕事帰りの電車で思いついたアイデアを30分ほどで実装してみたところそれな... 続きを読む