いろはの「ろ」:研究計画を書く 研究テーマをまとめたものを用意する 「い」でつくったまとめを用意する 構成を考える 研究計画全体の構成を考える 書式の指定があればそれに従う 書式の指定がない場合には次の内容を含むようにする いくつかの項目をまとめて述べたり、適当に順序を変えても良い 研究のテーマ 具体的なテーマの紹介 何について研究するのか? 研究の背景 研究の動機 なぜそのテーマに興味を持ったのか? 研究テーマへの興味・関心 そのテーマにどのような理論的興味や関心があるのか? 研究テーマの重要性 その問題はなぜ・どのような点で重要なのか? これまでの研究の概要 研究の状況 研究テーマに関する既存の研究はどのようになっているのか? 既存の研究の問題点の提示 既存の研究をどのように評価するのか? 既存の研究にはどのような問題点があるか? 研究の目的 研究の目的 何を問題にして、何を明らかにし
Natural Language Processing with Python – Analyzing Text with the Natural Language Toolkit Steven Bird, Ewan Klein, and Edward Loper This version of the NLTK book is updated for Python 3 and NLTK 3. The first edition of the book, published by O'Reilly, is available at http://nltk.org/book_1ed/. (There are currently no plans for a second edition of the book.) 0. Preface 1. Language Processing and P
はじめに この文書は、 Steven Bird, Ewan Klein, Edward Loper 著 萩原 正人、中山 敬広、水野 貴明 訳 『入門 自然言語処理』 O'Reilly Japan, 2010. の第12章「Python による日本語自然言語処理」を、原書 Natural Language Processing with Python と同じ Creative Commons Attribution Noncommercial No Derivative Works 3.0 US License の下で公開するものです。 原書では主に英語を対象とした自然言語処理を取り扱っています。内容や考え方の多くは言語に依存しないものではありますが、単語の分かち書きをしない点や統語構造等の違いから、日本語を対象とする場合、いくつか気をつけなければいけない点があります。日本語を扱う場合にも
だいぶ前にはじめてのAIプログラミングという本を読んで、N-Gramを作ってみた。 N-gramしてみた - hitode909のダイアリー 今日少し時間があったからマルコフ連鎖もやってみた。 はじめてのAIプログラミング―C言語で作る人工知能と人工無能 作者: 小高知宏出版社/メーカー: オーム社発売日: 2006/10メディア: 単行本 クリック: 85回この商品を含むブログ (23件) を見る マルコフ連鎖を使った文の生成 ある文章を解析して、ある単語が出現した次にどの単語が出現することがあるかを調べる 文の開始となる単語を1つ選ぶ その単語に続く単語を確率的に選択していく 3をしばらく繰り返す こうすると、文っぽいものができるらしい。 あまり覚えていないけど、マルコフ連鎖というのは、次の要素が直前の要素のみによって決まる、という性質がある言語で、その性質を使って、文を作ることができ
MeCab に至るまでの形態素解析器開発の歴史等はこちらをご覧ください メーリングリスト 一般ユーザ向けメーリングリスト 開発者向けメーリングリスト 新着情報 2012-01-27 MeCab 0.993 MeCab::Tagger::formatNode()が正しく動いていなかった問題の修正 スタックの消費を抑えるため、ほとんどのローカル変数(配列)をヒープ上に退避 2012-01-14 MeCab 0.992 ソースコード中のTypoの修正 2012-01-14 MeCab 0.991 空文字列もしくは空白文字列を解析した時に解析エラーとなる問題を修正 ユーザ辞書の作成に失敗する場合がある問題を修正 2011-12-24 MeCab 0.99 MeCab::Model, MeCab::Lattice クラスを追加 マルチスレッド環境でのユーザビリティの向上。複数スレッドが同一
マルコフ連鎖とは マルコフ連鎖は未来の挙動が現在の値だけで決定され、過去の挙動と無関係であることを利用した確率統計モデルです。定義としては次のような形を取ります。 マルコフ連鎖は、一連の確率変数 X1, X2, X3, … で、現在の状態が決まっていれば、過去および未来の状態は独立であるものである。形式的には、 であるような過程をいう。一般の、時間的に均一でないマルコフ連鎖は、この等式を満たさない。(Wikipedia:「マルコフ連鎖」より) はい、難しい数式が出てきましたね。私もこの中身は完全には理解していません。しかし、このマルコフ連鎖を使うと、現在のデータを一定の出現率で並び替えるアルゴリズムを作成することも可能という事を憶えておいてください。実はGoogleのページランクアルゴリズムなどにもマルコフモデルが応用されています。 日本語形態素解析とは 日本語は単語と助詞を中心に、日本独
既にやり尽くされた感のあるネタだが,個人的には得られた点が多かったのでまとめておく。 やりたいこととしては,「twittbotでBOTを作るだけじゃツマラナイし面倒だから,自動でBOTが学習して呟いてくれたらいいよね!」って感じ。皆に愛されているしゅうまい君などもマルコフ連鎖で文章を生成しているらしいヨ。圧縮新聞は言わずもがな。 環境 Cent OS 5.4 ruby 1.9.3p125 (2012-02-16) [i686-linux] igo-ruby (0.1.5) mecab-ipadic-20070801 (MeCab用の日本語辞書) The Ruby Twitter Gem (2.1.0) アカウントの準備 BOTを運用するアカウントを作成する。このとき,アカウントで利用するメールアドレスの認証を済ませておかないと,後でTwitter Developersのサイトにログインでき
これまでに、N-gramと形態素解析の2つの検索エンジンの、見出し語の切り出し方法を説明しました。今回は、2つの見出し語の切り出し方法を比較し、それぞれの得意な点、不得意な点を明らかにしていきます。 2つの手法の概要 はじめに、2つの手法をおさらいしてみます。 形態素解析 検索対象のテキストを形態素解析を行い分かち書きを行う 分かち書きした単位を見出し語として転置インデックスを作成する 転置インデックスを元に検索を行う N-gram 検索対象のテキストをN文字単位の文字列片に分解する 分解した文字列片を見出し語として転置インデックスを作成する 検索語をN文字単位の文字列片に分け検索を行う 文字列の出現位置情報を利用すれば、漏れのない完全一致の検索が可能 大きな違いは、「転置インデックスの見出し語をどのように作るか」というプロセスが異なる点です。形態素解析は構文解析を行って分かち書きを行う
何となく"マルコフ連鎖"という単語に魅かれて、ちょっとやってみました。 →mecab でマルコフ連鎖をためしてみる。 - コードを舐める日々 まずスクレイピング まぁ、当然(?)、PHPでやる訳ですが、まずスクレイピングをどうしようかなと思ったんですが、HTMLScrapingという素晴らしいPHPクラスがあるので、ありがたく使わせて頂く事にしました。 →http://www.rcdtokyo.com/ucb/contents/i000851.php <?php try { $hs = new HTMLScraping(); $url = 'http://www.asahi.com'; $xml = $hs->getXmlObject($url); $li = $xml->xpath('//div[@id="HeadLine"]/ul[@class="Lnk FstMod"]/li[1]/
「PEAR::Net_SmartIRC を使って、一定間隔でニュースを配信する IRC BOT を作成する」で作成したごく簡単な BOT はしかし、外部のリソースをひっぱってきて、それを単にそのまま流すことしかできません(RSS をパースする処理はあるけど、本質的には垂れ流してるだけ)。通常 IRC BOT というと、チャンネルのメンバが喋った言葉を憶え、それらをアレンジしたデータを用いて、時には当意即妙に会話に介入することもあればまるで的はずれな発言で場を微妙な雰囲気に陥れることもあるといったものですし、また、なかには日記や Blog を書くすごい BOT さんもいます。 そうなると当然、次の目標は「おしゃべりをする、あるいは日記を書く BOT を作成する」というものになるわけですが、まぁ僕の頭ではいきなりそんなことを実現することは不可能ですし、また、そのような方向で BOT を作成する
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く