一定期間更新がないため広告を表示しています
マルコフ連鎖とは マルコフ連鎖は未来の挙動が現在の値だけで決定され、過去の挙動と無関係であることを利用した確率統計モデルです。定義としては次のような形を取ります。 マルコフ連鎖は、一連の確率変数 X1, X2, X3, … で、現在の状態が決まっていれば、過去および未来の状態は独立であるものである。形式的には、 であるような過程をいう。一般の、時間的に均一でないマルコフ連鎖は、この等式を満たさない。(Wikipedia:「マルコフ連鎖」より) はい、難しい数式が出てきましたね。私もこの中身は完全には理解していません。しかし、このマルコフ連鎖を使うと、現在のデータを一定の出現率で並び替えるアルゴリズムを作成することも可能という事を憶えておいてください。実はGoogleのページランクアルゴリズムなどにもマルコフモデルが応用されています。 日本語形態素解析とは 日本語は単語と助詞を中心に、日本独
既にやり尽くされた感のあるネタだが,個人的には得られた点が多かったのでまとめておく。 やりたいこととしては,「twittbotでBOTを作るだけじゃツマラナイし面倒だから,自動でBOTが学習して呟いてくれたらいいよね!」って感じ。皆に愛されているしゅうまい君などもマルコフ連鎖で文章を生成しているらしいヨ。圧縮新聞は言わずもがな。 環境 Cent OS 5.4 ruby 1.9.3p125 (2012-02-16) [i686-linux] igo-ruby (0.1.5) mecab-ipadic-20070801 (MeCab用の日本語辞書) The Ruby Twitter Gem (2.1.0) アカウントの準備 BOTを運用するアカウントを作成する。このとき,アカウントで利用するメールアドレスの認証を済ませておかないと,後でTwitter Developersのサイトにログインでき
これまでに、N-gramと形態素解析の2つの検索エンジンの、見出し語の切り出し方法を説明しました。今回は、2つの見出し語の切り出し方法を比較し、それぞれの得意な点、不得意な点を明らかにしていきます。 2つの手法の概要 はじめに、2つの手法をおさらいしてみます。 形態素解析 検索対象のテキストを形態素解析を行い分かち書きを行う 分かち書きした単位を見出し語として転置インデックスを作成する 転置インデックスを元に検索を行う N-gram 検索対象のテキストをN文字単位の文字列片に分解する 分解した文字列片を見出し語として転置インデックスを作成する 検索語をN文字単位の文字列片に分け検索を行う 文字列の出現位置情報を利用すれば、漏れのない完全一致の検索が可能 大きな違いは、「転置インデックスの見出し語をどのように作るか」というプロセスが異なる点です。形態素解析は構文解析を行って分かち書きを行う
何となく"マルコフ連鎖"という単語に魅かれて、ちょっとやってみました。 →mecab でマルコフ連鎖をためしてみる。 - コードを舐める日々 まずスクレイピング まぁ、当然(?)、PHPでやる訳ですが、まずスクレイピングをどうしようかなと思ったんですが、HTMLScrapingという素晴らしいPHPクラスがあるので、ありがたく使わせて頂く事にしました。 →http://www.rcdtokyo.com/ucb/contents/i000851.php <?php try { $hs = new HTMLScraping(); $url = 'http://www.asahi.com'; $xml = $hs->getXmlObject($url); $li = $xml->xpath('//div[@id="HeadLine"]/ul[@class="Lnk FstMod"]/li[1]/
「PEAR::Net_SmartIRC を使って、一定間隔でニュースを配信する IRC BOT を作成する」で作成したごく簡単な BOT はしかし、外部のリソースをひっぱってきて、それを単にそのまま流すことしかできません(RSS をパースする処理はあるけど、本質的には垂れ流してるだけ)。通常 IRC BOT というと、チャンネルのメンバが喋った言葉を憶え、それらをアレンジしたデータを用いて、時には当意即妙に会話に介入することもあればまるで的はずれな発言で場を微妙な雰囲気に陥れることもあるといったものですし、また、なかには日記や Blog を書くすごい BOT さんもいます。 そうなると当然、次の目標は「おしゃべりをする、あるいは日記を書く BOT を作成する」というものになるわけですが、まぁ僕の頭ではいきなりそんなことを実現することは不可能ですし、また、そのような方向で BOT を作成する
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く