タグ

2013年5月28日のブックマーク (7件)

  • トピックモデルメモ - Negative/Positive Thinking

    はじめに トピックモデルについてメモ。 トピックモデルとは 文書は、何らかの話題について書かれていたりする 「ある文書内に一緒にでてくる単語は、意味的な関連性が強い」など考えられる トピックモデルは、文書から「何らかの話題(=トピック)」を発見するための統計的なモデルのこと トピックモデルのいろいろ Unigram Mixtures ナイーブベイズでクラス数kと各パラメータをEMで繰り返し推定していく http://www.kamalnigam.com/papers/emcat-mlj99.pdf Probabilistic Latent Semantic Indexing(PLSI) 検索技術であった潜在意味解析(LSI,1990年)を確率的に解析、開発された生成モデル(1999年) 各単語ごとに別なトピックから生成されたと仮定する http://cs.brown.edu/~th/pap

    トピックモデルメモ - Negative/Positive Thinking
  • YouTube、日本語音声を認識して字幕を自動生成・表示する機能を追加 

    otani0083
    otani0083 2013/05/28
  • 総務省|報道資料|統計におけるオープンデータの高度化

    総務省は、政府統計のポータルサイトであるe-Statなどで広く公開している政府統計データについて、より高度な利用を可能とする取組についてまとめました。 総務省統計局は、政府統計の中核的機関として、人口や事業所・企業、消費など国の基幹となる重要な統計を作成しております。データ提供の面においても、e-Statを通じ広く公開してきました。 (政府統計の総合窓口(e-Stat) http://www.e-stat.go.jp) 現在、政府全体でオープンデータへの取組を推進しているところですが、これらの取組をリードする総務省として、政府統計の情報提供のかたちを更に高度化すべく検討を行い、独立行政法人統計センターと協力し、トップランナーとして次のような取組を進めています。具体的には次の3つです。 (1)API機能による統計データの高度利用環境の構築 (2)統計GIS機能の強化 (3)オンデマンドによる

    総務省|報道資料|統計におけるオープンデータの高度化
  • 日本の論文数だけ先進国で異常な減少をしている

    いのうえ せいいちろう @seicha_ino 日の論文数だけが、ここ10年ほど減少しているという事実 RT @mo0210: あまりにも異常な日の論文数のカーブ http://t.co/PY06Z7K0mp リンク gooブログ あまりにも異常な日の論文数のカーブ - ある地方大学元学長のつぼやき 今年度から、私は内閣府総合科学技術会議の「基礎研究および人育成部会」という会議の委員として出席をしているのですが、その会議で配られた資料には、日の学術論文数が減少していること、そして、若手教員(研究者)の比率が減っていることを含め、たくさんの日の研究機能についての分析データ... shimpei @ShimpeiHMMTの論文数の減少の異常性について、前々から確かに気になっていたが。。。日語の雑誌を集計対象から外したとかないのだろうか。それ以外に、沢山書いてた人も書かなくなっ

    日本の論文数だけ先進国で異常な減少をしている
  • 映画「The Social Network」の脚本をNLTKで解析して遊んでみた - ぬいぐるみライフ?

    ※この記事には映画「The Social Network」のネタバレがそれなりに含まれています.これから映画を観る予定の方は逃げた方が賢明です. 最近ブログで宣言した通り,入門 自然言語処理を読みつつPythonのNLTK(Natural Language ToolKit)を使った自然言語処理について勉強中.入門 自然言語処理はPythonをロクに触ったことがない私でもちゃんと理解しながら読み進められるようになっているのが嬉しい. ところで,少し前に映画「The Social Network (ソーシャル・ネットワーク)」を観て,登場人物の台詞や行動がなかなか面白くて気に入ったのだけど,この脚映画の公式サイトで公開されていることを最近知った.映画の脚となると,特徴的な表現が多く文章数もそれなりにあるので,興味深いコーパスになり得るのではないかと思う. というわけで,NLTK習い立ての

    映画「The Social Network」の脚本をNLTKで解析して遊んでみた - ぬいぐるみライフ?
  • MeCabとNLTKを使って最瀕語と共起関係を出力する - Men talking over coffee with smoking Ark Royal.

    MecabとNLTKを使って最瀕語と共起関係を出力するコードを書きました。 Mecabのインストールについては、Windowsなら結構難なく行くようですが、Mac OSX Lionだととても躓きました。 その辺りの経緯は、mecab-pythonMac OSX 10.7 Lion、Python2.7にインストールする - Men talking over coffee with smoking Ark Royal.を参考にしてください。 まず、このMeCabで形態素解析を行うコードですが、以前、『入門ソーシャルデータ』勉強会で、Kenji Koshikawa (Kshi_Kshi)さんに頂いた、mecab_library.pyを元にしています(元のリンクが見つけられませんでした、申し訳ございません)。 mecab_library.py # -*- coding: utf-8 -*- im

    MeCabとNLTKを使って最瀕語と共起関係を出力する - Men talking over coffee with smoking Ark Royal.
  • LDA で実験 その1:stop words の扱い方でどう変わる? - 木曜不足

    LDA Python 実装編 LDA 解説編 というわけで連載じゃあないけど第3回。わざわざ自前で実装したんだから、LDA で細かい設定で実験してみる。 NLTK のブラウンコーパスの 0〜99 までの 100 個のドキュメントをコーパスとし、トピック数は K=20、ハイパーパラメータはα=0.5, β=0.5、イテレーションは 100 回、というのが基条件。*1 そして stop words の扱いを「除外(-s 0)」、「除外しないで他の単語と同様に扱う(-s 1)」、そして「初期化時にストップワードを1つのトピック(k=0)に集中させる。その他の単語は残りのトピック(k>0)に分散させる (-s 2)」と変えてみて、それぞれ 10回推論を行わせて、perplexity やトピック-単語分布について確認する。ただし -s 0 のときは -s 2 との対比でトピック数 K=19 にして

    LDA で実験 その1:stop words の扱い方でどう変わる? - 木曜不足