タグ

2012年2月26日のブックマーク (13件)

  • Mallet: MAchine Learning for LanguagE Toolkit

    View the Project on GitHub mimno/Mallet Download ZIP File Download TAR Ball View On GitHub Mallet: MAchine Learning for LanguagE Toolkit MALLET is a Java-based package for statistical natural language processing, document classification, clustering, topic modeling, information extraction, and other machine learning applications to text. MALLET includes sophisticated tools for document classificati

  • Latent Dirichlet Allocations(LDA) の実装について - 木曜不足

    昨日の "Latent Dirichlet Allocations in Python" の続きで実験結果を載せようかと思ったけど、先にやっぱりもうちょっと LDA を説明しておこう。 LDA の初出は [Blei+ 2003] Latent Dirichlet Allocation 。 ただし [Blei+ 2003] で "LDA" としているのはトピック-単語分布がただの多項分布(事前分布無し)のもの。"LDA" としてよく目にするトピック-単語多項分布にディリクレ事前分布が入ったものは "Smoothed LDA" として記載されている(確かにβでスムージングしているのと等価)。 今回実装した LDA も後者の "Smoothed LDA"。 その LDA はこんな感じ。αとβはハイパーパラメータだから、チビ黒丸で書いて欲しいんだけどね。 (図は Wikipedia-en の LD

    Latent Dirichlet Allocations(LDA) の実装について - 木曜不足
  • De Finetti's theorem - Wikipedia

    In probability theory, de Finetti's theorem states that exchangeable observations are conditionally independent relative to some latent variable. An epistemic probability distribution could then be assigned to this variable. It is named in honor of Bruno de Finetti, and one of its uses is in providing a pragmatic approach to de Finetti's well-known dictum "Probability does not exist".[1] For the s

  • ベータ分布の性質

    §4 ベータ分布の性質 ここでは,ベーター分布を紹介します。 この分布の意味は,余り適当な例がありませんが(比較的用いられない),次のように考えて下さい。独立に一様分布 U(0,1) に従う p+q-1 個の確率変数を大きさの順に並べ替えたとき,小さい方から p 番め(大きい方からは q 番目)の確率変数 X の分布がベータ分布 B(p,q) となります。 下のグラフの p,q のバーを上下にドラッグしますと,グラフが変化します。どのような値のときに,どのような形のグラフになるか,いろいろと確かめてみて下さい。ただし,B(p,q) をベータ関数 とします。 性質1.一様分布はベータ分布の特別な場合である。 [証明]これは明らかで,ベータ分布において,p=1,q=1 とおくと,f(X)=1 となります。実際,上のグラフで確かめてみると,一様分布に近づいていく様子が見られます。 次に,このベー

  • ディリクレ分布 - Wikipedia

    ディリクレ分布(ディリクレぶんぷ、英: Dirichlet distribution)は、連続型の確率分布である。ベータ分布を多変量に拡張して一般化した形をしており、そのため多変量ベータ分布とも呼ばれる。ディリクレ分布の確率密度関数は、同時に発生することのない 個の事象がそれぞれ 回発生したときに、各事象の起こる確率が である確率を与える(ただし、は整数である必要はない)。つまり、試行の回数が無限大なら各事象の発生の相対頻度は になるが、試行回数が有限だと、そこにずれが生じる。そのずれを表すモデルである。

    ディリクレ分布 - Wikipedia
  • Dirichlet分布 - 機械学習の「朱鷺の杜Wiki」

    Dirichlet分布 (Dirichlet distribution)† 実数ベクトル \(\mathbf{x}=(x_1,\ldots,x_k)\) とパラメータベクトル \(\mathbf{\alpha}=(\alpha_1,\ldots,\alpha_k)\) に対して,Dirichlet分布の確率密度関数は \[f(\mathbf{x},\mathbf{\alpha})=\frac{1}{B(\mathbf{\alpha})}\prod_{i=1}^k {x_i}^{\alpha_i-1}\] ただし,\(x_i\ge 0\) かつ \(\sum_{i=1}^k x_i=1\), \(\alpha_i\ge 0\), \(B(\mathbf{\alpha})\) は多変量ベータ関数. \(A=\sum_i^k\alpha_i\) として, i番目の要素の平均:\(\frac{\a

  • TechCrunch | Startup and Technology News

    Welcome back to TechCrunch’s Week in Review — TechCrunch’s newsletter recapping the week’s biggest news. Want it in your inbox every Saturday? Sign up here. Over the past eight years,…

    TechCrunch | Startup and Technology News
  • 「絶対便利じゃないですか」――本の内容まとめて公開「ブクペ」の狙いと“著作権”

    誰かが2000字以内で要約した“のまとめ”を無料で読める――そんな“ソーシャルリーディング”サイト「ブクペ」が静かな人気を呼んでいる。まとめの数は、2月1日現在で約2500件。月間20万人のユニークユーザーが、日々増えるまとめを読みにサイトを訪れているという。 まとめられているの種類は実用書から漫画までさまざまだ。特にビジネス書の人気が高く、中には10万PV以上読まれているまとめもある。ユーザーは気に入ったまとめをソーシャルメディア上で共有でき、人気のまとめには1000以上のツイートや5000以上のはてなブックマークが付いている。 「だって絶対便利じゃないですか」――こう話すのは、運営元であるブクペの社長、鳥羽悠史さん(28)。鳥羽さんは転職活動中に「要点を抜き出しながらを読む」という読書法に出合い、「自分以外の人のまとめも読んでみたい」「いろいろなのまとめをネット上で読めたら絶対

    「絶対便利じゃないですか」――本の内容まとめて公開「ブクペ」の狙いと“著作権”
  • デブサミ2012、講演スライド資料まとめ

    翔泳社主催のソフトウェア開発者向けカンファレンス「Developers Summit 2012」(以下、デブサミ2012)が先週末に2日間かけて開催されました。ご参加いただいた皆様、ありがとうございました。現在Web上で一般公開されている講演スライドの入手先をまとめましたので、ぜひご参考ください。 2月16日(木):A会場 【16-A-1】見る前に翔べ ~ギークの工夫で社会を変えよう~ 【16-A-2】大規模ソーシャルゲーム「ドラゴンコレクション」 ~ そのシステム運用の最前線を語る! 【16-A-3】デブサミをきっかけに転職したエンジニアの歩き方 【16-A-4】Effective Smartphone UX at GREE 【16-A-5】node.jsテクノロジースタック for ソーシャルアプリケーション 【16-A-6】いまどきのi18nのはなし 【16-A-7】あの人の自分戦略

    デブサミ2012、講演スライド資料まとめ
  • あるディレクトリ以下の全てのbinディレクトリにPATHを通したい時 - 元RX-7乗りの適当な日々

    Linuxの開発/検証環境とかで色々とプロダクトをインストールした時って、毎度環境変数のPATHを設定するの面倒くさいですよね。 そんな時は、片っ端からbinとかsbinディレクトリにパスを通しちゃいます(^^;) $ export PATH=$PATH:`find /usr/local -type d -name '*bin' | paste -s -d : -` findで引いてきたものをpasteする時に、"-d"オプションで区切り文字に":"を使っておけば良いわけですね。 ちょっとしたTIPSでした。 =͟͟͞͞(๑•̀=͟͟͞͞(๑•̀д•́=͟͟͞͞(๑•̀д•́๑)=͟͟͞͞(๑•̀д•́

    あるディレクトリ以下の全てのbinディレクトリにPATHを通したい時 - 元RX-7乗りの適当な日々
    fubar_foo
    fubar_foo 2012/02/26
    想像以上に力技だった。
  • volatileで最適化を抑制する - 職業としてのプログラミング

    C言語やC++,Javaにはvolatileという修飾子があります。組み込み系ソフトウェアやマルチスレッドのアプリケーションを書いている方にとっては、なじみ深い存在ですが、そうでない方にはあまり縁がないのかもしれません。しかし、volatileの使い方や存在意義を知らないままコーディングを行うと、思わぬバグを引き起こす場合があります。今回は、そのvolatileキーワードについて簡単に説明したいと思います。 volatileは初期のCであるK&Rには含まれていませんでしたが、ANSI C(C89)以降のC標準規格にはconstと一緒に含まれるようになりました(constとvolatileをあわせてcv修飾子と呼ぶこともあります)。一般的なCなら必ず備えている修飾子です。 volatile修飾子の意味ですが、「プログラミング言語C ANSI規格準拠」によると、 volatileの目的は,黙っ

    fubar_foo
    fubar_foo 2012/02/26
    volatileでコンパイラが勝手に最適化してしまうことを防ぐ for マルチスレッドコード
  • MapReduceのパターン、アルゴリズム、そしてユースケース - きしだのHatena

    Ilya Katsov氏による「MapReduce Patterns, Algorithms, and Use Cases」の翻訳 http://highlyscalable.wordpress.com/2012/02/01/mapreduce-patterns/ (下書きに入れて推敲するつもりが、なんか公開されてしまっていたので、あとでいろいろ修正すると思います) February 1, 2012 この記事では、Webや科学論文で見られる異なるテクニックの体系的な視点を与えるために、数々のMapReduceパターンとアルゴリズムをまとめた。 いくつかの実用的なケーススタディも提供している。 すべての説明とコードスニペットでは、Mapper、Reducer、Combiner、Partitionaer、ソーティングにおいてHadoopの標準的なMapReduceモデルを利用します。このフレー

    MapReduceのパターン、アルゴリズム、そしてユースケース - きしだのHatena
  • Tree Edit Distanceと自然言語処理への応用 - Preferred Networks Tech Blog

    海野です。ちょっと時間があいてしまいましたが、昨年の12月に開催されたNTCIR-9という会議のRecognizing Inference in TExt (RITE)というタスクに、前職の方々と共著で出場しました。 Syntactic Difference Based Approach for NTCIR-9 RITE Task. Yuta Tsuboi, Hiroshi Kanayama, Masaki Ohno and Yuya Unno. NTCIR-9, 2011. [pdf] 含意関係認識といわれるこのタスクは、大雑把に言うと与えられた2つの文が同じ意味のことを言っているかどうか判定しなさいというタスクです(厳密には一方からもう一方が帰結できるかの判定です)。今日は、その中で使ったTree Edit Distance (TED) について解説します。 TEDは2つの順序付き木が

    Tree Edit Distanceと自然言語処理への応用 - Preferred Networks Tech Blog