タグ

ブックマーク / abicky.net (5)

  • 十分統計量 (Sufficient Statistics) って何なのさ?

    「十分統計量」、よく聞くけどいまいちよくわからない用語ですよね。 Wikipedia によれば、次のような場合、その統計量は十分統計量らしいです。(定義ではなくざっくりとした意味です) no other statistic that can be calculated from the same sample provides any additional information as to the value of the parameter パラメトリックな分布において、得られたサンプルからパラメータの値を推定する際に最も役立つ統計量といったところでしょうか。 (「そんなの知ってるよ!」って人にとって以下は価値のない内容です) 十分統計量について調べたことのある人なら日語版の Wikipedia の説明を読んだことがあると思いますが、僕の理解力だと学生の頃読んでも今読んでも意味不明で

    十分統計量 (Sufficient Statistics) って何なのさ?
  • Latent Dirichlet Allocation (LDA) ゆるふわ入門

    NLP 2013 の時期ですね。たぶんギリギリ NLPer の端くれの端くれの身としては参加したい気持ちも山々なのですが、いろいろあって今年は参加しないことにしました。 NLP 2014 は参加しようと思うので来年はかまってやってください。 ときに、私が NLP を勉強し始めた頃はかな漢字変換や音声認識で文脈を考慮して推定したいなぁみたいなことを考えていたので言語モデル、中でもトピックモデルに興味を持っていました。 っで、トピックモデルと言ったら Latent Dirichlet Allocation (LDA) じゃないですか?Blei 先生の論文読むじゃないですか?意味不明じゃないですか!? そもそもディリクレ分布って何?な人だったので・・・。ディリクレ分布まとめ - あらびき日記 とかその時の痕跡ですね。 PRML の上巻を読んでちょっとベイズな考え方に慣れて LDA も理解できてき

    Latent Dirichlet Allocation (LDA) ゆるふわ入門
  • Rails Developers Meetup 2018 で「MySQL/InnoDB の裏側」を発表しました

    Rails Developers Meetup 2018: Day 1 で「MySQL/InnoDB の裏側」と題して SELECT クエリの実行フローや InnoDB のインデックス周りの発表しました。MySQL with InnoDB のインデックスの基礎知識とありがちな間違い + α の内容です。 Nested Loop Join のスライドは無理やり差し込んだ感が溢れてますがご了承ください>< 追記: 動画も公開されたので貼り付けておきます。1 key_len について発表で全然触れなかったんですが、重要な内容なので次のエントリーにまとめました。 MySQL で複合インデックスを作成する際には必ず key_len を確認すべきという話 補足 サンプルデータ MySQL のサンプルデータとしては world や employee が有名だと思うんですが、前々から world は物足り

    Rails Developers Meetup 2018 で「MySQL/InnoDB の裏側」を発表しました
  • 正規表現の先読み・後読みを極める!

    柔軟性の高い正規表現を書こうとすると、避けて通れないのが先読み・後読みです。 先読み・後読みに関して、いままではとりあえず的な理解をしていたのですが、それだと説明できない正規表現に遭遇したので、説明できるまで理解を深めてみました。 とりあえず的な理解 正規表現を使って間もない人が先読み・後読みを理解するための説明です。 肯定的先読み (?=pattern) 次の正規表現では直後に def がある abc(def は含まない)に一致します。

    正規表現の先読み・後読みを極める!
  • ディリクレ分布まとめ - あらびき日記

    ディリクレ分布についていまいちイメージがつかなかったのでまとめてみました. 後半では正規化項,期待値,分散の算出過程を示しています.物好きな人は御覧ください. どんな分布? あるn個の事象についてi番目の事象が \(\alpha_i-1\) 回発生した場合に,その事象の生起確率が \(x_i\) である確率の分布です. つまり,i番目の事象が \(\alpha_i-1\) 回発生したということで,各事象について生起確率を \(x_i\) (i=1,2,…,n) と定めると,それがどれだけ正しそうかの確率を返します. ベータ分布について理解している人はベータ分布を多変量に拡張したものと考えるとわかりやすいです. ディリクレ分布は以下の式で表されます. \[p(\bm{x};\bm{\alpha})=\frac{1}{Z}\prod_{i=1}^n x_i^{\alpha_i-1}\hspac

    ディリクレ分布まとめ - あらびき日記
  • 1