タグ

ブックマーク / blog.broomie.net (8)

  • BLOG::broomie.net: 言語処理のための機械学習入門

    東工大の奥村先生監修、高村先生著の「言語処理のための機械学習入門」が発売されました。これは読まなければ!と思い、さっそく手に入れました。書の感想は当にシンプルな一言に尽きます。 「大学時代にこのがほしかった。。。」 書の目次の中見出しまでを以下に引用させていただきます。 言語処理のための機械学習入門 (自然言語処理シリーズ 1) 高村 大也 1. 必要な数学的知識 1.1 準備と書における約束事 1.2 最適化問題 1.3 確立 1.4 連続確率変数 1.5 パラメータ推定法 1.6 情報理論 1.7 この章のまとめ 2. 文書および単語の数学的表現 2.1 タイプ、トークン 2.2 nグラム 2.3 文書、文のベクトル 2.4 文書に対する前処理とデータスパースネス問題 2.5 単語ベクトル表現 2.6 文書や単語の確率分布による表現 2.7 この章のまとめ 3. クラスタリン

  • BLOG::broomie.net: Alorithms of the Intelligent Web

    Algorithms of the Intelligent Webという情報検索のがございまして、ずっと読みたいなあと思っていたら、の内容のサンプルがありました。 http://www.manning.com/marmanis/SampleChapter2.pdf これが、実はサンプルってレベルではなくて2章と3章がまるごとPDFで公開されているんですね。それで軽く読んでみたんですが、すごいわかりやすくて、普通に読み物としておもしろかったのでメモっておきます。 上記のリンクは2章で「searching」という題で、つまり検索エンジンの話がまとめてあります。 さらっと全部読んだんですけど、大雑把に感想を述べるとかなり基礎的な内容ですが、当にわかりやすく解説してあるので、例えば、あまりこの分野に詳しくない人に説明する時や、自分でさらっと検索エンジンの要素を整理したい時とかには超便利だと思

  • BLOG::broomie.net: Introduction to Machine Learning

    こんにちわ、shunyaです。 身内の不幸などでどたばたしてしまい、ブログの更新ができていないのです。ということで、今日もどたばたなので小ネタで軽く更新しておきます。 情報検索の教科書で有名なIntroduction to Information Retrieval(略してIIR)は、 Introduction to Information Retrieval 情報検索の基礎から、有名な機械学習のアルゴリズムまで幅広く解説されてあり、いろいろ忘れるたびにお世話になっています。どうお世話になっているかというと、これは結構有名な話なのですが、上記のが実はPDFで公開されているんですね。すてき。 http://www-csli.stanford.edu/~hinrich/information-retrieval-book.html これは、当によく使う手法がわかりやすく書かれているのでおす

  • BLOG::broomie.net: Thriftが便利すぎる

    ちょっと前に「thriftって便利らしいよー」って話を聞いていたのだけれども、なかなか手をつけられずにいたらはてなブックーマークで使われているらしいという噂を聞いたり、Thriftを使って俺俺Key-Value Storeを作ったのように、TXを使ったThriftの紹介などが出てきたりしたのでそろそろ自分でも試したいなあと思い、試しました。で、先に結論を言っておくとThrift、とても気に入りました。とても簡単に処理用の専用サーバをたてることができて、かつ簡単にクライアントから処理要求が送れます。ボクは今まではRESTFulな感じでhttpでこのタスクをやっていたのですが、RESTFulな専用サーバをたてるのは結構開発コストがかかるんですよね。その点で、Thriftは開発コストはとても落ちると思うのでとても気に入っています。なんといって言語バインディングを自動で生成してくれるのは当に開発

    basi
    basi 2010/08/16
  • BLOG::broomie.net: Thriftのスピードが改善しました

    先週末はThriftのスピード問題にはまり、ガンダム戦記にはまり、ほとんど外に出られませんでした。前回のエントリー(Thriftのスピードについて)の続きとなります。 やっぱりperlのクライアントライブラリに問題がありそう? 多くの有識者の方にアドバイスをいただき感無量でございます。前回のエントリーでは、perlライブラリ、pythonライブラリでThriftが異常なほどに遅いんじゃないか?といった内容でございました。当方のバグではないかと、おそるおそる前回のエントリーをポストしたのですが、tokuhiromさんがこの現象に関して調査と考察の結果を示してくれました(ThriftのPerl Clientが遅すぎる件について)。 クライアントが Pure Perl で書かれており、かつ実装に適当さが感じられ、「速そうには、みえないな。。。」と感じました。 Facebook 内で実際に使用され

    basi
    basi 2010/08/16
  • BLOG::broomie.net: 機械学習の勉強を始めるには

    thriftとかhadoopなど,何やらいろいろと手を出してしまい,ここのところブログの更新が滞ってしまっていますが,今日は前から書きたかったトピックについて自分へのメモの意味も含めて記しておきたいと思います. はじめに 最近,といっても結構前からなのですが,海外のブログなどで「機械学習の勉強を始めるガイドライン」についてのエントリーがいくつか見られ,かつ,議論も少し盛り上がっています.僕は機械学習が好きなだけで,専門というにはほど遠いのですが,僕も一利用者としてはこのトピックに関してはとても興味があります. 機械学習というと,色々な数学的な知識が必要であったり,統計学や人工知能の知識も必要になったりしまったりと,専門的に学ぶ機会が無かった人にとっては興味が湧いてもなかなか始めるには尻込みしてしまうことかと思います.今日紹介するエントリーは,そんな方々にヒントになるような内容になっていると

  • BLOG::broomie.net: 各種分類器の分類精度を示した絵がおもしろい

    今日会社で多次元のデータを2次元にクールでベストプラクティスな感じでプロットするにはどうしたらいいんだろうね、やっぱ多次元尺度構成法じゃない?的な会話をしていたのだけれども、2次元にデータを落とし込むと人間にもわかるデータになって当におもしろいですよね。今日はその一例というか、いくつかの分類器の分類精度を2次元にプロットした結果を示した実験結果を解説したページを紹介します。おおーこうゆうのみたかったんだよなー!と個人的にはかなりエキサイティングな感じでした。 要約というか意訳になってしまうのですが、ページに以下のように説明されています。(細かいところは訳してません) http://home.comcast.net/~tom.fawcett/public_html/ML-gallery/pages/index.html 分類タスクの機械学習の研究では定量的な評価が重要です(精度とかACUと

  • BLOG::broomie.net: 多重化してThriftを使ってみた

    ここまでの流れ Thriftの調査の続きです。前回のエントリー(Thriftのスピードが改善しました)では、Thriftのperlクライアントが遅いのはNagleアルゴリズムが原因ではないかという仮説をたて、そしてNagleアルゴリズムをオフにした状態で速度が向上したことを書きました。 それに対し、tokuhiromさんにより投稿されたエントリー(ThriftはThrift::BufferedTransport をつかいわすれると 147 倍遅くなってつかいものにならない)では、send(2)のバッファリングをしていないことが原因で、Thriftが吐き出すデフォルトのperlクライアントのスケルトンでは使われていない、 Thrift::BufferedTransport を使うことによってsend(2)がバッファリングされて、高速になることを示してくれました。加えてkazuhookuさんの

  • 1