タグ

ブックマーク / shuyo.hatenablog.com (31)

  • CICLing 2011 行ってきました - 木曜不足

    早稲田大で行われていた CICLing 2011 (International Conference on Intelligent Text Processing and Computational Linguistics) の最終日にのこのこ行ってきました。 FSNLP の 10章をちょうど読み終わったばかりという初心者が、自然言語処理の国際会議を聴きに行っちゃう無謀っぷり。 ちょうど1年くらい前、まだ PRML の 10章を読んでた頃に SIG-DMSM #12 (IBISML の前身?)に のこのこ行って、「わかるところはなんとかギリギリ。わからんところは言葉からしてさっぱりわからん……」と知恵熱でそうなほどぐるぐるしてたりしてたわけだが、ちょうどおんなじ感じ。 国際会議なんだから、感想も英語。 CICLing 2011 retrospective | Shuyo's Weblog

    CICLing 2011 行ってきました - 木曜不足
  • 自然言語処理(機械学習) vs エンジニア - 木曜不足

    1/28 に行われた第200回 NL研(情報処理学会の自然言語処理研究会)でのパネル討論会を @mamoruk さんが twitter で中継してくださってて、これが当にとてもおもしろかった。Togetter でのまとめがこちら。 NL研 #signl200 まとめ(その2) - Togetter 単語のいくつかは残念ながらわからないが(笑)、「自然言語処理も機械学習も、どちらのアカデミックの世界にも身を置いたことのない門外漢のエンジニア」という立場で普段考えていることといろいろオーバーラップしている部分、齟齬を起こしている部分があって、思い出してはこれを読み返している。 まだあれこれ思い悩んでいる部分でもあるので、多分まとまらないし、明日にはまた違うことを考えてるかもなんだけど、ちょっと書き散らかしてみよう。 @mamoruk: 中川先生「自然言語処理分野外の人は自然言語処理のことを知

    自然言語処理(機械学習) vs エンジニア - 木曜不足
    sassano
    sassano 2011/02/02
  • 日経ソフトウエア3月号に機械学習の記事を書かせていただきました - 木曜不足

    日 1/24 発売の日経ソフトウエア3月号の特集「クラウド&スマホ時代の3大コア技術」の機械学習の記事を書かせていただきました。 日経ソフトウエア 2011年 03月号 [雑誌] 作者: 日経ソフトウエア出版社/メーカー: 日経BP社発売日: 2011/01/24メディア: 雑誌購入: 10人 クリック: 82回この商品を含むブログ (5件) を見る 少し背景的なことを。 この記事は以下のような内容をエンジニア1年生や高校生にもわかる読み物として書かせてもらいました。 3番目は紙数などの関係からちょっと薄まってしまいましたが(笑)。 機械学習とは何か どうして機械学習はそうなっているのか 機械学習は魔法の技術じゃあないよ 当初は Python のサンプルコードとか書いていたんですが、機械学習について伝えたいのに MeCab のインストールから始めなきゃあいけないとか、それって質的じゃあ

    日経ソフトウエア3月号に機械学習の記事を書かせていただきました - 木曜不足
    sassano
    sassano 2011/01/24
  • 統計的機械学習セミナー (2) 教師無し&半教師分かち書き - 木曜不足

    昨日の続き。 持橋さんの教師なし&半教師分かち書きについて、わかる範囲で説明してみる。 「分かち書き」とは文章を単語に区切ること。日語や中国語など単語の区切りに空白を入れない言語では、これがないとほとんど何にもできない。MeCab 様々、と常日頃感謝しまくっている人も多いだろう。 その MeCab は膨大な辞書と大量の正解データを使って作られた「教師ありの分かち書き」。教師あり学習のモデルである CRF(Conditional Random Fields) を用いている。 教師ありのため、辞書に載ってない言葉や、正解データに現れていない区切り方は苦手。それらが用意されていない言語や方言(話し言葉含む)は、満足に分かち書きできない。 そこで「教師なし分かち書き」ができたらいいな、という話になる。これは大量の文章さえ与えたら、そこから単語の区切り方を自動的に判断できるようになる、という夢のよ

    統計的機械学習セミナー (2) 教師無し&半教師分かち書き - 木曜不足
    sassano
    sassano 2011/01/21
  • 統計的機械学習セミナー (1) sequence memoizer - 木曜不足

    統計数理研究所にて行われた第2回統計的機械学習セミナーにのこのこ参加してきました。 http://groups.google.com/group/ibisml/browse_thread/thread/092f5fb3d45a91ea/8cae858cb8bfc00c 今回はノンパラメトリックベイズ特集ということでか、Yee Whye Teh さんが sequence memoizer を、持橋さんが教師無し&半教師分かち書きを話されたので、まずは sequence memoizer について自分のわかる範囲で書いてみよう。 まず、Pitman-Yor 過程については既知とする。ご存じない方は、「独断と偏見によるノンパラ入門」を読めばだいたいわか……んないか(苦笑)。 ええと、とりあえず今回必要な範囲で説明すると、G という単語の分布(ただし台は無限。つまり「独断と偏見〜」でいう「その他」

    統計的機械学習セミナー (1) sequence memoizer - 木曜不足
    sassano
    sassano 2011/01/20
  • 有名どころな機械学習手法の年表 - 木曜不足

    ちょっと機械学習の比較的有名なモデルやアルゴリズムの初出について年表を作ってみた。 って今週末用の資料なんだけどねw 1805 Method of Least Squares 1901 PCA (Principal Component Analysis) 1905 Random Walk -1925 Logistic Regression 1936 Fisher's Linear Discriminant Analysis 1946 Monte Carlo Method 1948 n-gram model 1950 RKHS (Reproducing Kernel Hilbert Space) 1950s Markov Decision Process -1957 Perceptron 1958 Kalman Filter 1960s Hidden Markov Model -1961 N

    有名どころな機械学習手法の年表 - 木曜不足
    sassano
    sassano 2011/01/11
  • 独断と偏見によるノンパラ入門 - 木曜不足

    「ノンパラメトリック」って言うくらいだからパラメータ無いんかと思ってたら、パラメータめっちゃあるし。 機械学習のネーミングのひどさはこれに始まった話じゃあないけど、それにしたって。 ノンパラの一番素朴なやつ( K-means とか)は当にパラメータ無くてデータだけだから納得なんだけど、だんだん欲が出てパラメータ足しちゃったり派生させちゃったりしてるうちに、よくわかんなくなってきちゃったんだろうかねえ。まったく。 どれどれ、と英語Wikipedia の "Non-parametric statistics" を見たら、なんか意味が4種類くらい書いてあるし。じゃあ名前分けろよ。 en.wikipedia.org とりあえずここで言う「ノンパラ」とは、変数の個数決めなくていい「分布の分布」なメタっぽいやつのこと。つまりディリクレ過程とか、ディリクレ過程とか、そこらへん。 「あー、ノンパラベ

    独断と偏見によるノンパラ入門 - 木曜不足
    sassano
    sassano 2011/01/06
  • IBIS2010 に行ってきたよ(1日目) #ibis10 - 木曜不足

    東大 生産技術研究所(駒場第2キャンパス)にて、第13回情報論的学習理論ワークショップ (IBIS 2010) があったので、のこのこ参加。 え? もちろん業務ですとも。 というわけで、とても簡単ながらまとめ。敬称略。 発表 反実仮想モデルを用いた統計的因果推論について(星野) 構造方程式モデルによるデータ生成過程の学習, 特に非ガウス性の利用(清水) 2つの潜在的結果変数を想定するのが「反実仮想モデル」。できるだけ仮定を減らす&余った情報は頑健性に活かす。 データ生成過程をシンプルにモデル化するのが「構造方程式モデル」。シンプルな分、仮定は強め(DAG とか線形とか)。 因果推論&非ガウスは第1回 IBISML でも少し聞いておもしろそうだなあと思いつつ、手が出てない分野。 同じ「因果推論」という言葉でも、スタンスの違いがモデルの違いに大きく現れるのとか、線形&3変数なんてさすがになんと

    IBIS2010 に行ってきたよ(1日目) #ibis10 - 木曜不足
  • 自然言語処理勉強会で「ナイーブベイズによる言語判定」を発表してきました - 木曜不足

    第2回自然言語処理勉強会@東京 にのこのこ行ってきました。 ありがとうございました&お疲れ様でした>各位。 今回も全然専門じゃあないのに「ナイーブベイズで言語判定」というタイトルで発表してきた。 ナイーブベイズによる言語判定 from Shuyo Nakatani 内容は、仕事で作った(←ここ重要)言語判定ライブラリの紹介。 前回の「文抽出 using CRF」は検証プロトタイプであったわけだが、今回はオープンソースとして公開&最終的に製品に組み込むことを目標とした代物なので、「なんか良さげな感じ〜」だと駄目。目指すのは 50言語、99.うん%。 精度を上げるためにやれることならなんでもやる、というのがミッションなので、限りなく泥臭いことの積み重ねになる。 というわけでここ2ヶ月の積み重ねを資料にしてみたら、なんか膨大になってきて、また今回もしゃべりすぎてしまった(汗 楽しんでいただけた

    自然言語処理勉強会で「ナイーブベイズによる言語判定」を発表してきました - 木曜不足
    sassano
    sassano 2010/09/26
  • 自然言語処理勉強会@東京 第1回 の資料 - 木曜不足

    日の tokyotextmining こと 自然言語処理勉強会@東京 第1回 で話す「Webページの文抽出 using CRF」の資料(自己紹介は除く)です。 以前、Ruby で作った文抽出モジュール を機械学習技術を使って作り直してみたら、というお話。 CRF は Conditional Random Fields の略。 Web文抽出 using crf from Shuyo Nakatani 実装はこのあたり。 http://github.com/shuyo/iir/blob/master/sequence/crf.py http://github.com/shuyo/iir/blob/master/sequence/pg.py http://github.com/shuyo/iir/blob/master/extractcontent/webextract.py 【追記】

    自然言語処理勉強会@東京 第1回 の資料 - 木曜不足
    sassano
    sassano 2010/07/04
  • readability を計算する - 木曜不足

    英文の readability(読みやすさ) の指標として、日だと SSS さんの YL*1 が多読やってる人たち(タドキストと言うらしい)の間で一般的だが、英語圏では Fog とか Flesch-Kincaid とかいうのが主流。 ベタだけど、Wikipedia の readability の記事 を一応貼っとく。 で、Amazon.com では、全てのが対象ではないのだが、それら Readability のうち Fog と Flesch と Flesch-Kincaid を表示してくれる(例えばこんな感じ )。他にも単語数とか、単語あたりの音節数とか(多いと読むのがより難しい)、1ドルあたりの単語数とか(笑)いった情報が見られる。 ちなみに、の製品情報の Inside This Book にある "Text Stats" をクリックすればこれらの情報が載ったページが表示される

    readability を計算する - 木曜不足
    sassano
    sassano 2008/04/07