タグ

algorithmとnlpに関するhiromarkのブックマーク (13)

  • TokyoNLP#5で「パーセプトロンで楽しい仲間がぽぽぽぽ〜ん」を発表しました - シリコンの谷のゾンビ

    TokyoNLP#5に参加して「パーセプトロンで楽しい仲間がぽぽぽぽ〜ん」というタイトルで発表しました.発表資料 (検閲後) をuploadしました. なお,2種類のAveraged Perceptronというものがあるというような発表をしてしまいましたが,実は両方とも実質同じアルゴリズムでした.片方はVoted Perceptronの近似 [Carvalho+ 06] という文脈.もう一方は構造学習を行うStructured Perceptron [Collins 02]の文脈で提案されています.その部分を修正しました.@uchumikさんのコメントで気が付きました.どうもありがとうございます. TokyoNLP#5 パーセプトロンで楽しい仲間がぽぽぽぽ〜ん View more presentations from sleepy_yoshi 音声付きで用意したネタ.どうやら徹夜明けの妙な

    TokyoNLP#5で「パーセプトロンで楽しい仲間がぽぽぽぽ〜ん」を発表しました - シリコンの谷のゾンビ
  • 単純グッド・チューリング推定法 (Simple Good-Turing Estimation) とは何ぞや? - あらびき日記

    この記事は abicky.net の 単純グッド・チューリング推定法 (Simple Good-Turing Estimation) とは何ぞや? に移行しました

    単純グッド・チューリング推定法 (Simple Good-Turing Estimation) とは何ぞや? - あらびき日記
  • 機械学習超入門 〜そろそろナイーブベイズについてひとこと言っておくか〜 - EchizenBlog-Zwei

    最近では機械学習の認知度も上がってきていて専門家でなくてもナイーブベイズやSVMなどの名前を知っている人も増えてきたように思う。 そんなわけでちょっと機械学習をはじめてみようかな、と思っている人も多いのではないだろうか。とはいえ「数式よくわからない」「確率嫌い」といった理由で尻込みしているケースも多いのでは。 そこで予備知識ゼロでもわかるような機械学習の入門記事を書いてみたよ。 機械学習を「作りたい」のか「使いたいのか」 まず最初に確認したいのがこれ。使いたいだけならまずはSVMを使ってみれば良い。世の中にはlibsvmやsvmlightという良いツールがあるのでそれを使おう。以下の記事は機械学習を「作りたい」「仕組みを知りたい」人向けの内容になっている。 「最も簡単な機械学習はナイーブベイズ」という幻想 機械学習といえばナイーブベイズという話がよくある。ナイーブ(単純)という名前からいか

    機械学習超入門 〜そろそろナイーブベイズについてひとこと言っておくか〜 - EchizenBlog-Zwei
    hiromark
    hiromark 2011/01/15
    僕は機械学習は専門家ではないけれどこれは良エントリだと思った。
  • 「第3回自然言語処理勉強会@東京」でCSAについて発表します - EchizenBlog-Zwei

    @nokunoさんの好意で「第3回自然言語処理勉強会@東京」でCompressed Suffix Arrayについて発表させていただくことになりました。 つきましては参考のため発表資料を以下に置いておきます。参加される方はもちろん、興味のある方はご覧になっていただけるとうれしいです。 第3回自然言語処理勉強会@東京 : ATND 第3回自然言語処理勉強会@東京を開催します - nokunoの日記 なお資料は以下の皆様のアドバイスを頂きました。ありがとうございました(とくに@overlastさんには4-5時間もお付き合い頂きました。おかげさまでスライドの質が大幅アップしました。感謝)。 @overlastさん @tamago_donburiさん @tsubosakaさん @machyさん

    「第3回自然言語処理勉強会@東京」でCSAについて発表します - EchizenBlog-Zwei
    hiromark
    hiromark 2010/11/10
    この話をここまできれいにまとめるとはすばらしい。
  • Micterの単語分割部の高速化を試してみた結果 - sileのブログ

    tkngさんが作成したMicterという単語分割器の分割部を高速化できるような気がしたので試してみた。 そのメモ。 試した結果のソース一式はmimicという名前でgithubに保存しておくことにする*1。 結果 まず、結果から*2。 # 分割対象のテキスト(のサイズ) $ ls -lh /tmp/test.data -rw-r--r-- 1 user user 41M 2010-07-05 22:48 /tmp/test.data # MeCab $ time mecab -Owakati /tmp/test.data > /dev/null real 0m10.843s # 10秒 user 0m10.777s sys 0m0.068s # Micter $ ls -lh micter.model -rw-r--r-- 1 user user 1.8M 2010-07-06 08:30

    Micterの単語分割部の高速化を試してみた結果 - sileのブログ
  • HMM, MEMM, CRF まとめ - あらびき日記

    この記事は abicky.net の HMM, MEMM, CRF まとめ に移行しました

    HMM, MEMM, CRF まとめ - あらびき日記
    hiromark
    hiromark 2010/06/21
    あとでよむ。
  • グラフラプラシアンで推薦

    以前縁あって小町さんと一緒に仕事をさせてもらい論文に名前を載せてもらったのですが、会社だけでなく自宅でもちょっと使いたいなーということもあり、実装してみることにしました。 参考にしたのは以下の論文です。 ラプラシアンラベル伝播による検索クリックスルーログからの意味カテゴリ獲得 元論文と違うのは、インスタンス-パターン行列の要素を単純な頻度から別の尺度に変えている点です。 元々そのまんま実装してみたところ、非常にレアな場合なのですが、ジェネリックパターン1つのみと共起するようなインスタンスがあった場合に、これが上位に出やすくなるという問題が発生し、どうにかできないかなと模索していたところ、小町さんからアドバイスを頂き、それを基に手を加えています。 とりあえず動作検証のためにMovieLens Data Setsを使って実験してみました。 最初にデータのフォーマットをツールの入力形式へ変更。

  • DO++ : 線形識別器チュートリアル

    ワークショップ中の夕で話したのですが、今のところ日で(素性関数ベース&線形識別器)機械学習のいろいろな手法をまとめて体系的に教えてる資料などがあまりないなぁという話をしていました。 で、探すと、このあたりの大部分をまとめて説明しているいいチュートリアル(英語)がありました。 夏の学校資料[pdf] その他のコードやリンク ちょっとだけ解説 現在自然言語処理の多くで使われている学習器は線形識別器です。 入力x(例:単語、文、文書)から出力y(例:品詞、品詞列、文書のトピック)を予測したいという場合は、(x,y)のペアからいろいろな値を取り出し(x,yのペアから値を取り出す関数を素性関数と呼ぶ)、その値を並べたベクトルを素性ベクトルと呼び、f(x,y)とかきます。そして、その素性ベクトルf(x,y)と同じ次元数を持つ重みベクトルwとの内積を測って、その値が正か負か、または大きいか小さいかを

    DO++ : 線形識別器チュートリアル
  • 超高速テキスト処理のためのアルゴリズムとデータ構造 (PDF)

    超高速テキスト処理のための ゕルゴリズムとデータ構造 東京大学情報理工学系研究科* 岡野原 大輔 hillbig@is.s.u-tokyo.ac.jp NLP2010 チュートリゕル 2010 3/8@東京大学郷キャンパス * 2010年4月から所属が (株)プリフゔード゗ンフラストラクチャーになります。 内容 • 背景 – 自然言語処理と機械学習 • オンラ゗ン学習 – 教師有/無, 正則化 • 疎ベクトル々文字列データ構造 – 特徴情報の格納、全部分文字列情報 • 乱択化ゕルゴリズム – Hash Kernel, Randomized SVD 背景 大規模自然言語処理と機械学習 背景 • 利用可能な言語資源の急激な拡大 – ブログ, 掲示板, 商品情報, レビュー – Wikipedia, Google N-gram Corpus ~1010 語 – c.f. Penn TreeB

  • 構文解析と情報科学

    そろそろ論文紹介記事を書いてみます. NLP2010のプログラムにもあるとおり,しばらく係り受け構文解析周りをやっていました(います).私の出身研究室では構文解析をやっている人がたくさんいたのですが,最近その面白さがなんとなくわかってきました.いや,一応私も2年間日語係り受け解析の演習担当やってたよ! 構文解析のおもしろさというのは,言語学機械学習,プログラミング,情報科学が非常にバランスよくミックスされた問題で,いろんな定式化の仕方や,いろんな技術が,いろいろな組み合わせで,かつわりとキレイな形で程々の難しさに仕上がっているあたりにあると思います.今日は,特に情報科学的教養が大事でしたという話を3つ. Non-Projective Dependency Parsing using Spanning Tree Algorithms Ryan McDonald, Fernando Per

  • 系列ラベリングアルゴリズムの比較 - 松本研研究日誌

    今日の DMLA 勉強会は松先生で Nam Nguyen and Yunsong GuoComparisons of Sequence Labeling Algorithms and ExtensionsICML-2007の紹介。SVM^struct/SVM^multiclass/CRF/HMM/Averaged perceptron/SEARN/M^3Nといったいろいろなアルゴリズムで品詞タグづけ問題を解くという話。提案手法はensemble learningで複数の手法の重み付けによる分類器を作ると、単体で一番成績がよかったSVM^structよりさらによくなりますよ、とのこと。なんか CRF が予想外に悪かった(松先生も首を傾げていた)のだが、なんなんだろうか。 SEARN (Search-based Structured Prediction)というのは元論文は Search

    hiromark
    hiromark 2009/11/02
    系列ラベリングって昔ちょろっと勉強したけどあんまりきちんと覚えてない。復習がてら調べてみる。
  • 第11回 Kansai.pm / スペルミス修正プログラムを作ろう - naoyaのはてなダイアリー

    昨日は第11回 Kansai.pm でした。 今回は無理を言って自分がホストを担当させていただきましたが、面白い発表が多く開催した自分も非常に満足でした。 PFI の吉田さんによる Cell Challenge での計算機に合わせたアルゴリズムのチューニング手法の発表 (発表資料) は圧巻でした。伊奈さんの文抽出の話 (発表資料)、はこべさんのコルーチンの話 (発表資料)、いずれも難解になりがちなところを凄く分かりやすく解説されていて、さすがだなと思いました。各々ショートトークも、いずれも良かったです。 スペルミス修正プログラムを作ろう 自分も 20 分ほど時間をいただいて、スペルミス修正プログラムの作り方について発表しました。 スペルミス修正プログラムを作ろうView more presentations from Naoya Ito. スペルミス修正プログラムについてはずばり スペル

    第11回 Kansai.pm / スペルミス修正プログラムを作ろう - naoyaのはてなダイアリー
    hiromark
    hiromark 2009/03/24
    相変わらず分かりやすいなあ。全体のまとめも嬉しい。
  • http://chasen.org/~daiti-m/paper/naist-dlec2004-lmodel.pdf

    hiromark
    hiromark 2008/09/08
    まとまっていて勉強しやすそう。
  • 1