タグ

ブックマーク / sleepy-yoshi.hatenablog.com (26)

  • ピダハン--「言語本能」を超える文化世界観 - シリコンの谷のゾンビ

    ピダハン―― 「言語能」を超える文化と世界観 作者: ダニエル・L・エヴェレット,屋代通子出版社/メーカー: みすず書房発売日: 2012/03/23メディア: 単行購入: 14人 クリック: 505回この商品を含むブログ (56件) を見る (2013-04-30読了) GWの休みを一日使って長い間積ん読だった課題図書 (笑) を読むことができた. 書を知るきっかけになった発端は職場の先輩にチョムスキー派を慌てさせるようなピダハン論争があるんだけれど知っているかと聞かれた.ピダハン論争についてはWikipediaが詳しい.以前のブログ記事でも記述したように自分は学生の頃にコネクショニストのまねごとのようなことをしていたことから,言語学に関する話題は興味がある.そんなわけで書を読むことにした.どうやら書が日語で書かれたピダハンに関する唯一のらしい. ピダハンはアマゾン北部に暮

    ピダハン--「言語本能」を超える文化世界観 - シリコンの谷のゾンビ
  • シリコンの谷のゾンビ

    前回の5年間を振り返るから5年が経っていたことに気づき、あわてて5年間を振り返ってみることにする。 2019年 ほとんど記憶に残っていないので、写真やら色々ひっぱり出して記憶を呼び起こす。プレCOVID最後の年。 学会に2つほど参加。まず、NAACL2019 in Minneapolis。昨年のインターン生との共著ポスターを発表。東北大に移ったSさんと元同僚のNTT Nさんとディナーをべて5年間かかった論文の採択お祝い。財布を店に忘れて店員さんが持ってきてくれて思わずハグしてサンキュー。翌日ふたりと一緒に散歩しながら見たミシシッピ川がかなりの濁流でちょっとびっくりした。別の日に前年のインターン生たちと同僚とジャズレストランに行き、ジャズの生演奏を聴きながらカリフォルニアではべられないフォアグラをべる。翌年亡くなる同僚と最後の学会参加になってしまった。 続いてACL2019@Flore

    シリコンの谷のゾンビ
    yuiseki
    yuiseki 2015/05/15
  • 非復元抽出の高速かつ実装が簡単な方法を考える - シリコンの谷のゾンビ

    ※ @tomerun さんに書いてもらったコードとその検証結果を記事の最後に追記しました.(2013-07-21 2:00) ふとしたきっかけで非復元抽出 (random sampling without replacement) を実装するときに気になったのでどんな実装がよいのか考えてみた.なお非復元抽出はビンゴのように,N個の要素の中からk個の異なる要素をランダムに選択するという意味である. 復元抽出については @unnonouno さんのブログなどに書いてあり,非復元抽出についてもリンクが張ってあったのだけれど,リンク先のブログ記事が読めない状態になっていていたのが残念. unnonouno: 高速な復元抽出の直感的な説明 はじめに std::vector

    非復元抽出の高速かつ実装が簡単な方法を考える - シリコンの谷のゾンビ
    yuiseki
    yuiseki 2013/07/21
  • 18 Matrix decomposition and latent semantic indexing (pp.369-384) - シリコンの谷のゾンビ

    ちょっと飛ばして,先にIIR18章を読んでみた.単語文書行列を特異値分解して新しい空間でベクトル空間モデルを使うというLSIの話. ページ数が少なかったので,魔が差して翻訳もしてみた.さらに数式が多いのでTeXで書いてみた.ここまで来たらこだわろうとAB型の悪い癖が出て,数式や演習も全部訳してみた.ついカッとなってやってしまった.今は公開している.でも反省はしていない.まだやっつけの部分があるのでこつこつとバージョンアップしてきます. Introduction to information retrieval: 18 Matrix decomposition and latent semantic indexing(和訳) 大体1ページ1時間.こつこつ夜なべをして3日間くらいかかりました.否が応でも精読するので,とても理解が深まりました.じっくり読むのも翻訳作業もとても楽しかったので,なん

    18 Matrix decomposition and latent semantic indexing (pp.369-384) - シリコンの谷のゾンビ
  • CRFの更新式の導出 - シリコンの谷のゾンビ

    (2011-03-29追記) 訂正版を書きました.もっとシンプルに導出できます. 昨晩,Twitterで@tkngさんがCRFの更新式の導出の計算をしていたことを知る.実は僕も時を同じくして計算していた.しかし,なかなか答えが合わない.そうこうしているうちに@tkngさんはちゃんと答えが出せたことを知る.「やぁ,奇遇ですね.僕も今夜なんだかCRFの更新式を計算したくなって,ね.」なんてことをかっこよくつぶやきたかったのだけれど,その前に朝日がのぼりそうだったのであきらめて寝た. さて今朝起きてから見直してみたら,ゆとりもびっくり! の計算間違いをしていたことを知って,あわてて再計算.ちゃんと導出できたのでうれしくなってブログに書くことにした. ここまでtexソースが激しくなるとは思わず,途中でちょっと後悔したけれど,達成感でいっぱい.それにしても,はてなtex記法記述するとキレイじゃない

    CRFの更新式の導出 - シリコンの谷のゾンビ
  • PRML復々習レーン#3に参加して発表しました - シリコンの谷のゾンビ

    PRML復々習レーン#3に参加して発表しました.会場係と会場を提供してくださった@showyouさんとDeNAさんに感謝申し上げます.毎度ながら素晴らしい会場,そして素晴らしい景色. 今回から新しい試みで前回の復習内容をまとめてみることにしてみた.いちsubsectionを1枚程度にまとめて,「よーするに」というポイントをまとめてみたもの.資料をまとめて喋ってみてはじめて気が付くことがあったので次回もぜひやってみたい. 発表資料は以下のとおり 前回までのあらすじ PRML復々習レーン#3 前回までのあらすじ View more presentations from sleepy_yoshi 3.1.3-3.1.5 (代打) PRML復々習レーン#3 3.1.3-3.1.5 View more presentations from sleepy_yoshi 日程の都合で今回参加できない方の代

    PRML復々習レーン#3に参加して発表しました - シリコンの谷のゾンビ
    yuiseki
    yuiseki 2012/07/18
  • JavaScriptによるk-Nearest Neighbor体験デモ - シリコンの谷のゾンビ

    研究室の後輩向けに機械学習実装レクチャのようなものをやってみたのだけれど,知識ゼロの学生を対象にした場合にはk-NN (特に1-NN) から始めるのがよかろうと思ってそこから解説してみた*1.実装もとても簡単. なおk最近傍法とか呼ばれたりもするk-NNは,入力されたデータ点のk個の近傍のラベルによって分類するという方法. 帰宅してから,これcanvasを使えばブラウザから利用できるデモできるんじゃね? ということを思いついてさっそく実装.せっかくだから正規分布からデータ生成するロジックも追加してみた.k-NNとか機械学習とかわからない人たちにイメージをつけるのに役に立つかもしれないので公開.ご自由にお試しください*2. k-Nearest Neighbor Demo ver.1.0 k-NNくらい簡単だと静止した図の説明で大体事足りるのだけれど,動くデモがあった方が眠くならないだろうし.

    JavaScriptによるk-Nearest Neighbor体験デモ - シリコンの谷のゾンビ
  • CVIMチュートリアル勉強会#11「3. 最小化のための数値計算」 - シリコンの谷のゾンビ

    第11回「コンピュータビジョン最先端ガイド」勉強会に参加し,1章バンドルアジャストメントの3. 最小化のための数値計算を発表してきました. 今回の資料をアップロードしました. CVIM#11 3. 最小化のための数値計算 View more presentations from sleepy_yoshi 前回がカーネル法だったのでのこのこと参加したところ,未発表の人間は発表しろゴルァと幹事のt@kminさんに言われ,ビジョンよくわかんないけれど,最適化の部分はとても興味のある分野だったので,勇気を出して担当をさせて頂くことにしました. 今回のバンドルアジャストメントは,複数のカメラによって撮影された画像を合成したり,特徴点を推定するような問題において,誤差関数 (目的関数) がカメラの位置パラメータと,画像の特徴点という複数のパラメータがあるに依存しているため,非線形最小二乗法を使って解き

    CVIMチュートリアル勉強会#11「3. 最小化のための数値計算」 - シリコンの谷のゾンビ
    yuiseki
    yuiseki 2012/07/15
  • 情報検索ことはじめ〜教科書編その2 (2011年決定版) 〜 - シリコンの谷のゾンビ

    しばらく情報検索に関わるブログ記事を書いていなかったけれど,「情報検索ことはじめ〜教科書編〜」から丸2年が経過し,Modern Information Retrievalの第二版が発売されたことで,2011年版を書いてみようと思ったので,ここ2年で発売された情報検索の教科書について書くことにする. あの頃は検索を勉強し始めて8ヶ月のペーペーだったけれど,そのまま加算すると,どうやら2年8ヶ月になるらしい.「まるで成長していない…」とか某安西先生につぶやかれそうな気がするけれど,自分のことは棚に上げて,この2年間に新たに出版された教科書を紹介したいと思う. さて,例によって若輩の主観と独断と偏見にまみれた記事になっています.誤りの指摘,違ったご意見があれば,コメント頂けると幸いです. 情報検索の教科書 この2年で出版された教科書的存在の文献は3冊.それぞれ紹介する.以下の3冊の共通点としては

    情報検索ことはじめ〜教科書編その2 (2011年決定版) 〜 - シリコンの谷のゾンビ
  • SVM実践ガイド (A Practical Guide to Support Vector Classification) - シリコンの谷のゾンビ

    SVMツールで有名なLIBSVMの作者らがまとめた "A Practical Guide to Support Vector Classification" という良資料[1]の日語解説資料をまとめてみたので公開. SVM実践ガイド (A Practical Guide to Support Vector Classification) View more presentations from sleepy_yoshi 元資料はこちら 資料作成のきっかけは,まわりの人に「SVMとかいう手法使ったんだけど,機械学習よくわからなくてさ」という感じで相談を受けて「カーネルは何使ってるの?」「素性のスケーリングはした?」「Cパラメータは調整した?」というようなことを聞くのだけれど,「???」というやりとりにうんざりしたから. その都度,Cパラメータというものがありまして〜,カーネルというものが

    SVM実践ガイド (A Practical Guide to Support Vector Classification) - シリコンの谷のゾンビ
  • numpy.linalg.invとnumpy.linalg.solveを用いた逆行列計算 - シリコンの谷のゾンビ

    (Tokyo.SciPyに毎度お邪魔させて頂いているのにも関わらず今まで全くNumPyとかSciPyとか使っていなかったのだけれど) 最近ようやくNumPyやSciPyを(ほんの)少しずつ使うようになってきた.機械学習関連に限らず必ずと言っていいほどお世話になる逆行列計算. そういえば逆行列と何かの積を取る場合,numpy.linalg.inv()じゃなくてnumpy.linalg.solve()の方が速いよ,ということをどこかで聞いていた気がするので「単位行列との積を取れば逆行列単体の計算も速くなるんじゃね?」ということをお思いついて速度差を比較してみた. というわけで以下の4つのケースの速度を比較 Aの逆行列を計算 (numpy.linalg.inv) Aの逆行列を計算 (numpy.linalg.solve) Aの逆行列を計算 (numpy.linalg.inv) し,bの積を計算

    numpy.linalg.invとnumpy.linalg.solveを用いた逆行列計算 - シリコンの谷のゾンビ
  • JavaScriptによるパーセプトロン/Passive-Aggressive体験デモ - シリコンの谷のゾンビ

    前回k-NNデモを作った後に「これパーセプトロンも同じようにデモ作れるんじゃね?」と思ったので実装してみた.今度はクリックでデータ点を追加できるようにしたり,サンプル選択方法を可変にしたり,PAの更新の様子を可視化すると面白いかもと思って後からPAも追加してみた. パーセプトロンは誤分類するサンプルを正しく分類するように超平面を更新する線形識別器で,Passive-Aggressive (PA) は損失を発生させるサンプルに対して損失が0になり,重みベクトルの変化量が最小になるように超平面を更新するアルゴリズム. オンライン学習についてざっくりした俯瞰は以下の資料などをご参照. TokyoNLP#5で「パーセプトロンで楽しい仲間がぽぽぽぽ〜ん」を発表しました というわけでk-NNと同じように公開. Perceptron/PA Demo ver.1.0 使い方 Update onceボタンで

    JavaScriptによるパーセプトロン/Passive-Aggressive体験デモ - シリコンの谷のゾンビ
  • 確率的情報検索ノート ― Probability Ranking PrincipleからBM25まで ― - シリコンの谷のゾンビ

    GW中にやることリストのひとつである確率的情報検索ノートができたので公開. Notes on Probabilistic Information Retrieval ―Probability Ranking PrincipleからBM25まで― 確率的情報検索とは,Prbability Ranking Principle (説明はノート参照) をスタート地点にして適合確率をモデル化した情報検索のいち分野.Binary independence modelやBM25などが含まれる (BM25はいろんなヒューリスティクスが入っているのだけれど). BM25とは, [tex:\sum_{t \in q} q_t \cdot \frac{f_{t,d} (k_1 + 1)}{k_1*1 + f_{t,d}} \cdot w_t] という (説明はノート参照),ぱっと見ワケワカラン計算式だけれど当た

    確率的情報検索ノート ― Probability Ranking PrincipleからBM25まで ― - シリコンの谷のゾンビ
  • Eclipseやantを使わないLucene入門 - シリコンの谷のゾンビ

    後輩に煽られたのでLuceneを使えるようにしてみた.ようやく積ん読になっていた "Lucene in Action" がついに火を噴くときがきた模様. 長らくJavaは触っていなかったけれど,JavaライブラリってEclipseのようなIDE使わないとimport地獄にはまったり,ant使わないとそもそもコンパイルできなかったりと,なかなかゆとりには厳しい印象がある.実際,前回のチャレンジではそれで挫折してLuceneが嫌いになった. 今回はantやIDEに頼らずにメモ帳プログラムでLuceneを動かしてみた. やってみるとハマるところはあるものの,とても簡単だったので備忘録程度にメモ.コードはLucene in Actionの(pp.20-25)あたりのサンプルコードを参考にした. インストールと準備 まず準備から.最新のlucene-3.1.0の例で説明. 公式ページ からダウンロー

    Eclipseやantを使わないLucene入門 - シリコンの谷のゾンビ
    yuiseki
    yuiseki 2012/03/31
  • 研究室に配属されたばかりのB4にそっと渡したい一冊‐それが「入門ソーシャルデータ」 - シリコンの谷のゾンビ

    オライリー・ジャパンさんから頂いた「入門ソーシャルデータ」を読みました. 入門 ソーシャルデータ ―データマイニング、分析、可視化のテクニック 作者: Matthew A. Russell,奥野陽(監訳),佐藤敏紀(監訳),瀬戸口光宏(監訳),原川浩一(監訳),水野貴明(監訳),長尾高弘出版社/メーカー: オライリージャパン発売日: 2011/11/26メディア: 大型購入: 18人 クリック: 779回この商品を含むブログ (42件) を見る ご紹介いただいた@overlastさん,オライリー・ジャパンさんどうもありがとうございます! 記念すべき人生初献.なんと監訳者全員が (IIR輪講などの勉強会を通じて) 知っている方だったのでびっくり. さて,遅ればせながら書のレビューを書きたいと思います.ただ,すでに著名なメンバーがレビューを書いていらっしゃるので,できるだけ観点がかぶらな

    研究室に配属されたばかりのB4にそっと渡したい一冊‐それが「入門ソーシャルデータ」 - シリコンの谷のゾンビ
    yuiseki
    yuiseki 2011/12/10
  • awk歴一日の初心者が語るawk理解のポイント - シリコンの谷のゾンビ

    今までテキスト処理などでワンライナーを使うときはperlを使っていた.Perlを先に覚えた身としてはawkやsedは過去の産物だと思い込んでいた.awkの方が簡潔に書けるケースに出くわしたことをきっかけにawkを勉強してみたら単なわず嫌いだったことに気が付いたのでポイントをまとめてみる. なおプログラミング言語としてはAWKという表記が正しく (Aho, Weinberger, Kernighanの頭文字! ということだけは以前から知っていた),オリジナル処理系のことをawkと呼ぶのだろうけれど,今回は処理系の違いは気にしないのでawk, nawk, gawkの違いは気にしないことにした.ていうか詳しく知らない. 「awkってなんぞ?」という方が対象読者.スクリプト言語と正規表現の基礎知識が少しでもあれば,たぶんすぐに使えるようになると思う.awkを一度でも使ったことがある人には新しい情

    awk歴一日の初心者が語るawk理解のポイント - シリコンの谷のゾンビ
    yuiseki
    yuiseki 2011/09/19
  • LibSVMのcross validationオプションでprecision/recallを出力する - シリコンの谷のゾンビ

    SVMの定番ツールのひとつであるlibsvmにはcross validationオプション(-v) があり,ユーザが指定したFoldのcross validationを実行してくれる. 実行例 % ./svm-train -v 2 heart_scale * optimization finished, #iter = 96 nu = 0.431885 obj = -45.653900, rho = 0.152916 nSV = 70, nBSV = 49 Total nSV = 70 * optimization finished, #iter = 84 nu = 0.512665 obj = -57.742885, rho = 0.134158 nSV = 78, nBSV = 61 Total nSV = 78 Cross Validation Accuracy = 81.8519%

    LibSVMのcross validationオプションでprecision/recallを出力する - シリコンの谷のゾンビ
    yuiseki
    yuiseki 2011/09/17
  • TokyoNLP#7で「きれいなジャイアンのカカカカ☆カーネル法入門-C++」を発表しました - シリコンの谷のゾンビ

    TokyoNLP#7に参加して,「きれいなジャイアンのカカカカ☆カーネル法入門-C++」を発表してきました. 幹事の @nokuno さんをはじめ,他の発表者の方々や懇親会の買い出しをしてくださったみなさま,参加者のみなさま,そしてなにより会場を提供してくださったECナビさんと@ajiyoshiさんに改めて感謝申し上げます. 大分時間が空いてしまったけれど一応前回からの続き. TokyoNLP#5で「パーセプトロンで楽しい仲間がぽぽぽぽ〜ん」を発表しました 発表資料を公開します.一部修正してあります. TokyoNLP#7 きれいなジャイアンのカカカカ☆カーネル法入門-C++ View more presentations from sleepy_yoshi 発表のポイントは以下のあたり. 入力とデータ点 (サポートベクタ) との類似度 (カーネル) の重みづけ和でモデルを表現している!

    TokyoNLP#7で「きれいなジャイアンのカカカカ☆カーネル法入門-C++」を発表しました - シリコンの谷のゾンビ
  • DSIRNLP#1で「ランキング学習ことはじめ」を発表しました - シリコンの谷のゾンビ

    第1回データ構造と情報検索と言語処理勉強会に参加して発表をしてきました.幹事の@overlast さん,ボランティアのみなさま,会場を提供してくださったmixiさんに感謝申し上げます. ランキング学習に関するハードな発表を依頼されたので,気合いを入れて2晩夜更かしして資料をまとめてみた.発表資料(公開用)をslideshareにアップしました. DSIRNLP#1 ランキング学習ことはじめ View more presentations from sleepy_yoshi ランキング学習は検索ランキングを教師あり機械学習の枠組みで最適化する方法で,どのように目的関数を設定するかという観点で3つのアプローチ (pointwise, pairwise, listwise) に分かれる.これらのアプローチは,目的関数の設定方法が違うだけで,眺めてみると (基的な方法は) そんなに難しくないよ,

    DSIRNLP#1で「ランキング学習ことはじめ」を発表しました - シリコンの谷のゾンビ
  • TokyoNLP#5で「パーセプトロンで楽しい仲間がぽぽぽぽ〜ん」を発表しました - シリコンの谷のゾンビ

    TokyoNLP#5に参加して「パーセプトロンで楽しい仲間がぽぽぽぽ〜ん」というタイトルで発表しました.発表資料 (検閲後) をuploadしました. なお,2種類のAveraged Perceptronというものがあるというような発表をしてしまいましたが,実は両方とも実質同じアルゴリズムでした.片方はVoted Perceptronの近似 [Carvalho+ 06] という文脈.もう一方は構造学習を行うStructured Perceptron [Collins 02]の文脈で提案されています.その部分を修正しました.@uchumikさんのコメントで気が付きました.どうもありがとうございます. TokyoNLP#5 パーセプトロンで楽しい仲間がぽぽぽぽ〜ん View more presentations from sleepy_yoshi 音声付きで用意したネタ.どうやら徹夜明けの妙な

    TokyoNLP#5で「パーセプトロンで楽しい仲間がぽぽぽぽ〜ん」を発表しました - シリコンの谷のゾンビ