タグ

ブックマーク / www.yasuhisay.info (13)

  • EMNLPで気になる論文 - yasuhisa's blog

    メモメモ。談話成分多め。上に行くほど読みたい度合いが強い。 Structured Relation Discovery using Generative Models (pdf) “X was born in Y” and “X is from Y”"というのが同じような関係から生成されると考えてトピックモデルで定式化 Unsupervised Structure Prediction with Non-Parallel Multilingual Guidance (pdf) 教師なし学習を多言語混ぜてやる系の話。Methodの付近だけでもチェックしておく Unsupervised Discovery of Discourse Relations for Eliminating Intra-sentence Polarity Ambiguities (pdf) Approximate Sc

    EMNLPで気になる論文 - yasuhisa's blog
  • #25, #26, #27, #28, #29 ICML2011読み会を行ないました - yasuhisa's blog

    数理情報からは竹之内先生と林さんが発表で聴講の方も何人か参加されてICML2011読み会を行ないました。発表者、質問してくださった方々ありがとうございました。全体で12-13(?)人前後くらいの人数。僕の発表はこの辺です。 #24 Sparse Additive Generative Models of Text - yasuhisa's blog 全部の感想を書いていると大変なので、自分が興味持った付近を中心に書いていきます。 GoDec: Randomized Low-rank & Sparse Matrix Decomposition in Noisy Case 個人的に一番面白かった。といっても技術的なことはほとんど追いきれなかったのですがw。この論文が、というよりrobust PCAというもの自体を知らなかったので、それが面白いなぁと思ったというのが正確か。 普通のPCAだと元の

    #25, #26, #27, #28, #29 ICML2011読み会を行ないました - yasuhisa's blog
    niam
    niam 2011/07/20
    そちらのICML読み会でもGoDec紹介されてたのか!僕も読んで厳密な版を実装しました.実装と発表スライドはこちら: http://d.hatena.ne.jp/niam/20110717/1310900853
  • はてなインターン全日程終了しました - yasuhisa's blog

    8/2に京都に到着、8/3からインターンが開始されたはてなインターンですが無事全日程終了しました。後半に進めるのが決まったのが二週間前だとか信じられません。 というわけで興奮覚めないままの感覚で書いていこうと思います*1。 インターン後半戦 インターンの前半戦は毎日出される課題を倒していくという感じの日々でしたが、後半は実際にプロダクトの作成、改善、追加などを行ないました。チームも前半とは違って再配置となり、僕はid:mi_kattun、id:mroriiと一緒にid:onishiさん、id:antipopさん、id:ninjinkunさんの運用チームでやらせてもらいました。 このチームにて コメントスパム コメント日記 の撲滅を目指してスパムフィルタの作成をしました。以前は結構簡単なルールでフィルタリングしていたのですが、最近とにかく(当に!当に当に!!当に当に当に!!!)ス

    はてなインターン全日程終了しました - yasuhisa's blog
  • Tsukuba.R#5の発表資料 - yasuhisa's blog

    Rの基データ構造をもっと理解しよう id:syou6162 自己紹介 吉田康久 id:syou6162 syouでおk Tsukuba大学のM1 Tsukuba.Rの近況(?)その1 Tsukuba.Rの活動が熊でも知られているみたいで、ちょっと発表してきた やっちろ.Rの発表資料 - Seeking for my unique color. Tsukuba.Rの近況(?)その2 RubyKaigiにスタッフとして参加 クレジットのところにTsukuba.R id:wakuteka、id:mickey24、id:negaton、id:syou6162 今回の内容 基に戻って、Rで重要なデータ構造のおさらいをしよう 前回(#4)はCでの拡張とかだったので。。。 データ構造とそれに関連する便利な関数を絡めて紹介 慣れている人にも何か新しい発見があるように 話の中でいくつかのパッケージを軽

  • 指標を全部実装してみた - yasuhisa's blog

    この前の続き。先週の水曜で大体作ってしまっていたんだが、使い方ミスっててバグってると勘違いしていたorz。 出現頻度と連接頻度に基づく専門用語抽出 - Seeking for my unique color. とりあえずpneの1985年分のテキストをわせて、それぞれの指標で上位100個を出力させるとかそんな感じのプログラム。70ファイルくらいしかないですが、非常に遅いです。。。 今週の金曜には、これの評価をするプログラムを書いておきたい。次からは機械学習っぽいものを取り込んでいきたいんだけど、この指標を使ったやつをベースラインとしたいので、性能を知っておきたい。 プログラム # -*- coding: utf-8 -*- # implementation for this paper # http://www.r.dl.itc.u-tokyo.ac.jp/~nakagawa/acade

    指標を全部実装してみた - yasuhisa's blog
  • C++クックブックのメモ - yasuhisa's blog

    5.4 vectorへのポインタの格納 vectorにはオブジェクトをコピーするのではなく、ポインタを格納する リファレンスは無理っぽい ポイントしているオブジェクトは自動的にdelteされることはないので、その削除を忘れないように 5.5 listへのオブジェクト格納 シーケンスの末尾や先頭以外でも変更するとしたらlistのほうがパフォーマンスや柔軟性がよい findしてポインタを持っておいて、そこの直前にinserとかそういうことも可能 remove_ifみたいな関数でfilteringすることもできる 7.11 クラステンプレートの作成 中身はともかく、treeのC++での実装が書いてあるのであとで試す

    C++クックブックのメモ - yasuhisa's blog
    niam
    niam 2009/05/24
  • 出現頻度と連接頻度に基づく専門用語抽出 - yasuhisa's blog

    この前の続き。先週の週末にやるつもりだったけど、暇がなかった。 MeCabで区切った単語を再びつなげる - yasuhisa's blog 前回の流れとしては 専門用語を一つの単語として取ってくるのは難しい MeCabを使うと細かくなりすぎる 専門用語には名詞のsequenceが多そう じゃあ、名詞つなげてみればいいんじゃね? ということで名詞を繋げてみるだけというところをやりました(それだけ。。。)。id:niamさんがコメントしてくださったように"出現頻度と連接頻度に基づく専門用語抽出",自然言語処理, 2003を使うと専門用語らしさ(?)のようなスコア付けができるようなので、それをやってみることにしました。とりあえずp6のLR(CN)のところまでを実装。あとはスコア付けの関数を2つくらい用意して、評価指標の関数を用意すれば、という感じです。 # -*- coding: utf-8 -

    出現頻度と連接頻度に基づく専門用語抽出 - yasuhisa's blog
    niam
    niam 2009/05/23
    おぉ。TermExtract(言選)を実装してくださった。コメントがコードになると嬉しいですww
  • Rによる最適化、パラメータ推定入門 - yasuhisa's blog

    パラメータの推定、でもその前に optimize関数について 補足 パラメータの推定 ベルヌーイ分布 定式化(尤度関数) 尤度関数の実装 尤度関数の最適化(パラメータ推定) 正規分布におけるパラメータ推定 まとめ パラメータの推定、でもその前に統計におけるパラメータの推定というのは大体最適化問題に帰着します。「なんとか関数を(最大|最小)にするようなパラーメータほにゃららを求めたい」とまあこんな感じで。というわけで、パラメータ推定は置いておいて、Rで最大化問題、最小化問題をどう解くかというところを最初にやってみようと思います。最適化問題は離散最適と連続のほうの最適に分けられますが、ここでは連続についての最適化問題について考えることにします。 optimize関数について Rにおける最適化をするための関数はoptim関数、optimize関数があります(他にもnlsなどありますが、とりあえず

    Rによる最適化、パラメータ推定入門 - yasuhisa's blog
  • コスト最小法によるViterbiアルゴリズムを実装してみた - yasuhisa's blog

    前回は単語数最小法によるViterbiアルゴリズムを使って、「はうろうろ」を形態素解析しました。 www.yasuhisay.info 単語数最小法では、単語の品詞などは見ておらず、ただただ単語数を最小にするように動的計画法であるViterbiを動かしていきます。品詞を見ていないため、「家におくりました」は「家」、「におくり」、「ました」と間違って形態素解析されていました。 コスト最小法による形態素解析そこで ある単語がある品詞で登場するコスト ある品詞とある品詞の接続するコスト というコストの概念を導入します。 「ある単語がある品詞で登場するコスト」というのは、例えば 「まし」が助動詞で登場するコスト 「まし(増し)」が動詞で登場するコスト というような感じで、単一の言葉でも、品詞が違う場合にはそのコストを区別するような考え方です。 一方、「ある品詞とある品詞の接続するコスト」というの

    コスト最小法によるViterbiアルゴリズムを実装してみた - yasuhisa's blog
  • NAISTの入試説明会に行ってきた - yasuhisa's blog

    5:30につくばセンターを出て、12時くらいにNAISTにつく。駅からNAISTまでのバスが一時間に一だったり、大学に行くまでのところにほとんどお店がなかったりで予想の上を行く感じで田舎だった笑。あとでid:mamorukさんに周りの付近を車で乗せてもらって見た感じだと車か原付があればやっていけそうかなーという感じだったかな。免許取らないと。。。 早めについたので、情報科学科の一回でふらふらしているとたまたまid:smlyさんに遭遇。お昼ご飯を学で一緒にさせてもらいました。で、一時から入試の説明会。参加者は9人くらいだったけど、このくらいの人数でも説明会を開いてくれるというのはいいなーと思った。 http://is-exam-www.naist.jp/blog/2009/04/post_2.html NAISTの概要とかどういうところが売りだよ、というような話があって大学の中を案内して

    NAISTの入試説明会に行ってきた - yasuhisa's blog
    niam
    niam 2009/05/05
  • 線形回帰モデル - yasuhisa's blog

    明日発表の分のゼミの資料。PRMLの3.1.2から3.1.5までです。先週のはこの辺に書いている。 今日の日記 - yasuhisa's blog 最小二乗法の幾何学 ここではN=3と固定して考えてみる ということなので、3次元空間で考える 各軸が、、で与えられる3次元空間 図についてはここを見る M < NのケースとしてM=2の場合を考える すると次元が一つ落ちるので、ベクトル、は(図でいうところの)M=2次元の線形部分空間Sを貼る この平面を動き回る yはベクトル、のパラメータによる線形結合で表わされるので、線形部分空間Sの中のどこにいてもよい どこにいてもいいんだけど、どこにいると一番いいんでしょう tとyとの距離が一番近いところがいいよね→tとyとのユークリッド距離 図からも適切なtというのはtの部分空間Sの上への正射影に対応していることが分かる 逆行列を取る関係で、が非正則、非正

    線形回帰モデル - yasuhisa's blog
  • Pythonのアクセス制限と抽象クラス&インターフェイスについてのまとめ - yasuhisa's blog

    アクセス制限について Javaに関して Pythonに関して アクセス制限についての感想と考察 考察 感想 抽象クラスとインターフェイスについて 抽象クラスについて インターフェイスについて アクセス制限について Javaに関して Javaのアクセス修飾子については、public、private、protected、無名の種類があります。アクセス修飾子についてはnextindex.net - がまとまっているようなので、そこを見てみるといいでしょう。各所にて書かれているので僕がいうまでもないと思いますが、オブジェクト指向プログラミングにおいて、アクセス制限はカプセル化を実現するために必要なものです。以下に簡単にまとめたものを掲載してみます。先ほどのところを参考に書かせてもらっています。 private 同一クラス内からのアクセスのみ。 無名 同じパッケージ内からしか呼び出せない。 prot

    Pythonのアクセス制限と抽象クラス&インターフェイスについてのまとめ - yasuhisa's blog
  • 人工知能基本問題研究会(SIG-FPAI)での岡野原さんの発表のときに取ったメモ - yasuhisa's blog

    hillbig.cocolog-nifty.com ということで僕が取ったメモも出してみようと思う。内容としては大体3つで オンライン学習 L1正則化 索引を用いた効率化, 全ての部分文字列を利用した文書分類 という感じだったんだけど、最後の索引の付近はid:syou6162の勉強不足によりよく分からなかった。が、最初の二つはなんとか付いていけたので、出してみます。主に自分用のメモですが。 オンライン学習自然言語処理のデータは3つの特徴がある。 高次元 疎 冗長 で、あとはデータがばかでかいので、いわゆるバッチ処理だとメモリに乗り切らなかったりとかということがある。それでオンライン学習というのが今よく使われているようだ。オンライン学習の方法には下のような方法がある。簡単なものから難しいものへ。 perceptron 自然言語処理と相性がよい 色んなもののベースになる 線形分離できるときには

    人工知能基本問題研究会(SIG-FPAI)での岡野原さんの発表のときに取ったメモ - yasuhisa's blog
  • 1