タグ

ブックマーク / sucrose.hatenablog.com (10)

  • 進捗ありません - 修士4年間の振り返り - 唯物是真 @Scaled_Wurm

    そういえば修士論文や発表が終わっていたので報告代わりに書いておきます 役に立つ内容だったりポジティブな内容だったりはしないただの記録なので注意 できるだけマイルドな内容にしたつもりです 一応書いておくと2010年に大学院に修士として入って、2回修士論文を出せずに留年して、今回に至ります。 私がいた研究室はポジティブな結果が出ないとダメ的な雰囲気が強いのですが、結局研究はダメで修士4年目なのでお情けで出させてもらった感じが強いです…… 修士論文以外に論文も書いていないので、研究的にはほとんどアウトプットが出せなかった4年間でした。 精神的につらい感じの研究室生活で何度もやめようかと思いましたが、いろんな人に励ましていただいたり手伝ったりしていただきました 感謝しています、ありがとうございました 先生方とも全然会話できない感じになっていました。 ほとんど何も進んでいない→進んでないから話すこと

    進捗ありません - 修士4年間の振り返り - 唯物是真 @Scaled_Wurm
    nhayato
    nhayato 2014/08/21
  • 大量のテキストからランダムに少数の行を抽出したい - Reservoir Sampling - 唯物是真 @Scaled_Wurm

    前に以下のような記事を書きましたが、大量のテキストではうまくいかなかったので新たに書きました ファイルからランダムにN行取り出す(shufコマンド) - 唯物是真 @Scaled_Wurm 上の記事ではテキストをランダムに\(k\)行取り出したい時"shuf -n k"コマンドでランダムにシャッフルした\(k\)行を取り出していました ところが非常に大きなテキストファイルに対して上のコマンドを実行すると、一度にデータを全部メモリに読み込み始めているのか、すごい勢いでメモリを消費していきました(sort -Rでも) そこでメモリをあまり使わずにランダムに\(k\)行取り出す方法について調べました まず基的な非復元抽出のアルゴリズムは以下の記事の発展手法とか追記のあたりの話がわかりやすいと思います 非復元抽出の高速かつ実装が簡単な方法を考える - 睡眠不足?! この記事の話も一度全部の要素を

    大量のテキストからランダムに少数の行を抽出したい - Reservoir Sampling - 唯物是真 @Scaled_Wurm
    nhayato
    nhayato 2014/01/11
  • 論文感想: "Automatically Constructing a Normalisation Dictionary for Microblogs"(EMNLP-CoNLL 2012) - 唯物是真 @Scaled_Wurm

    "Automatically Constructing a Normalisation Dictionary for Microblogs" 概要 Twitterとかでの単語の正規化用の辞書を作る話。 例、2morw→tomorrow 手法 文脈類似度の似た、辞書にない単語(OOV)と辞書にある単語(IVのペア)を集める 集めたペアを文字列的な類似度でリランキング 一定の長さと頻度以上の単語のみを対象とする。 文脈類似度 ある単語が出てきた時に周りに出てくる単語。 これが似ている単語は意味が似ていると考えられる。 文脈類似度を測る時の設定 窓幅(単語の周りの何個までを文脈として考えるか) n-gramのnをいくつにするか インデックス: 文脈に相対的な位置情報をつけるか IV or All: IV だけを文脈に登場した単語としてみなすかどうか 品詞や構文的な情報は使っていない。 類似度の測

    論文感想: "Automatically Constructing a Normalisation Dictionary for Microblogs"(EMNLP-CoNLL 2012) - 唯物是真 @Scaled_Wurm
  • 論文感想: "Good, Great, Excellent: Global Inference of Semantic Intensities"(TACL vol.1) - 唯物是真 @Scaled_Wurm

    Good, Great, Excellent: Global Inference of Semantic Intensities 図表、式は論文中から引用 概要 似た意味の形容詞の強弱の順序付けをするタスク 例えば「寒い」「涼しい」「冷たい」「痛い」などの形容詞が与えられた時に、その強弱関係は「涼しい<寒い<冷たい<痛い」ですよ、と順序付けをする話(この例は私が作った適当なもの Webコーパスから"A but not B"などのパターンに当てはまる頻度を数えて、それらを使って単語間のスコアを計算する 順序付けの対象となる形容詞のクラスタは、WordNetの類義語関係などから作った単語リストを、スコアで重み付けしてグラフにして、連結成分で分割したものを使う 混合整数計画法を使ってグローバルな目的関数を最適化したら良い結果が得られた 感想 ペアワイズな評価尺度だとアノテーター間のアグリーメント

    論文感想: "Good, Great, Excellent: Global Inference of Semantic Intensities"(TACL vol.1) - 唯物是真 @Scaled_Wurm
    nhayato
    nhayato 2013/09/07
  • ニコニコ動画のデータセットが公開されたらしい - 唯物是真 @Scaled_Wurm

    研究用にニコニコ動画のコメント約300GBを公開‐ニコニコインフォ 情報学研究データリポジトリ ニコニコ動画コメント等データ 国立情報学研究所のダウンロードサービスでニコ動のデータセットが公開されていたので、とりあえずダウンロードしてみました ダウンロードの手順 以下のページで、名前、メールアドレス、所属を入力すればよいみたいです。 情報学研究データリポジトリ ニコニコ動画コメント等データ 申請 データの形式 行ごとにそれぞれの動画のjsonが書かれたファイルがたくさんあります。 コメントのデータもありますが、ユーザーに関する情報はないみたいです 動画の説明などには<b></b>や<font></font>、<br />などのHTMLタグが含まれていましたので、それらの除去が必要になりそうです タグの頻度 なんか面白いことできないかなーと考えたんですが、何も思い浮かばなかったので、とりあえ

    ニコニコ動画のデータセットが公開されたらしい - 唯物是真 @Scaled_Wurm
    nhayato
    nhayato 2013/06/15
  • LIBSVMとかLIBLINEARとかのメモ - 唯物是真 @Scaled_Wurm

    LIBSVM -- A Library for Support Vector MachinesとかLIBLINEAR -- A Library for Large Linear Classificationを使って二値分類の問題で遊んでいました。 その時にすぐにわからなかったことのメモ。 Accuracy以外の尺度を出力する 普通LIBSVMやLIBLINEARを使ってクロスバリデーションをするとAccuracyが出力されますが、二値分類においてはその他の尺度PrecisionやRecall、F値やAUCなどが見たい時があります。 LibSVMのcross validationオプションでprecision/recallを出力する - 睡眠不足?! こちらの記事ではLIBSVMでPrecisionやRecall、F値を出力させるパッチが公開されています。 簡単に適用できてわかりやすいです。

    LIBSVMとかLIBLINEARとかのメモ - 唯物是真 @Scaled_Wurm
  • "cross-validation"の訳語って何? - 唯物是真 @Scaled_Wurm

    機械学習や統計では"cross-validation"という手法が使われています。 詳細は以下のURLなどを見てもらえるといいのですが「データを分割し一部()を評価用、その他()を訓練用として性能を評価する」というのを評価用か訓練用かを入れ替えて通りについて行い、その平均で性能を評価する方法です。 交差検定 - Wikipedia 交差確認 - 機械学習の「朱鷺の杜Wiki」 これに関してTwitterで以下のようなやりとりを見かけました。 クロスバリデーションをクロバリと略すのは流行らなかった…でも、交差検定も長いし、交検じゃ貢献と同音異義語になってしまうので、4モーラで略すなら、クロバリが良さげな気がするんだけどなぁ。 2012-12-29 13:52:24 via Twitter for iPhone .@niam 交差検定はどこで使われてましたか?統計系は検定は test に当てる

    nhayato
    nhayato 2012/12/29
  • 集合とかベクトルの類似度の計算のメモ - 唯物是真 @Scaled_Wurm

    Pythonで実装する類似度計算 - Screaming Loud #1283. 共起性の計算法 ↑この辺りの記事を見て、集合とかベクトルの類似度の計算の記事を下書きのまま放置していたことを思い出したので書き上げた。 類似度の計算のコードを書いたのでそれを載せるだけにしようかと思ったのですが、知っている人にしか伝わりそうにないので自然言語処理でよく使う話の概要だけでも書いときます。 導入 自然言語処理の分野では単語の意味を比較するときに、ある単語の周り(文脈)に出てきた単語のベクトル(文脈ベクトル)の類似度を計算することがある。 これは「ある単語の意味はその周囲に出現する単語によって特徴づけられている」という仮説に基づいていて、文脈ベクトルが似ていれば似たような意味、似たような状況で使われる単語が多いということが言えるからである。 Distributional semantics - Wi

    nhayato
    nhayato 2012/11/30
  • 論文感想: "Creating Stories: Social Curation of Twitter Messages"(ICWSM2012) - 唯物是真 @Scaled_Wurm

    Creating Stories: Social Curation of Twitter Messages Akisato Kimura: Research Interests: Assisting social curation of Twitter messages 追記 読んだ論文とリンク先の論文(4ページ)が微妙に違うっぽいというか、前に印刷したものと同じ内容の論文(8ページ)を見つけられなかった……なんで? 概要 自動でTogetterっぽいのを作る論文。 種となるツイート集合が与えられた時に追加すべきツイートをランキングするタスクに落としこんでいる。 SVMrankを使って学習。 学習に用いたFeature 種となるツイートとの単語的な類似度の和(TF, TFIDF, binary, sumBM25, のcos類似度)。 種となるツイートとのハッシュタグの類似度の和 種に含まれ

    論文感想: "Creating Stories: Social Curation of Twitter Messages"(ICWSM2012) - 唯物是真 @Scaled_Wurm
  • Project Eulerのバイオインフォマティクス版のROSALINDを始めました - 唯物是真 @Scaled_Wurm

    最近時間がなくてProject Eulerを全然やっていませんでした。 というか数論の知識がなくて全然解けないのでやる気が出ません。 そんな時にTwitterでProject Eulerのバイオインフォマティクス版のRosalindというのがあるらしいという話を聞いたのでこの土日でやってみました。 問題 問題一覧を見るとわかりますが、形式はかなりProject Eulerに似ています。 内容は、DNAとかRNAとかコドンとか記憶の片隅に埋もれた生物系の単語がたくさん出てきますが、基的にはアルゴリズム、特に文字列操作などです。 生物系の知識が多少必要な場合もありますが、だいたいは問題のページに書いてあります。 提出方法 大きな違いはGoogle Code Jamのように解答を提出するときは入力をダウンロードして時間内(5分以内)に解答、という形式になっていることです。 問題の順序 また前提

    Project Eulerのバイオインフォマティクス版のROSALINDを始めました - 唯物是真 @Scaled_Wurm
    nhayato
    nhayato 2012/11/12
  • 1