nhayatoのブックマーク - はてなブックマーク

進捗ありません - 修士4年間の振り返り - 唯物是真 @Scaled_Wurm

そういえば修士論文や発表が終わっていたので報告代わりに書いておきます役に立つ内容だったりポジティブな内容だったりはしないただの記録なので注意できるだけマイルドな内容にしたつもりです一応書いておくと2010年に大学院に修士として入って、2回修士論文を出せずに留年して、今回に至ります。私がいた研究室はポジティブな結果が出ないとダメ的な雰囲気が強いのですが、結局研究はダメで修士4年目なのでお情けで出させてもらった感じが強いです…… 修士論文以外に論文も書いていないので、研究的にはほとんどアウトプットが出せなかった4年間でした。精神的につらい感じの研究室生活で何度もやめようかと思いましたが、いろんな人に励ましていただいたり手伝ったりしていただきました感謝しています、ありがとうございました先生方とも全然会話できない感じになっていました。ほとんど何も進んでいない→進んでないから話すこと

nhayato 2014/08/21

リンク

大量のテキストからランダムに少数の行を抽出したい - Reservoir Sampling - 唯物是真 @Scaled_Wurm

前に以下のような記事を書きましたが、大量のテキストではうまくいかなかったので新たに書きましたファイルからランダムにN行取り出す(shufコマンド) - 唯物是真 @Scaled_Wurm 上の記事ではテキストをランダムに\(k\)行取り出したい時"shuf -n k"コマンドでランダムにシャッフルした\(k\)行を取り出していましたところが非常に大きなテキストファイルに対して上のコマンドを実行すると、一度にデータを全部メモリに読み込み始めているのか、すごい勢いでメモリを消費していきました(sort -Rでも) そこでメモリをあまり使わずにランダムに\(k\)行取り出す方法について調べましたまず基本的な非復元抽出のアルゴリズムは以下の記事の発展手法とか追記のあたりの話がわかりやすいと思います非復元抽出の高速かつ実装が簡単な方法を考える - 睡眠不足？！この記事の話も一度全部の要素を

nhayato 2014/01/11

nlp

リンク

論文感想: "Automatically Constructing a Normalisation Dictionary for Microblogs"(EMNLP-CoNLL 2012) - 唯物是真 @Scaled_Wurm

"Automatically Constructing a Normalisation Dictionary for Microblogs" 概要 Twitterとかでの単語の正規化用の辞書を作る話。例、2morw→tomorrow 手法文脈類似度の似た、辞書にない単語(OOV)と辞書にある単語(IVのペア)を集める集めたペアを文字列的な類似度でリランキング一定の長さと頻度以上の単語のみを対象とする。文脈類似度ある単語が出てきた時に周りに出てくる単語。これが似ている単語は意味が似ていると考えられる。文脈類似度を測る時の設定窓幅(単語の周りの何個までを文脈として考えるか) n-gramのnをいくつにするかインデックス: 文脈に相対的な位置情報をつけるか IV or All: IV だけを文脈に登場した単語としてみなすかどうか品詞や構文的な情報は使っていない。類似度の測

nhayato 2013/10/04

nlp
twitter

リンク

論文感想: "Good, Great, Excellent: Global Inference of Semantic Intensities"(TACL vol.1) - 唯物是真 @Scaled_Wurm

Good, Great, Excellent: Global Inference of Semantic Intensities 図表、式は論文中から引用概要似た意味の形容詞の強弱の順序付けをするタスク例えば「寒い」「涼しい」「冷たい」「痛い」などの形容詞が与えられた時に、その強弱関係は「涼しい＜寒い＜冷たい＜痛い」ですよ、と順序付けをする話(この例は私が作った適当なもの Webコーパスから"A but not B"などのパターンに当てはまる頻度を数えて、それらを使って単語間のスコアを計算する順序付けの対象となる形容詞のクラスタは、WordNetの類義語関係などから作った単語リストを、スコアで重み付けしてグラフにして、連結成分で分割したものを使う混合整数計画法を使ってグローバルな目的関数を最適化したら良い結果が得られた感想ペアワイズな評価尺度だとアノテーター間のアグリーメント

nhayato 2013/09/07

nlp

リンク

ニコニコ動画のデータセットが公開されたらしい - 唯物是真 @Scaled_Wurm

研究用にニコニコ動画のコメント約300GBを公開‐ニコニコインフォ情報学研究データリポジトリニコニコ動画コメント等データ国立情報学研究所のダウンロードサービスでニコ動のデータセットが公開されていたので、とりあえずダウンロードしてみましたダウンロードの手順以下のページで、名前、メールアドレス、所属を入力すればよいみたいです。情報学研究データリポジトリニコニコ動画コメント等データ申請データの形式行ごとにそれぞれの動画のjsonが書かれたファイルがたくさんあります。コメントのデータもありますが、ユーザーに関する情報はないみたいです動画の説明などにはや、 などのHTMLタグが含まれていましたので、それらの除去が必要になりそうですタグの頻度なんか面白いことできないかなーと考えたんですが、何も思い浮かばなかったので、とりあえ

nhayato 2013/06/15

リンク

LIBSVMとかLIBLINEARとかのメモ - 唯物是真 @Scaled_Wurm

LIBSVM -- A Library for Support Vector MachinesとかLIBLINEAR -- A Library for Large Linear Classificationを使って二値分類の問題で遊んでいました。その時にすぐにわからなかったことのメモ。 Accuracy以外の尺度を出力する普通LIBSVMやLIBLINEARを使ってクロスバリデーションをするとAccuracyが出力されますが、二値分類においてはその他の尺度PrecisionやRecall、F値やAUCなどが見たい時があります。 LibSVMのcross validationオプションでprecision/recallを出力する - 睡眠不足？！こちらの記事ではLIBSVMでPrecisionやRecall、F値を出力させるパッチが公開されています。簡単に適用できてわかりやすいです。

nhayato 2013/02/27

リンク

"cross-validation"の訳語って何？ - 唯物是真 @Scaled_Wurm

機械学習や統計では"cross-validation"という手法が使われています。詳細は以下のURLなどを見てもらえるといいのですが「データを分割し一部()を評価用、その他()を訓練用として性能を評価する」というのを評価用か訓練用かを入れ替えて通りについて行い、その平均で性能を評価する方法です。交差検定 - Wikipedia 交差確認 - 機械学習の「朱鷺の杜Wiki」これに関してTwitterで以下のようなやりとりを見かけました。クロスバリデーションをクロバリと略すのは流行らなかった…でも、交差検定も長いし、交検じゃ貢献と同音異義語になってしまうので、4モーラで略すなら、クロバリが良さげな気がするんだけどなぁ。 2012-12-29 13:52:24 via Twitter for iPhone .@niam 交差検定はどこで使われてましたか？統計系は検定は test に当てる

nhayato 2012/12/29

リンク

集合とかベクトルの類似度の計算のメモ - 唯物是真 @Scaled_Wurm

Pythonで実装する類似度計算 - Screaming Loud #1283. 共起性の計算法 ↑この辺りの記事を見て、集合とかベクトルの類似度の計算の記事を下書きのまま放置していたことを思い出したので書き上げた。類似度の計算のコードを書いたのでそれを載せるだけにしようかと思ったのですが、知っている人にしか伝わりそうにないので自然言語処理でよく使う話の概要だけでも書いときます。導入自然言語処理の分野では単語の意味を比較するときに、ある単語の周り(文脈)に出てきた単語のベクトル(文脈ベクトル)の類似度を計算することがある。これは「ある単語の意味はその周囲に出現する単語によって特徴づけられている」という仮説に基づいていて、文脈ベクトルが似ていれば似たような意味、似たような状況で使われる単語が多いということが言えるからである。 Distributional semantics - Wi

nhayato 2012/11/30

nlp

リンク

論文感想: "Creating Stories: Social Curation of Twitter Messages"(ICWSM2012) - 唯物是真 @Scaled_Wurm

Creating Stories: Social Curation of Twitter Messages Akisato Kimura: Research Interests: Assisting social curation of Twitter messages 追記読んだ論文とリンク先の論文(4ページ)が微妙に違うっぽいというか、前に印刷したものと同じ内容の論文(8ページ)を見つけられなかった……なんで？概要自動でTogetterっぽいのを作る論文。種となるツイート集合が与えられた時に追加すべきツイートをランキングするタスクに落としこんでいる。 SVMrankを使って学習。学習に用いたFeature 種となるツイートとの単語的な類似度の和(TF, TFIDF, binary, sumBM25, のcos類似度)。種となるツイートとのハッシュタグの類似度の和種に含まれ

nhayato 2012/11/29

nlp
twitter

リンク

Project Eulerのバイオインフォマティクス版のROSALINDを始めました - 唯物是真 @Scaled_Wurm

最近時間がなくてProject Eulerを全然やっていませんでした。というか数論の知識がなくて全然解けないのでやる気が出ません。そんな時にTwitterでProject Eulerのバイオインフォマティクス版のRosalindというのがあるらしいという話を聞いたのでこの土日でやってみました。問題問題一覧を見るとわかりますが、形式はかなりProject Eulerに似ています。内容は、DNAとかRNAとかコドンとか記憶の片隅に埋もれた生物系の単語がたくさん出てきますが、基本的にはアルゴリズム、特に文字列操作などです。生物系の知識が多少必要な場合もありますが、だいたいは問題のページに書いてあります。提出方法大きな違いはGoogle Code Jamのように解答を提出するときは入力をダウンロードして時間内(5分以内)に解答、という形式になっていることです。問題の順序また前提

nhayato 2012/11/12

リンク

はてなブックマーク

タグ

ブックマーク / sucrose.hatenablog.com (10)

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第3週）

今週のはてなブックマーク数ランキング（2024年7月第2週）

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス