ブックマーク / ny23.hatenadiary.org (3)

  • 論文を Word で書く情報系の学生たち - ny23の日記

    修士の学生の論文提出・発表が先週ようやく終わった.指導していて何に一番労力を割かれたかというと,一部 Word で書かれた修士論文の体裁をチェックしなければいけなかったこと.情報系の学生が,修士論文を書く段になって Word を使うというのは,要するに,学生の間に TeX を使って論文やレポートを書く機会がほとんどなかった,と告白しているようなものである(だから TeX より手軽に取りかかれる Word を使おうとする*1).Word 指定でやむを得ない場合や,Word で人並みの体裁を備えた論文が書ける(技能がある)のなら,もちろん Word でも構わないけれど*2,今回のケースはそうではなかった. だいたい,自分の経験から言えば,論文の体裁とその内容は比例関係にあって,特段理由もなく Word を使って体裁も整っていないような論文は,悪いけど(失礼だけど),まあ,内容の仕上りもそんなも

    論文を Word で書く情報系の学生たち - ny23の日記
  • 専門分野外の論文を査読する - ny23の日記

    先週は,今年の研究が始められていないのを不安に感じつつ,査読をやっていた.ここ数年は,一年辺り,ジャーナルが5,国際会議が10-20ぐらいの分量.数的にはさほど多くはないと思うのだけど,査読する論文のほとんど(80%ぐらい?)が自分の専門分野外のため,一の査読にも最低半日はかかる(関連論文まで確認しだすと数日かかる).専門分野の査読だと,過去に5とか7とか回ってきたときでも,一日かそこらで終った記憶があるので,この差は非常に大きい(ここで言う専門分野の会議とは,自分が論文を出したことがある会議だけでなく,普段論文を読むだけ周辺分野の会議も含む; 過去査読した専門分野外の論文は例えば,P2P framework, image mining, social annotaion, PSO など).専門外の論文の査読コストは専門分野の査読コストの数倍ぐらい,と考えると,専門分野の査読を5

    専門分野外の論文を査読する - ny23の日記
  • 大規模データで単語の数を数える - ny23の日記

    大規模データから one-pass で item(n-gram など)の頻度を数える手法に関するメモ.ここ数年,毎年のように超大規模な n-gram の統計情報を空間/時間効率良く利用するための手法が提案されている.最近だと, Storing the Web in Memory: Space Efficient Language Models with Constant Time Retrieval (EMNLP 2010) とか.この論文では,最小完全ハッシュ関数や power-law を考慮した頻度表現の圧縮など,細かい技術を丁寧に組み上げており,これぐらい工夫が細かくなってくるとlog-frequency Bloom filter (ACL 2007) ぐらいからから始まった n-gram 頻度情報の圧縮の研究もそろそろ収束したかという印象(ちょうど論文を読む直前に,この論文の7節の

    大規模データで単語の数を数える - ny23の日記
  • 1