タグ

ブックマーク / ny23.hatenadiary.org (6)

  • 論文を Word で書く情報系の学生たち - ny23の日記

    修士の学生の論文提出・発表が先週ようやく終わった.指導していて何に一番労力を割かれたかというと,一部 Word で書かれた修士論文の体裁をチェックしなければいけなかったこと.情報系の学生が,修士論文を書く段になって Word を使うというのは,要するに,学生の間に TeX を使って論文やレポートを書く機会がほとんどなかった,と告白しているようなものである(だから TeX より手軽に取りかかれる Word を使おうとする*1).Word 指定でやむを得ない場合や,Word で人並みの体裁を備えた論文が書ける(技能がある)のなら,もちろん Word でも構わないけれど*2,今回のケースはそうではなかった. だいたい,自分の経験から言えば,論文の体裁とその内容は比例関係にあって,特段理由もなく Word を使って体裁も整っていないような論文は,悪いけど(失礼だけど),まあ,内容の仕上りもそんなも

    論文を Word で書く情報系の学生たち - ny23の日記
  • 可視化系の国際会議に共著論文が通った - ny23の日記

    第二著者としてかなりコミットしていたビジュアル(可視化)系の共著論文が,採択率 1/3 ぐらいの国際会議に採録された.11月の湯治中に最初の採否の通知が来たのだけど,国際会議にも関わらず条件付き採録という結果だった.結果が来るのは知っていたものの(まさか国際会議で条件付き採録とは予想できず)湯治中だったので迷惑をかけてしまったが,第一著者を中心にせっせと直して(自分も途中から参加して)先月末に再投稿した.それから一週間,改めて採否の結果が来て,ようやく採録となった.今回の研究はそもそもネタを持ち込んだのが自分なので,無事通ってくれてほっとした.採録されたのは可視化系の国際会議なので,自分の専門分野の研究者にはほとんど知られることは無いかも知れない.折角なので,少しこの研究のことなどを書いてみる. 今回の研究は,大規模データ(個人的な感覚では中規模ぐらい)を,文ではなく構文解析した結果の可視

    可視化系の国際会議に共著論文が通った - ny23の日記
    Itisango
    Itisango 2011/12/06
  • 論文が簡単に採録されるのも複雑な気分 - ny23の日記

    震災の一ヶ月後に投稿した論文が某国内論文誌(英文)の特集号に採録された.六月上旬に第一回判定結果が来ると聞いていたが何の連絡もなく,いつ連絡が来るのかと内心心配していたが,今日ひと月遅れで結果の通知が来て,ごく軽微な修正のみ(タイポと表の体裁の改善)の照会なし採録だった.最終原稿の提出は10月と聞いていたが,来週には締切りとのこと.ずいぶん早いなぁ. 論文が採録されたこと自体はもちろん喜ばしいことなのだけど,少し物足りない感じがするのは,第一査読者,第二査読者,メタ査読者共,査読のコメントが 2-3 文(3行程度)しかなかったこと(軽微な修正に関する指摘を除く).二流国際会議やワークショップの査読ならともかく,論文誌の査読コメントって,こんなにもシンプルで良いのだろうか.投稿したのは自分も査読したことがある国内論文誌だが,自分は(この論文誌に限らず)論文誌の査読では最低でも30行以上はコメ

    論文が簡単に採録されるのも複雑な気分 - ny23の日記
    Itisango
    Itisango 2011/07/13
    論文が簡単に採録されるのも複雑な気分
  • 車輪の再発明は避けるべき,を実感 - ny23の日記

    ここ最近,Percy Liang の Brown クラスタリングの実装を使って単語クラスタリングしていたのだけど,感覚的に実行速度が遅いと感じたので,これぐらい簡単なアルゴリズムなら再実装しても良いかと思って,以下の原著を見ながら C++ で実装してみた. Class-based n-gram models of natural language (Computational Linguistics, 1992) 単純なだけに300行ぐらいで実装できたが,相互情報量の損失の計算をサボるところが少し面倒で,既存実装と結果が一致するまでに丸一日かかった*1. 自分の実装と既存実装の処理速度を比べたところ 5-10 倍ぐらい速くなっており(大規模データを扱う場合には実行速度が 2 倍違うだけでも致命的なので)再実装して良かったと一瞬ぬか喜びしたのだけど,同じ C++ で同じアルゴリズムを実装して

    車輪の再発明は避けるべき,を実感 - ny23の日記
  • 機械学習 × MapReduce - ny23の日記

    個人的な興味というより,雑用絡みで眺めた論文の紹介.機械学習アルゴリズムを並列分散化するという話が最近流行っているようだ.全然網羅的ではないけど,誰かの役に立つかも知れないので,幾つかメモしておく.まず古典的にはこれ, Map-reduce for machine learning on multicore (NIPS 2006) 古典的な機械学習アルゴリズム(バッチ学習)の多くは,Statistical Query Model で記述できて,それらは summation form で記述できる (から,MapReduce で並列化できる).実装は Mahout.ただ最近は,バッチアルゴリズムで解ける問題には多くの場合対応するオンラインアルゴリズムが提案されていて,バッチアルゴリズムを並列化することのメリットはあまり無い.オンラインアルゴリズムだとパラメタが連続的に更新されるので,MapR

    機械学習 × MapReduce - ny23の日記
    Itisango
    Itisango 2010/10/01
  • 追記: sort を使うときは,LC_ALL=C を忘れずに - ny23の日記

    > wc --lines unigram_raw.txt 290768333 unigram_raw.txtそもそも,たかだか3億要素,1.7Gのデータのソートに,最近のマシンで sort | uniq -c が858分もかかるのは変ですよね. > export LC_ALL=C > time sort -S 2G unigram_raw.txt | uniq -c > tmp.sort.uniq sort -S 2G unigram_raw.txt 389.93s user 16.32s system 99% cpu 6:49.61 total uniq -c > tmp.sort.uniq 15.40s user 1.56s system 4% cpu 6:49.62 totalIntel Xeon E5462 (3.2Ghz) が Dual Core AMD Opteron 1210

    追記: sort を使うときは,LC_ALL=C を忘れずに - ny23の日記
  • 1