ブックマーク / www.yasuhisay.info (65)

  • タスクに合わせたトークナイザ、単語分割に関連したポエム - yasuhisa's blog

    ポエムを適当に書きます。2立て。週末のノリなので、適当です。 Sentencepieceの紹介記事を読んだ 文書分類でneologdとmecabを比較した まとめ Sentencepieceの紹介記事を読んだ ニューラル言語処理向けトークナイザのSentencepieceについて書かれた紹介記事を読みました。 自分用の要約すると ニューラル言語処理では語彙数が大きくなると扱いにくい 単語をサブワードに分割できるものは分割して、語彙数を制限する(数千から数万)方法がよく使われる 尤度を最大にするエントロピー圧縮の一部と見なせる スペースもメタ文字に置き換えて生文をわせることにより、detokenizeが言語によらず簡単になる 翻訳等のタスクで助かる! こういうのが必要なくなる 単語分割されたものからさらに分割するわけではなく、生文からやるために計算量オーダーの削減が行なわれている 従来の

    タスクに合わせたトークナイザ、単語分割に関連したポエム - yasuhisa's blog
    yag_ays
    yag_ays 2017/04/10
  • 不定期ML&NLP報#4 - yasuhisa's blog

    最近の機械学習&自然言語処理に関する情報をまとめるコーナーです。前回はこちら。このエントリ忘れてるよというのがありましたら、たれこみフォームから教えてもらえるとうれしいです。 論文 ブログ/勉強会資料 ビジネス 学会/勉強会 NIPS読み会 Kaggle Tokyo Meetup #2 全脳アーキテクチャ若手の会 AAAI2017 その他 論文 [1701.07875] Wasserstein GAN GANを含む生成系のタスクは難しいことが知られているが、学習時に使う距離をWasserstein距離というものを使うと学習が安定したという話 ブログ/勉強会資料 論文メモ: Linguistic Benchmarks of Online News Article Quality - skozawa's blog オンラインニュースの質を測れるかを検討した論文のメモ Using Machine

    不定期ML&NLP報#4 - yasuhisa's blog
    yag_ays
    yag_ays 2017/02/21
  • 不定期ML&NLP報#2 - yasuhisa's blog

    最近の機械学習&自然言語処理に関する情報をまとめるコーナーです。今回は医療品設計やセキュリティなど、自分があまり知らなかった分野での機械学習適用事例が多く、勉強になるものが多かったです。前回はこちら。 このエントリ忘れてるよというのがありましたら、たれこみフォームから教えてもらえるとうれしいです。 論文 ブログ/勉強会資料 ビジネス 学会/勉強会 NIPS2016 その他 データセット 論文 [1612.03242] StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks テキスト(キャプション)からの画像生成系のタスクでGAN(Generative Adversarial Networks)がよく使われているが、GANを多段にする(最初は荒い画像を作って、

    不定期ML&NLP報#2 - yasuhisa's blog
    yag_ays
    yag_ays 2016/12/15
  • 不定期ML&NLP報#1 - yasuhisa's blog

    先日、社内で定期的に行なわれているフロントエンド会にお邪魔してきました(podcastが配信されています)。jser.infoというサイトを参照しながら雑談していたのですが、最近のフロントエンドの動向を知るという目的にはこのサイトなかなかよさそうでした。 機械学習勉強会でもランチタイムに最近の話題を見ながら雑談しているのですが、ネタになるエントリ一覧とそれに対するコメントは社外に公開して別に問題ないなと思ったので、不定期報という形で出してみることにしました。自然言語処理も自分がカバーできる範囲限られているし、自然言語処理以外の機械学習の話はかなりカバーできないので、たれこみフォームも作りました。耳寄りな情報、お待ちしております:) 不定期ML&NLP報 たれこみフォーム 論文 ブログ/勉強会資料 ビジネス 学会/勉強会 Coling2016 NIPS2016 NL研(第229回自然言語処理

    不定期ML&NLP報#1 - yasuhisa's blog
    yag_ays
    yag_ays 2016/12/12
  • nasneの残量やGoogle Analyticsの情報をMackerelに監視させよう - yasuhisa's blog

    Mackerelアドベントカレンダー6日目です。昨日はid:buty4649さんによるmackerelメタデータでパッケージ一覧を管理するCLIツールを作ったでした。 こんにちは、株式会社はてなでアプリケーションエンジニアをやっているid:syou6162です。10月にMackerelチームにjoinしました。今回は生活に関するあれこれをMackerelに監視させると便利!という軽い話を紹介します。 nasneの残量やjenkinsのjobの成功/失敗数をカスタムメトリックとして投稿/監視 Google Analyticsのユーザー数をサービスメトリックとして投稿/監視 機械学習の分類器の性能をサービスメトリックとして投稿/監視 まとめ 参考情報 nasneの残量やjenkinsのjobの成功/失敗数をカスタムメトリックとして投稿/監視 私はライフログを集めるのが好きで、twitterの発

    nasneの残量やGoogle Analyticsの情報をMackerelに監視させよう - yasuhisa's blog
    yag_ays
    yag_ays 2016/12/06
  • 自然言語処理の深層学習において転移学習はうまく行くのか? - yasuhisa's blog

    このエントリはDeep Learning Advent Calendar 2016 5日目のエントリです。EMNLP2016に出ていたHow Transferable are Neural Networks in NLP Applications?を読んだので、それについて書きます。 [1603.06111] How Transferable are Neural Networks in NLP Applications? モチベーション 画像方面では、あるタスク(source side)で学習させた深層学習の結果を、別データセット(target side)でソフトマックス層だけ再学習させる転移学習(Transfer Learning)がうまくいっていると報告されています。 [1311.2901] Visualizing and Understanding Convolutional Ne

    自然言語処理の深層学習において転移学習はうまく行くのか? - yasuhisa's blog
    yag_ays
    yag_ays 2016/12/05
  • Google機械翻訳の仕組み&できるようになったこと/まだ難しいことについて、社内の機械学習勉強会で説明します - yasuhisa's blog

    社内の機械学習勉強会で最近話題になった機械学習関連のエントリを取り上げているのですが、ここ一ヶ月ではGoogle Neural Machine Translation(GNMT)がとても話題になっていました。GNMTで使われているEncoder-Decoderやattentionのような仕組みを直近で使う予定は特にはないですが、機械学習を使うエンジニアとして知っておいて損はないし、技術的に何が変わったことにより何ができるようになって、何はまだできないのかを知ろう、というのが目的です。技術的な項目は興味ない人も多そうなので、最後に持っていきました。 Google Neural Machine Translation(GNMT)の最近の進化について できるようになったこと 定量的な評価 まだまだ難しいこと 技術的な詳細 Encoder-decoder Attention based encod

    Google機械翻訳の仕組み&できるようになったこと/まだ難しいことについて、社内の機械学習勉強会で説明します - yasuhisa's blog
    yag_ays
    yag_ays 2016/11/24
  • 機械学習をプロダクトに入れる際に考える採用基準について - yasuhisa's blog

    サービスに機械学習技術(例えばSVM)を入れる際に、「この機械学習技術番サービスに投入しても大丈夫なものか?」を考える基準がまとまっていると人に説明するときに便利だなとふと思ったのでまとめてみました。散々言われ尽くされている話だとは思います。 前提 考慮に入る採用基準 予測精度 (コードの)メンテナンスの容易性 計算オーダー 学習時 予測時 挙動のコントロールのしやすさ/予測説明性の容易さ チューニングの必要性 その他 まとめ 前提 機械学習がプロダクトの主要な武器になる(例えば最近話題になっているGoogle翻訳におけるNMT)ものではなく、サービスにデータがまずあり、機械学習でデータを活用することにより、そのサービスを支えていくようなものを前提に考えています(例えばCGMサービスのスパム判定)。また、投稿内容は私個人の意見であり、所属組織を代表するものではありませんとお断りしておき

    機械学習をプロダクトに入れる際に考える採用基準について - yasuhisa's blog
    yag_ays
    yag_ays 2016/11/21
  • 所属チームが変わったので色々勉強を始めた - yasuhisa's blog

    最近の勉強ネタの続き。 最近所属チームがブックマークチームからMackerelチームへ変わったので、新しく必要になったことをを読んだり小さめのコードを書いてざっと勉強した。技術スタックがかなり変わったので、勉強してキャッチアップする必要がある。もう少し前に勉強しておけという話ではある...。 Scala サーバーサイドの大部分はScalaで書かれているので、Scalaを勉強。ScalaPerlと相当違うので勉強するのが大変な言語ではあるが、はてなの教科書を使って勉強したので大分やりやすかった。教科書がなかったら導入は結構厳しかったと思う。インターン生も作るIntern Diaryみたいなサンプルプロジェクトを作りながら学習を進めた。 hatena/Hatena-Textbook: はてな研修用教科書 OptionやEitherといった型はまだまだ慣れないが、慣れてくるとだんだんとうまみ

    所属チームが変わったので色々勉強を始めた - yasuhisa's blog
    yag_ays
    yag_ays 2016/10/13
  • 実タスクで能動学習を試してみた - yasuhisa's blog

    実タスクで簡単な能動学習を試してみました。結論としては、1200件で到達できる精度に400件程度のアノテーションでも到達でき、それによりアノテーションに要する時間をかなり削減できそうということが分かりました*1。今後、アノテーションを必要とする機械学習タスクをやる際には能動学習で一手間かけるのを検討してみようと思います。 能動学習をする動機 ここしばらく仕事のタスクで機械学習の教師用のデータをアノテーションをする機会がありました。機械学習する上で、1000件程度は学習データ欲しいという想定でポチポチとアノテーションをしていました。一人1時間で大体100件くらいのデータが作れるようなタスクでしたが、1000件アノテーションするには約10時間の作業工程が必要です。アノテーション自体よりはコードを書いたり実験するのが好きな人間なので、5時間くらいずっとアノテーションしていると疲労します。同じ精度

    実タスクで能動学習を試してみた - yasuhisa's blog
    yag_ays
    yag_ays 2016/10/11
  • はてな社内の勉強会で構造学習について発表しました - yasuhisa's blog

    先週末、はてな社内の勉強会で構造学習、特に実装が簡単な構造化パーセプトロンについて発表しました。発表資料と説明用にサンプルで書いたPerlの品詞タグ付けのコードへのリンクを張っておきます。 今日からできる構造学習(主に構造化パーセプトロンについて) from syou6162 structured_perceptron/structured_perceptron.pl at master · syou6162/structured_perceptron 「えっ、Perlかよ」という人がいるといけないので、Clojureで構造化パーセプトロンを使った係り受け解析のサンプルコードへのリンクも張っておきます(2種類あります)。PerlもClojureもあれば8割くらいの人はカバーできそうなので、安心ですね。 syou6162/simple_shift_reduce_parsing syou616

    はてな社内の勉強会で構造学習について発表しました - yasuhisa's blog
    yag_ays
    yag_ays 2016/06/27
  • 伊吹山に登りました - yasuhisa's blog

    会社の山部の人に誘われて伊吹山に週末登ってきました。滋賀県にある山で標高は1300メートルくらい。初心者向けの山らしいですが、帰宅したときにはクタクタでした。しかし、頂上まできたときの達成感、眺め、下山後のご飯のうまさなどなどかなり満喫したように思います。機会があればまた行きたいなー。 明日の登山用の Instagram 五合目 避難小屋 七合目 人力で勾配登ってる ゴール!

    伊吹山に登りました - yasuhisa's blog
    yag_ays
    yag_ays 2016/06/13
  • 大きなプロダクトを作っているチームに配属された間もない時期に、どうやったら早くコードを読み書きできるようになるか? - yasuhisa's blog

    前提: 配属の前は一人でスクラッチから書くことがほとんど。チームでコードを書くという経験はあまりない はてなのシステムはコードが大変大きくなっているため、チーム配属後、コードの読み書きをいかに正確に早くできるかが自分の直近の課題だと思っています。「こういう風にすればうまくいきそう」というのを試行錯誤していることをまとめてみました。もっといいやり方があれば、是非コメントで教えて欲しいです。主にサーバーエンドでPerlが対象です。 PerlのWebシステムによくあるディレクトリ構成を知る 今やるタスクはMVCでいうところのどこを修正すべきタスクなのか、どのディレクトリがどの役割を担っているのか プロジェクトのルートディレクトリからlsでてきとーに探してlessでてきとーに見る、というのでは(当然)当たりは付かない git grepなどを使い、効率よく探す テストコードを動かす Perlのコード

    大きなプロダクトを作っているチームに配属された間もない時期に、どうやったら早くコードを読み書きできるようになるか? - yasuhisa's blog
    yag_ays
    yag_ays 2016/04/20
  • NTT CS研を退職して、株式会社はてなに入社しました - yasuhisa's blog

    エイプリルフールも一段落したので、退職&入社エントリを書こうと思います。 これまで 3/31付けで前職のNTT CS研を退職しました。CS研には(インターン期間も含め)4年間お世話になりました。 CS研はとても研究する上でよい環境 CS研は研究をする上でかなりよい環境であったと思っていて 世界で活躍しているトップの研究者がわらわらいて、日々ディスカッションできる (全くないわけではないですが)雑用が少なく、研究に集中できる 研究をする上で必要なリソース(計算機、データなど)が十分にある 足りないものやデータ等を新しく作りたい場合は、上長をちゃんと説得すればお金をかけて作ることができる 自然言語処理の研究をする上でかなり重要 などなど、とても研究しやすい環境です。AAAIEMNLP、CoNLLなどに行くことができたのもこうしたCS研の環境なしではありえなかったと思います。ここで4年間働けた

    NTT CS研を退職して、株式会社はてなに入社しました - yasuhisa's blog
    yag_ays
    yag_ays 2016/04/03
  • 仲間内で週報を始めた - yasuhisa's blog

    rebuild.fmを毎週聞いているんだけど、1月末くらいに週報の話が出た。 Rebuild: Aftershow 127: Reading Exercise (omo) 週報仲間 — To Phantasien — Medium その週何をしていたかや、どんなことに興味を持ったなどが分かると面白いかなと思ったし、他の人が頑張ってたのを見ると自分もやるかという気持ちになる(と思われる)。そういうわけで、4人くらいの仲間内でやっているslackで、専用のchannelを切って週報共有を始めた。 自分が書いている内容 私の場合、週報というより日報が7日分並んでいるテンプレートになっているが、書いている割合として多い内容は、以下の通り。 ライフログ収集スクリプトに関して 便利だったスクリプトやソフトウェアに関して 最近だとmagitを使い始めた話とか。今さら感は否めないけど... 面白そうな研究

    仲間内で週報を始めた - yasuhisa's blog
    yag_ays
    yag_ays 2016/02/18
  • 今年よかった習慣: ライフログ収集および可視化 - yasuhisa's blog

    データを眺めるのが好き 収集している情報 実現方法 データから分かった知見(?) 今後 年末なので、今年買ってよかったものに引き続き、今年やってみてよかった習慣について書いてみたいと思います。 データを眺めるのが好き 昔からデータを眺めるのは好きだったんですが、今年の5月くらいから自分に関するデータをとにかく収集してみました。可視化することで何か有益な視点だったり、生活の改善点が見つかるのではないか、という目的です。色んなデータを集めまくった結果、以下のようなグラフができあがります。ちょっと画像が小さいですが、毎日の歩いた歩数や体重、気温、録画した番組名、自宅マシンの負荷状況などが載っています。 収集している情報 上の画像ではとりあえずBlogに上げれるようなデータしか見せていないですが、収集している情報としては以下のようなものがあります。使用しているスクリプトで公開できるものはgithu

    今年よかった習慣: ライフログ収集および可視化 - yasuhisa's blog
    yag_ays
    yag_ays 2015/12/21
  • 今年(2015年)買ってよかったもの - yasuhisa's blog

    今週のお題「今年買って良かったモノ」 ルンバ 机の下とかタンスの奥とか入り込んでゴミ吸ってきてくれるの偉い 同じところをグルグルしてたり頭あまりよくないように思うけど、出勤前にスイッチを入れておけば時間がかかっても特に問題ではない 行って欲しくないところにはvirtual wallというのを置くと行かないようにできる ときどきルンバの中を掃除するとホコリの山でどん引きする... 目覚まし時計を引っくり返していったり、コードに絡まって動けなくなったりするので、その辺は注意が必要 Pebble 前から持っていたけど(Pebble Steel)、新しく出たPebble Time Steel(PTS)を購入 PTSになってカラーになったのと、バッテリの持ちが若干よくなっている。カラーでなくともいいやと思っていたけれど、実際使って見るとカラーのほうが見やすくなったアプリやwatchfaceなどがある

    今年(2015年)買ってよかったもの - yasuhisa's blog
    yag_ays
    yag_ays 2015/11/16
  • Berkeley Parserの解析失敗について - yasuhisa's blog

    最近、構文解析器をよく使っているんだけど、public availableな構文解析器の中で精度が高いBerkeley Parserを使っていた(Stanford ParserがF値で85%くらいで、Berkeley ParserはF値で89%くらい)。Javaでできているので、Clojureから触るには何かと便利。 ただ、時々Berkeley Parserは解析失敗で落ちるので困る。未知語が入っていると落ちるのかと思ったが、そういうわけでもなく学習データに入っていない未知のルールだったり、ルールがpruningされてしまったりすると解析失敗で落ちてしまうらしい。pruningで落ちてしまうものに関しては-accurateオプションを付けることで閾値を変えてなるべくpruningで落ちないようにすることもできるが、やはり完全に防ぐことは難しいようだ(Stanford Parserはアホでも

    Berkeley Parserの解析失敗について - yasuhisa's blog
    yag_ays
    yag_ays 2015/09/27
  • 論文100本ノックの感想&独断と偏見に満ち溢れた今年読んだ中で面白かった論文紹介 - yasuhisa's blog

    100いってないじゃん!! いつまで高見の見物してるんですか??? 目を通してるConference その他 LDA関係 LDA自体について LDAをベースにした応用モデル 形態素解析、分かち書き ノンパラベイズ その他 クラスタリング 最適化 教師なし学習 今年の1月1日から始めた論文100ノックですが、年末ギリギリだと書けるか分からなくなりそうなので、そろそろ振り替えります。3月くらいまでは読んだ論文の一覧を2010/12/31の日記のところに書いてたんですが、研究室localな勉強会で紹介された論文は(OKが出ないと)外で書けないという都合があったので削除しましたが、プライベートはてなグループのほうで続いています。12/7現在で76だそうです。数のペースは以下のグラフで(実は)公開されています。 2月から3月がほとんど止まってますが、論文読むというよりディリクレ過程の勉強とか

    yag_ays
    yag_ays 2015/03/21
  • 就活所感 - yasuhisa's blog

    一段落したので、考えたこととか感じたことを書いてみようと思います。僕自身は理系院生企業研究所志望でした、と前置きしておく。受けた企業の数的には相当少ない*1し、「就職氷河期ってこと知ってんのか?」って感じですので、あんまり真に受けないほうがいいかもしれません。 譲れないこと価値基準なんて人それぞれ。だから何を大事にしてるかなんて人によって違うけど、(就活に限らずだと思いますが)大切にしたいものは変に譲らないほうがいいと思う。自分の場合はそれがこういうことだった。 www.yasuhisay.info 結局ここは譲らずに行けそうなので、今後も精進したいと思います。 メリット => プレゼンテーション能力一社辺り2-4回くらい面接(とES)があるとして、自分の研究ややってきたことについて説明する機会がある。僕の場合は夏のNTT CS研でやったインターンのことをまとめて年次大会(論文、スライド)

    就活所感 - yasuhisa's blog
    yag_ays
    yag_ays 2014/01/30