yag_aysのブックマーク - はてなブックマーク

タスクに合わせたトークナイザ、単語分割に関連したポエム - yasuhisa's blog

ポエムを適当に書きます。2本立て。週末のノリなので、適当です。 Sentencepieceの紹介記事を読んだ文書分類でneologdとmecabを比較したまとめ Sentencepieceの紹介記事を読んだニューラル言語処理向けトークナイザのSentencepieceについて書かれた紹介記事を読みました。自分用の要約するとニューラル言語処理では語彙数が大きくなると扱いにくい単語をサブワードに分割できるものは分割して、語彙数を制限する(数千から数万)方法がよく使われる尤度を最大にするエントロピー圧縮の一部と見なせるスペースもメタ文字に置き換えて生文を食わせることにより、detokenizeが言語によらず簡単になる翻訳等のタスクで助かる! こういうのが必要なくなる単語分割されたものからさらに分割するわけではなく、生文からやるために計算量オーダーの削減が行なわれている従来の

yag_ays 2017/04/10

リンク

不定期ML&NLP報#4 - yasuhisa's blog

最近の機械学習&自然言語処理に関する情報をまとめるコーナーです。前回はこちら。このエントリ忘れてるよというのがありましたら、たれこみフォームから教えてもらえるとうれしいです。論文ブログ/勉強会資料ビジネス学会/勉強会 NIPS読み会 Kaggle Tokyo Meetup #2 全脳アーキテクチャ若手の会 AAAI2017 その他論文 [1701.07875] Wasserstein GAN GANを含む生成系のタスクは難しいことが知られているが、学習時に使う距離をWasserstein距離というものを使うと学習が安定したという話ブログ/勉強会資料論文メモ: Linguistic Benchmarks of Online News Article Quality - skozawa's blog オンラインニュースの質を測れるかを検討した論文のメモ Using Machine

yag_ays 2017/02/21

リンク

不定期ML&NLP報#2 - yasuhisa's blog

最近の機械学習&自然言語処理に関する情報をまとめるコーナーです。今回は医療品設計やセキュリティなど、自分があまり知らなかった分野での機械学習適用事例が多く、勉強になるものが多かったです。前回はこちら。このエントリ忘れてるよというのがありましたら、たれこみフォームから教えてもらえるとうれしいです。論文ブログ/勉強会資料ビジネス学会/勉強会 NIPS2016 その他データセット論文 [1612.03242] StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks テキスト(キャプション)からの画像生成系のタスクでGAN(Generative Adversarial Networks)がよく使われているが、GANを多段にする(最初は荒い画像を作って、

yag_ays 2016/12/15

リンク

不定期ML&NLP報#1 - yasuhisa's blog

先日、社内で定期的に行なわれているフロントエンド会にお邪魔してきました(podcastが配信されています)。jser.infoというサイトを参照しながら雑談していたのですが、最近のフロントエンドの動向を知るという目的にはこのサイトなかなかよさそうでした。機械学習勉強会でもランチタイムに最近の話題を見ながら雑談しているのですが、ネタになるエントリ一覧とそれに対するコメントは社外に公開して別に問題ないなと思ったので、不定期報という形で出してみることにしました。自然言語処理も自分がカバーできる範囲限られているし、自然言語処理以外の機械学習の話はかなりカバーできないので、たれこみフォームも作りました。耳寄りな情報、お待ちしております:) 不定期ML&NLP報たれこみフォーム論文ブログ/勉強会資料ビジネス学会/勉強会 Coling2016 NIPS2016 NL研(第229回自然言語処理

yag_ays 2016/12/12

リンク

nasneの残量やGoogle Analyticsの情報をMackerelに監視させよう - yasuhisa's blog

Mackerelアドベントカレンダー6日目です。昨日はid:buty4649さんによるmackerelメタデータでパッケージ一覧を管理するCLIツールを作ったでした。こんにちは、株式会社はてなでアプリケーションエンジニアをやっているid:syou6162です。10月にMackerelチームにjoinしました。今回は生活に関するあれこれをMackerelに監視させると便利!という軽い話を紹介します。 nasneの残量やjenkinsのjobの成功/失敗数をカスタムメトリックとして投稿/監視 Google Analyticsのユーザー数をサービスメトリックとして投稿/監視機械学習の分類器の性能をサービスメトリックとして投稿/監視まとめ参考情報 nasneの残量やjenkinsのjobの成功/失敗数をカスタムメトリックとして投稿/監視私はライフログを集めるのが好きで、twitterの発

yag_ays 2016/12/06

リンク

自然言語処理の深層学習において転移学習はうまく行くのか? - yasuhisa's blog

このエントリはDeep Learning Advent Calendar 2016 5日目のエントリです。EM NLP2016に出ていたHow Transferable are Neural Networks in NLP Applications?を読んだので、それについて書きます。 [1603.06111] How Transferable are Neural Networks in NLP Applications? モチベーション画像方面では、あるタスク(source side)で学習させた深層学習の結果を、別データセット(target side)でソフトマックス層だけ再学習させる転移学習(Transfer Learning)がうまくいっていると報告されています。 [1311.2901] Visualizing and Understanding Convolutional Ne

yag_ays 2016/12/05

リンク

Google機械翻訳の仕組み&できるようになったこと/まだ難しいことについて、社内の機械学習勉強会で説明します - yasuhisa's blog

社内の機械学習勉強会で最近話題になった機械学習関連のエントリを取り上げているのですが、ここ一ヶ月ではGoogle Neural Machine Translation(GNMT)がとても話題になっていました。GNMTで使われているEncoder-Decoderやattentionのような仕組みを直近で使う予定は特にはないですが、機械学習を使うエンジニアとして知っておいて損はないし、技術的に何が変わったことにより何ができるようになって、何はまだできないのかを知ろう、というのが目的です。技術的な項目は興味ない人も多そうなので、最後に持っていきました。 Google Neural Machine Translation(GNMT)の最近の進化についてできるようになったこと定量的な評価まだまだ難しいこと技術的な詳細 Encoder-decoder Attention based encod

yag_ays 2016/11/24

リンク

機械学習をプロダクトに入れる際に考える採用基準について - yasuhisa's blog

サービスに機械学習技術(例えばSVM)を入れる際に、「この機械学習技術は本番サービスに投入しても大丈夫なものか?」を考える基準がまとまっていると人に説明するときに便利だなとふと思ったのでまとめてみました。散々言われ尽くされている話だとは思います。前提考慮に入る採用基準予測精度 (コードの)メンテナンスの容易性計算オーダー学習時予測時挙動のコントロールのしやすさ/予測説明性の容易さチューニングの必要性その他まとめ前提機械学習がプロダクトの主要な武器になる(例えば最近話題になっているGoogle翻訳におけるNMT)ものではなく、サービスにデータがまずあり、機械学習でデータを活用することにより、そのサービスを支えていくようなものを前提に考えています(例えばCGMサービスのスパム判定)。また、投稿内容は私個人の意見であり、所属組織を代表するものではありませんとお断りしておき

yag_ays 2016/11/21

リンク

所属チームが変わったので色々勉強を始めた - yasuhisa's blog

最近の勉強ネタの続き。最近所属チームがブックマークチームからMackerelチームへ変わったので、新しく必要になったことを本を読んだり小さめのコードを書いてざっと勉強した。技術スタックがかなり変わったので、勉強してキャッチアップする必要がある。もう少し前に勉強しておけという話ではある...。 Scala サーバーサイドの大部分はScalaで書かれているので、Scalaを勉強。ScalaはPerlと相当違うので勉強するのが大変な言語ではあるが、はてなの教科書を使って勉強したので大分やりやすかった。教科書がなかったら導入は結構厳しかったと思う。インターン生も作るIntern Diaryみたいなサンプルプロジェクトを作りながら学習を進めた。 hatena/Hatena-Textbook: はてな研修用教科書 OptionやEitherといった型はまだまだ慣れないが、慣れてくるとだんだんとうまみ

yag_ays 2016/10/13

リンク

実タスクで能動学習を試してみた - yasuhisa's blog

実タスクで簡単な能動学習を試してみました。結論としては、1200件で到達できる精度に400件程度のアノテーションでも到達でき、それによりアノテーションに要する時間をかなり削減できそうということが分かりました*1。今後、アノテーションを必要とする機械学習タスクをやる際には能動学習で一手間かけるのを検討してみようと思います。能動学習をする動機ここしばらく仕事のタスクで機械学習の教師用のデータをアノテーションをする機会がありました。機械学習する上で、1000件程度は学習データ欲しいという想定でポチポチとアノテーションをしていました。一人1時間で大体100件くらいのデータが作れるようなタスクでしたが、1000件アノテーションするには約10時間の作業工程が必要です。アノテーション自体よりはコードを書いたり実験するのが好きな人間なので、5時間くらいずっとアノテーションしていると疲労します。同じ精度

yag_ays 2016/10/11

リンク

はてな社内の勉強会で構造学習について発表しました - yasuhisa's blog

先週末、はてな社内の勉強会で構造学習、特に実装が簡単な構造化パーセプトロンについて発表しました。発表資料と説明用にサンプルで書いたPerlの品詞タグ付けのコードへのリンクを張っておきます。今日からできる構造学習(主に構造化パーセプトロンについて) from syou6162 structured_perceptron/structured_perceptron.pl at master · syou6162/structured_perceptron 「えっ、Perlかよ」という人がいるといけないので、Clojureで構造化パーセプトロンを使った係り受け解析のサンプルコードへのリンクも張っておきます(2種類あります)。PerlもClojureもあれば8割くらいの人はカバーできそうなので、安心ですね。 syou6162/simple_shift_reduce_parsing syou616

yag_ays 2016/06/27

リンク

伊吹山に登りました - yasuhisa's blog

会社の山部の人に誘われて伊吹山に週末登ってきました。滋賀県にある山で標高は1300メートルくらい。初心者向けの山らしいですが、帰宅したときにはクタクタでした。しかし、頂上まできたときの達成感、眺め、下山後のご飯のうまさなどなどかなり満喫したように思います。機会があればまた行きたいなー。明日の登山用の靴 Instagram 五合目避難小屋七合目人力で勾配登ってるゴール！

yag_ays 2016/06/13

リンク

大きなプロダクトを作っているチームに配属された間もない時期に、どうやったら早くコードを読み書きできるようになるか? - yasuhisa's blog

前提: 配属の前は一人でスクラッチから書くことがほとんど。チームでコードを書くという経験はあまりないはてなのシステムはコードが大変大きくなっているため、チーム配属後、コードの読み書きをいかに正確に早くできるかが自分の直近の課題だと思っています。「こういう風にすればうまくいきそう」というのを試行錯誤していることをまとめてみました。もっといいやり方があれば、是非コメントで教えて欲しいです。主にサーバーエンドでPerlが対象です。 PerlのWebシステムによくあるディレクトリ構成を知る今やるタスクはMVCでいうところのどこを修正すべきタスクなのか、どのディレクトリがどの役割を担っているのかプロジェクトのルートディレクトリからlsでてきとーに探してlessでてきとーに見る、というのでは(当然)当たりは付かない git grepなどを使い、効率よく探すテストコードを動かす Perlのコード

yag_ays 2016/04/20

リンク

NTT CS研を退職して、株式会社はてなに入社しました - yasuhisa's blog

エイプリルフールも一段落したので、退職&入社エントリを書こうと思います。これまで 3/31付けで前職のNTT CS研を退職しました。CS研には(インターン期間も含め)4年間お世話になりました。 CS研はとても研究する上でよい環境 CS研は研究をする上でかなりよい環境であったと思っていて世界で活躍しているトップの研究者がわらわらいて、日々ディスカッションできる (全くないわけではないですが)雑用が少なく、研究に集中できる研究をする上で必要なリソース(計算機、データなど)が十分にある足りないものやデータ等を新しく作りたい場合は、上長をちゃんと説得すればお金をかけて作ることができる自然言語処理の研究をする上でかなり重要などなど、とても研究しやすい環境です。AAAIやEM NLP、CoNLLなどに行くことができたのもこうしたCS研の環境なしではありえなかったと思います。ここで4年間働けた

yag_ays 2016/04/03

リンク

仲間内で週報を始めた - yasuhisa's blog

rebuild.fmを毎週聞いているんだけど、1月末くらいに週報の話が出た。 Rebuild: Aftershow 127: Reading Exercise (omo) 週報仲間 — To Phantasien — Medium その週何をしていたかや、どんなことに興味を持ったなどが分かると面白いかなと思ったし、他の人が頑張ってたのを見ると自分もやるかという気持ちになる(と思われる)。そういうわけで、4人くらいの仲間内でやっているslackで、専用のchannelを切って週報共有を始めた。自分が書いている内容私の場合、週報というより日報が7日分並んでいるテンプレートになっているが、書いている割合として多い内容は、以下の通り。ライフログ収集スクリプトに関して便利だったスクリプトやソフトウェアに関して最近だとmagitを使い始めた話とか。今さら感は否めないけど... 面白そうな研究

yag_ays 2016/02/18

リンク

今年よかった習慣: ライフログ収集および可視化 - yasuhisa's blog

データを眺めるのが好き収集している情報実現方法データから分かった知見(?) 今後年末なので、今年買ってよかったものに引き続き、今年やってみてよかった習慣について書いてみたいと思います。データを眺めるのが好き昔からデータを眺めるのは好きだったんですが、今年の5月くらいから自分に関するデータをとにかく収集してみました。可視化することで何か有益な視点だったり、生活の改善点が見つかるのではないか、という目的です。色んなデータを集めまくった結果、以下のようなグラフができあがります。ちょっと画像が小さいですが、毎日の歩いた歩数や体重、気温、録画した番組名、自宅マシンの負荷状況などが載っています。収集している情報上の画像ではとりあえずBlogに上げれるようなデータしか見せていないですが、収集している情報としては以下のようなものがあります。使用しているスクリプトで公開できるものはgithu

yag_ays 2015/12/21

リンク

今年(2015年)買ってよかったもの - yasuhisa's blog

今週のお題「今年買って良かったモノ」ルンバ机の下とかタンスの奥とか入り込んでゴミ吸ってきてくれるの偉い同じところをグルグルしてたり頭あまりよくないように思うけど、出勤前にスイッチを入れておけば時間がかかっても特に問題ではない行って欲しくないところにはvirtual wallというのを置くと行かないようにできるときどきルンバの中を掃除するとホコリの山でどん引きする... 目覚まし時計を引っくり返していったり、コードに絡まって動けなくなったりするので、その辺は注意が必要 Pebble 前から持っていたけど(Pebble Steel)、新しく出たPebble Time Steel(PTS)を購入 PTSになってカラーになったのと、バッテリの持ちが若干よくなっている。カラーでなくともいいやと思っていたけれど、実際使って見るとカラーのほうが見やすくなったアプリやwatchfaceなどがある

yag_ays 2015/11/16

リンク

Berkeley Parserの解析失敗について - yasuhisa's blog

最近、構文解析器をよく使っているんだけど、public availableな構文解析器の中で精度が高いBerkeley Parserを使っていた(Stanford ParserがF値で85%くらいで、Berkeley ParserはF値で89%くらい)。Javaでできているので、Clojureから触るには何かと便利。ただ、時々Berkeley Parserは解析失敗で落ちるので困る。未知語が入っていると落ちるのかと思ったが、そういうわけでもなく学習データに入っていない未知のルールだったり、ルールがpruningされてしまったりすると解析失敗で落ちてしまうらしい。pruningで落ちてしまうものに関しては-accurateオプションを付けることで閾値を変えてなるべくpruningで落ちないようにすることもできるが、やはり完全に防ぐことは難しいようだ(Stanford Parserはアホでも

yag_ays 2015/09/27

リンク

論文100本ノックの感想&独断と偏見に満ち溢れた今年読んだ中で面白かった論文紹介 - yasuhisa's blog

100本いってないじゃん!! いつまで高見の見物してるんですか??? 目を通してるConference その他 LDA関係 LDA自体について LDAをベースにした応用モデル形態素解析、分かち書きノンパラベイズその他クラスタリング最適化教師なし学習今年の1月1日から始めた論文100本ノックですが、年末ギリギリだと書けるか分からなくなりそうなので、そろそろ振り替えります。3月くらいまでは読んだ論文の一覧を2010/12/31の日記のところに書いてたんですが、研究室localな勉強会で紹介された論文は(OKが出ないと)外で書けないという都合があったので削除しましたが、プライベートはてなグループのほうで続いています。12/7現在で76本だそうです。本数のペースは以下のグラフで(実は)公開されています。 2月から3月がほとんど止まってますが、論文読むというよりディリクレ過程の勉強とか

yag_ays 2015/03/21

リンク

就活所感 - yasuhisa's blog

一段落したので、考えたこととか感じたことを書いてみようと思います。僕自身は理系院生企業研究所志望でした、と前置きしておく。受けた企業の数的には相当少ない*1し、「就職氷河期ってこと知ってんのか?」って感じですので、あんまり真に受けないほうがいいかもしれません。譲れないこと価値基準なんて人それぞれ。だから何を大事にしてるかなんて人によって違うけど、(就活に限らずだと思いますが)大切にしたいものは変に譲らないほうがいいと思う。自分の場合はそれがこういうことだった。 www.yasuhisay.info 結局ここは譲らずに行けそうなので、今後も精進したいと思います。メリット => プレゼンテーション能力一社辺り2-4回くらい面接(とES)があるとして、自分の研究ややってきたことについて説明する機会がある。僕の場合は夏のNTT CS研でやったインターンのことをまとめて年次大会(論文、スライド)

yag_ays 2014/01/30

リンク

はてなブックマーク

タグ

ブックマーク / www.yasuhisay.info (65)

お知らせ

今週のはてなブックマーク数ランキング（2024年8月第2週）

今週のはてなブックマーク数ランキング（2024年8月第1週）

月間はてなブックマーク数ランキング（2024年7月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス