chezouのブックマーク - はてなブックマーク

PyCon mini Osakaで異常検知システム構築の裏側について発表しました - yasuhisa's blog

現在仕事で作っている異常検知システムについてPyCon mini Osakaで登壇してきました。異常検知というマイナーなトピックですが、多くの人に聞いてもらえてよかったです。 #pyconjp #pyconosaka 「Pythonを用いた異常検知システム構築の裏側」吉田康久さんです！たしかはてなの人だったはず。 pic.twitter.com/hRacSgV59D— PyCon mini Osaka (@OsakaPyConMini) 2018年5月19日はい、はてなのMackerelチームの中の人です。機械学習の人からすると「なんだただの混合ガウス分布か」と思われるかもしれませんが、異常検知のシステムを実際に作ろうとすると考えることが色々あります。今回の発表ではユーザーのどのような要望から異常検知機能を作るに至ったか異常検知とはそもそも何か、どういった問題設定か異常検知手

chezou 2018/05/20

リンク

社内でKaggleの布教活動をやっている話 - yasuhisa's blog

最近、社内勉強会で機械学習についてエンジニアに説明する機会があり、その際にKaggleについても説明しました。一方でうーん、「Kaggler はパラメータチューニングやアンサンブル等の自明でインクリメンタルな改善『しか』できない」というような誤解はどうやって解いていけばいいんだろう。— im132nd (@im132nd) 2018年4月4日という話もあり、(特にデータサイエンティスト以外の職種の人が)Kaggleをやる意義/メリットについてまとめてみました。ガッと勢いで書いたので、項目に結構被りがあります。なお、書いている本人はKaggleほぼ初心者であまり説得力がないです。Kaggle Masterの人がもっといいエントリを書いてくれるのを期待しています、議論の叩き台エントリです!! Kaggleをやる意義/メリット様々なデータセットを触ることができる kernelでデータ分析の

chezou 2018/04/05

問題を切り出した後のモデルを作るまでの流れ点においては非常に役に立つし、何よりEDAの他人のKernel見てるだけで飯が何杯も食べれるのが楽しいですよね

リンク

KaggleのCTR予測コンペで上位10%に入るまでの試行錯誤 - yasuhisa's blog

週末KagglerとしてavazuのCTR予測コンペに参加しました。Kaggleは機械学習版のISUCONだと思ってもらえばよいです。コンペ自体は終わっているので、late submiteであまり意味はないかもしれません、練習です。leaderboard上で上位10%以内に行けたので、そこまでの試行錯誤をメモしておきます。謎ノウハウ(?)を持っているガチ勢じゃないと上位に行けないものかと思っていましたが、基本に忠実にやればこれくらいの順位(上位7.6%)に行けましたし、他の人の工夫を垣間見えるという意味でも現場の機械学習やり始めたエンジニアにお薦めできそうでした。参加の動機目標感: 頑張りすぎずに上位10%以内に入る試行錯誤 AthenaとRedashによる探索的データ解析ベンチマークをまず超える線形分類器でシンプルな特徴量時系列要素を忘れていて過学習発生特徴量エンジニアリン

chezou 2018/03/18

リンク

Hacker Tackleで「はてなにおける機械学習の取り組み」について登壇しました - yasuhisa's blog

LINE福岡で行なわれたHacker Tackleにて登壇してきました。発表内容は(1)機械学習を使ったサービス開発の難しい点について整理し(2)その難しさを乗り越えていくためにはてながどのような取り組みを行なっているかについてでした。一口に機械学習を使ったサービス開発といっても、古典的な問題設定でどうやればいいか比較的クリアに見えているものと、R&D要素が強くどう取り組んでよいか分からないものではよい取り組み方も異なってきます。そこで、今回の発表では古典的な問題設定(テキスト分類)であるBrandSafe はてなのリニューアル、R&D要素の強いMackerelの異常検知、それぞれに対し技術的/組織的にどのような取り組みを行なったかについて話させてもらいました。はてなにおける機械学習の取り組み from syou6162 登壇時間は30分で割と話すことも多かったので、当初話す予定だった

chezou 2018/02/19

practicalな話が色々あって良い。学習データはgoogle drive管理なんだ...

リンク

IBIS2017の聴講ログ - yasuhisa's blog

今年で20周年のIBIS2017に仕事で聴講参加しました。IBISは意外と初参加。とにかく大量の発表があり、全部書いてると膨大になってしまうので、自分のアンテナに引っ掛かった研究についてのみログを残しておきます。問題設定やモチベーションを重点的にメモしており、理論面は嘘を書いている可能性が高いので、気になる人はそれぞれの論文を読むといいと思います。 IBIS2017 | 第20回情報論的学習理論ワークショップ, 2017.11.8〜11, 東京大学本郷キャンパス Learning from Complementary Labels (NIPS 2017) Semi-Supervised Classification Based on Classification from Positive and Unlabeled Data (ICML 2017) 音声対話アシスタントに関する最近の研

chezou 2017/11/14

リンク

能動学習で効率的に教師データを作るツールをGoで書いた - yasuhisa's blog

みなさん、教師データ作ってますか?! 機械学習のツールも多くなり、データがあれば簡単に機械学習で問題を解ける環境が整ってきました。しかし、データ作成は重要ながらも未だに大変な作業です。最近、私もいくつかのドメインで教師データを作る機会があったので、能動学習を使ってコマンドラインから簡単に教師データ作成(アノテーション)ができるツールを作ってみました。今回は能動学習で教師データを作る意義と、作ったツールの使い方について簡単に書きます。問題設定能動学習を使って教師データを効率的にアノテーション go-active-learningを試してみるダウンロード/インストール能動学習でアノテーションおまけ: Go言語を使って得られた効用/感想問題設定例があったほうが説明しやすいので、問題設定を先に。あなたはエンジニアが集まるSlackチャンネルに、最近人気の技術エントリを定期的に投稿

chezou 2017/05/19

machine learning

リンク

Visualizing and Understanding Curriculum Learning for Long Short-Term Memory Networksを読んだ - yasuhisa's blog

Curriculum Learning(簡単なやつから学習して、難しいのは後のほうがうまく行きそう)の方法をLSTMで試してみた報告っぽい内容。要約は以下の通り。 One-Pass CurriculumとBaby Steps Curriculumの2種類があるけど、Baby Steps Curriculumのほうがお勧めできるシャッフルなどに比べるとCurriculum LearningはHidden Unitの数が少なくても安定して性能が出ている学習データが多いとどれもあまり変わらないが、学習データが少ないときほどCurriculum Learningは有効に働く Curriculum Learning 学習するときは簡単なやつから学習して、難しいのは後のほうがうまく行きそうじゃん?というアイディアがベースにある。今回の場合はLSTMでどうこうやるので、系列系のタスクで簡単とか難しい

chezou 2016/12/03

active learningとは比較できないものか

リンク

Google機械翻訳の仕組み&できるようになったこと/まだ難しいことについて、社内の機械学習勉強会で説明します - yasuhisa's blog

社内の機械学習勉強会で最近話題になった機械学習関連のエントリを取り上げているのですが、ここ一ヶ月ではGoogle Neural Machine Translation(GNMT)がとても話題になっていました。GNMTで使われているEncoder-Decoderやattentionのような仕組みを直近で使う予定は特にはないですが、機械学習を使うエンジニアとして知っておいて損はないし、技術的に何が変わったことにより何ができるようになって、何はまだできないのかを知ろう、というのが目的です。技術的な項目は興味ない人も多そうなので、最後に持っていきました。 Google Neural Machine Translation(GNMT)の最近の進化についてできるようになったこと定量的な評価まだまだ難しいこと技術的な詳細 Encoder-decoder Attention based encod

chezou 2016/11/25

単語の系列を入れるとNNが頑張るというのは改めて見ても凄いな...

リンク

機械学習をプロダクトに入れる際に考える採用基準について - yasuhisa's blog

サービスに機械学習技術(例えばSVM)を入れる際に、「この機械学習技術は本番サービスに投入しても大丈夫なものか?」を考える基準がまとまっていると人に説明するときに便利だなとふと思ったのでまとめてみました。散々言われ尽くされている話だとは思います。前提考慮に入る採用基準予測精度 (コードの)メンテナンスの容易性計算オーダー学習時予測時挙動のコントロールのしやすさ/予測説明性の容易さチューニングの必要性その他まとめ前提機械学習がプロダクトの主要な武器になる(例えば最近話題になっているGoogle翻訳におけるNMT)ものではなく、サービスにデータがまずあり、機械学習でデータを活用することにより、そのサービスを支えていくようなものを前提に考えています(例えばCGMサービスのスパム判定)。また、投稿内容は私個人の意見であり、所属組織を代表するものではありませんとお断りしておき

chezou 2016/11/21

整理されていて良い。前提として結構レベルの高いチームがいる気がする

リンク

実タスクで能動学習を試してみた - yasuhisa's blog

実タスクで簡単な能動学習を試してみました。結論としては、1200件で到達できる精度に400件程度のアノテーションでも到達でき、それによりアノテーションに要する時間をかなり削減できそうということが分かりました*1。今後、アノテーションを必要とする機械学習タスクをやる際には能動学習で一手間かけるのを検討してみようと思います。能動学習をする動機ここしばらく仕事のタスクで機械学習の教師用のデータをアノテーションをする機会がありました。機械学習する上で、1000件程度は学習データ欲しいという想定でポチポチとアノテーションをしていました。一人1時間で大体100件くらいのデータが作れるようなタスクでしたが、1000件アノテーションするには約10時間の作業工程が必要です。アノテーション自体よりはコードを書いたり実験するのが好きな人間なので、5時間くらいずっとアノテーションしていると疲労します。同じ精度

chezou 2016/10/11

リンク

はてな社内の勉強会で構造学習について発表しました - yasuhisa's blog

先週末、はてな社内の勉強会で構造学習、特に実装が簡単な構造化パーセプトロンについて発表しました。発表資料と説明用にサンプルで書いたPerlの品詞タグ付けのコードへのリンクを張っておきます。今日からできる構造学習(主に構造化パーセプトロンについて) from syou6162 structured_perceptron/structured_perceptron.pl at master · syou6162/structured_perceptron 「えっ、Perlかよ」という人がいるといけないので、Clojureで構造化パーセプトロンを使った係り受け解析のサンプルコードへのリンクも張っておきます(2種類あります)。PerlもClojureもあれば8割くらいの人はカバーできそうなので、安心ですね。 syou6162/simple_shift_reduce_parsing syou616

chezou 2016/06/27

なんでもDLより地に足付いていて良い。適材適所ですね

リンク

NTT CS研を退職して、株式会社はてなに入社しました - yasuhisa's blog

エイプリルフールも一段落したので、退職&入社エントリを書こうと思います。これまで 3/31付けで前職のNTT CS研を退職しました。CS研には(インターン期間も含め)4年間お世話になりました。 CS研はとても研究する上でよい環境 CS研は研究をする上でかなりよい環境であったと思っていて世界で活躍しているトップの研究者がわらわらいて、日々ディスカッションできる (全くないわけではないですが)雑用が少なく、研究に集中できる研究をする上で必要なリソース(計算機、データなど)が十分にある足りないものやデータ等を新しく作りたい場合は、上長をちゃんと説得すればお金をかけて作ることができる自然言語処理の研究をする上でかなり重要などなど、とても研究しやすい環境です。AAAIやEM NLP、CoNLLなどに行くことができたのもこうしたCS研の環境なしではありえなかったと思います。ここで4年間働けた

chezou 2016/04/04

おめでとうございます！エンジニアと研究者の境界が薄くなっているというのは共感。arXivとOSSのコンボでスピード感10倍になってますし、現実のデータと戦うの楽しいですよ

リンク

論文100本ノックの感想&独断と偏見に満ち溢れた今年読んだ中で面白かった論文紹介 - yasuhisa's blog

100本いってないじゃん!! いつまで高見の見物してるんですか??? 目を通してるConference その他 LDA関係 LDA自体について LDAをベースにした応用モデル形態素解析、分かち書きノンパラベイズその他クラスタリング最適化教師なし学習今年の1月1日から始めた論文100本ノックですが、年末ギリギリだと書けるか分からなくなりそうなので、そろそろ振り替えります。3月くらいまでは読んだ論文の一覧を2010/12/31の日記のところに書いてたんですが、研究室localな勉強会で紹介された論文は(OKが出ないと)外で書けないという都合があったので削除しましたが、プライベートはてなグループのほうで続いています。12/7現在で76本だそうです。本数のペースは以下のグラフで(実は)公開されています。 2月から3月がほとんど止まってますが、論文読むというよりディリクレ過程の勉強とか

chezou 2010/12/08

素晴らしいわー。残していくのって労力いるけど大事ですね

リンク

確率論、統計学関連のWeb上の資料 - yasuhisa's blog

確率論と統計学は俺がまとめるから、他の分野はお前らの仕事な。確率論 Index of /HOME/higuchi/h18kogi 確率空間生成されたσ-加法族確率の基本的性質確率変数とその分布分布の例分布関数期待値、分散、モーメント期待値の性質独立確率変数列の極限定理大数の弱法則(Weak Law of Large Numbers) 確率1でおこること大数の強法則中心極限定理特性関数 Higuchi's Page Brown運動 Brown運動のモーメントの計算連続性 Brown運動の構成:Gauss系として Brown運動に関する確率積分空間L^2の元の確率積分伊藤の公式(Ito formula) 日本女子大学理学部数物科学科の今野良彦先生のところにあった資料最尤法とその計算アルゴリズム収束のモード大数の法則と中心極限定理指数分布族モデルにおける最

chezou 2009/02/24

リンク

はてなブックマーク

タグ

ブックマーク / www.yasuhisay.info (14)

お知らせ

今週のはてなブックマーク数ランキング（2024年9月第1週）

今週のはてなブックマーク数ランキング（2024年8月第4週）

今週のはてなブックマーク数ランキング（2024年8月第3週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス