[B! ml] [3ページ] taraoのブックマーク

Encoder-Decoder でレシピの材料名を正規化する - クックパッド開発者ブログ

研究開発部の原島です。部のマネージメントのかたわら、自然言語処理関連の開発に従事しています。本エントリでは、最近社内で開発した自然言語処理システムを紹介します。 ■ 「しょうゆ」のバリエーションは 100 種類以上クックパッドで以前から解決したかった課題の一つに材料の名前（以下、材料名）の正規化があります。クックパッドのレシピは複数の材料から構成され、各材料は名前と分量から構成されています。例えば、上のレシピの一つ目の材料は「豚薄切り肉」が名前で、「200g」が分量です。さて、この材料名はこのレシピでは「豚薄切り肉」という表現でした。しかし、他のレシピでは「豚うす切り肉」という表現かもしれません。「豚うすぎり肉」や「ぶた薄切り肉」、「豚薄ぎり肉」等の表現もありえますね。これは異表記同義（いわゆる表記揺れ）の問題ですが、同様の問題は他にも沢山あります。例えば、以下のようなものです。

tarao 2017/10/31

ml

リンク

深層学習を用いた異常値検知手法まとめ〜 (Denosing) AutoEncoder, LSTM, TDA（Topological Data Analysis) + CNN - Qiita

オーソドックスなアプローチ（一般的手法）まずは、以下がよくまとまっている。株式会社クロスコンパス・インテリジェンス（2016.10.5）「NVIDIA GPU TECHNO LOGY CONFERENCE JAPAN 2016 Industry Deep Learning」異常値予測を行うアプローチとしては、以下が一般的な考え方のようだ。（データ量の多い）正常時のデータ挙動の特徴パターンを学ばせて、新規データが上記の特徴パターンから乖離している場合を、異常とみなす上記のアプローチをとる理由は、「異常発生時のデータ」の取得可能件数は、「正常時のデータ」に比べて、取得できるデータの件数が圧倒的に少ないからである。上記のスライドで挙げられている AutoEncoderモデルや LSTMモデルを採用し、 AutoEncoderモデル

tarao 2017/08/25

ml

リンク

劣モジュラ最大化によるエントリの推薦をやってみた - yasuhisa's blog

背景半年前から機械学習に関するよさそうなエントリを提示してくれるbot(ML君)を運用しています。大量のtweetの中から関連するエントリを人手で探す手間は省けるようになったのですが、最近別の問題が起こっています。以下の画像はある日に提示されたエントリの結果ですが、arxivの論文(しかもほぼ深層学習関連のもの)ばかりになっています…。ML君はURLが与えられたときに、それが機械学習に関連するいいエントリかどうかを判定しますが、提示したエントリの話題が重複しているなど条件は全く考慮していないので、当然と言えば当然の結果です。ML君を責めてはいけない。上のような推薦結果は私が深層学習研究者/エンジニアなら喜ぶかもしれませんが、残念ながらそうではありません。機械学習/自然言語処理に関連する企業のニュース/githubのライブラリなど、色々なトピックについてカバーして欲しいものです。問題設

tarao 2017/05/29

ml
nlp

リンク

ニューラルネットワークの量子化についての最近の研究の進展と、その重要性 - SmartNews Engineering Blog

こんにちは、スマートニュースの徳永です。深層学習業界はGANだとか深層強化学習だとかで盛り上がっていますが、今日は淡々と、ニューラルネットワークの量子化の話をします。 TL;DR パラメータだけを量子化するのであれば、ほぼ精度を落とさずに、パラメータのデータ容量は1/16程度にまで削減できるパラメータ、アクティベーション、勾配のすべてを量子化し、推論だけでなく学習までもビット演算だけで実現する研究が進んできている現在は深層学習 = GPU必須というぐらいの勢いがあるけど、量子化の研究が進むと、今後はどうなるかわからないよはじめに情報理論における量子化とは、アナログな量を離散的な値で近似的に表現することを指しますが、本稿における量子化は厳密に言うとちょっと意味が違い、十分な（=32bitもしくは16bit）精度で表現されていた量を、ずっと少ないビット数で表現することを言います。ニュ

tarao 2017/03/08

ml

リンク

機械学習モデルの予測結果を説明するための力が欲しいか...？ - クソして寝ろ

はじめに最近はAIや機械学習などの単語がビジネスで流行っていて、世はAI時代を迎えている。QiitaやTwitterを眺めているとその影響を受けて、世の多くのエンジニアがAIの勉強を始め出しているように見受けられる。さらに、近年では機械学習のライブラリも充実しており、誰でも機械学習を実装することができる良い時代になってきた。その一方で、特徴選択を行い精度を向上させたり、機械学習の出した答えがどの特徴に基づいて判断されたのかを理解したりするには、モデルに対する理解やテクニックが必要となる場合も多々ある。複雑なモデルになると人間には解釈が困難で説明が難しい。近頃流行りのDeep Learning系のモデルだと頻繁に「なんかよくわからないけどうまくいきました」となっていると思う。一般的なエンジニアとしては、この点が割と課題なんじゃないかと勝手に思っている。というか、私が課題に感じている。

tarao 2017/01/09

ml

リンク

LSTMを超える期待の新星、QRNN - Qiita

RNN「これってもしかして」 CNN「わたしたちのモデルが・・・」「「入れ替わってる～～～！？」」というわけでQRNN、QUASI-RECURRENT NEURAL NETWORKSとは、RNNの機構をCNNで「疑似的(QUASI)に」実装するというモデルです。これにより、既存のRNN(というかLSTM)が抱えていたいくつかの問題の解決を試みています。元論文は以下となります。 QUASI-RECURRENT NEURAL NETWORKS 作者によるブログ作者の方のブログにChainerのサンプルコードがあったので、それを元にTensorFlowで実装してみました。早く動かしたい！という方はこちらを見てみてください。 icoxfog417/tensorflow_qrnn (Starを頂ければ励みになります m(_ _)m) 本記事では、この研究のモチベーションとそのアプローチについ

tarao 2016/12/13

ml

リンク

実タスクで能動学習を試してみた - yasuhisa's blog

実タスクで簡単な能動学習を試してみました。結論としては、1200件で到達できる精度に400件程度のアノテーションでも到達でき、それによりアノテーションに要する時間をかなり削減できそうということが分かりました*1。今後、アノテーションを必要とする機械学習タスクをやる際には能動学習で一手間かけるのを検討してみようと思います。能動学習をする動機ここしばらく仕事のタスクで機械学習の教師用のデータをアノテーションをする機会がありました。機械学習する上で、1000件程度は学習データ欲しいという想定でポチポチとアノテーションをしていました。一人1時間で大体100件くらいのデータが作れるようなタスクでしたが、1000件アノテーションするには約10時間の作業工程が必要です。アノテーション自体よりはコードを書いたり実験するのが好きな人間なので、5時間くらいずっとアノテーションしていると疲労します。同じ精度

tarao 2016/10/11

ml

リンク

xgboost4j より数千倍速く predict できる Pure Java な XGBoost 互換の予測器を作ってみた

TL;DR XGBoost で構築した予測モデルを Java から利用したい、それも特徴ベクトルが一つ一つ、任意のタイミングで与えられるようなオンライン環境下でリアルタイムな予測を実現するために利用したい、という目的を叶えるためのモジュールを作りました。 Github: komiya-atsushi/xgboost-predictor-java Bintray: xgboost-predictor (XGBoost の凄さとか XGBoost そのものの使い方とか GBDT/GBRT の解説は本エントリにはありませんので、そのような情報を求めている方は他のブログエントリを読まれることをおすすめします。) xgboost4j という選択肢 Java から XGBoost を利用しようとすると、XGBoostをJavaのwrapperを使用して実行する - TASK NOTES にある

tarao 2016/02/23

ml

リンク

Welcome to Apache PredictionIO�!

What is Apache PredictionIO�?Apache PredictionIO� is an open source Machine Learning Server built on top of a state-of-the-art open source stack for developers and data scientists to create predictive engines for any machine learning task. It lets you: quickly build and deploy an engine as a web service on production with customizable templates; respond to dynamic queries in real-time once deploye

tarao 2015/12/31

ml

リンク

ニューラルネットの逆襲 - Preferred Networks Research & Development

岡野原です。Deep Learningが各分野のコンペティションで優勝し話題になっています。Deep Learningは7、8段と深いニューラルネットを使う学習手法です。すでに、画像認識、音声認識、最も最近では化合物の活性予測で優勝したり、既存データ・セットでの最高精度を達成しています。以下に幾つか例をあげます。画像認識 LSVRC 2012 [html] 優勝チームスライド [pdf], まとめスライド[pdf] Googleによる巨大なNeuralNetを利用した画像認識（猫認識として有名）[paper][slide][日本語解説] また、各分野のトップカンファレンスでDeep Learningのチュートリアルが行われ、サーベイ論文もいくつか出ました。おそらく来年以降こうした話が増えてくることが考えられます。 ICML 2012 [pdf] ACL 2012 [pdf] CVPR

tarao 2012/11/01

ml

リンク

はてなブックマーク

タグ

関連タグで絞り込む (5)

mlに関するtaraoのブックマーク (51)

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第2週）

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

今週のはてなブックマーク数ランキング（2024年7月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス