タグ

機械学習に関するshmrasのブックマーク (16)

  • データサイエンティストや機械学習エンジニアに求められる「素質」とは何か - 渋谷駅前で働くデータサイエンティストのブログ

    (Image by Pixabay) 某所で時々意見交換させていただいている@maskedanlさんが、面白い記事をnoteにupなさっていたので拝読しました。細かい内容は上記のリンク先から皆さんに直接お読みいただくとして、記事中で某所で僕が放言(笑)したことへのご質問をいただいていたのでした。それは、データサイエンティストや機械学習エンジニアといったデータ分析人材に求められる「素質」について、です。 それは例えば統計学や機械学習はたまたプログラミングといった「スキル」や「素養」とも違う、言ってみれば性格的傾向とか仕事スタイルとかはたまた思想信条のような、もうちょっと属人的で曖昧なものだと思うのですが、個人的な経験からはその「素質」の有無がデータ分析職として育成した結果、ものになるかならないかを分けるように感じられています。 ということで、あくまでも個人的経験に基づく範囲でデータサイエンテ

    データサイエンティストや機械学習エンジニアに求められる「素質」とは何か - 渋谷駅前で働くデータサイエンティストのブログ
  • 『Customized Regression Model for Airbnb Dynamic Pricing』を読んでまとめた 【KDD2018】 - honawork

    はじめに 2018年8月19日から23日にかけてロンドンで行われたKDD2018(データマイニングの世界的なカンファレンス)に採択されていた『Customized Regression Model for Airbnb Dynamic Pricing』なる論文を読みました。 Airbnbで実装されている価格推薦モデルについての論文で、 ビジネス・ユーザー視点を取り入れており、 「価格を下げれば予約されていた」と、「もっと価格を上げていてもよかった」というニーズ それをうまくモデル化していて、 上記を損失関数として定量化 さらにシンプルな構造で理解しやすい ①予約確率の予測→②最適価格の提案→③パーソナライズと、マクロ→ミクロに落ちていく構造 という点において優れたデータサイエンスの応用例であると感じたため、主要な論点を要約しつつ解説に取り組んでみようかと思います。 はじめに 論文の要旨 最

    『Customized Regression Model for Airbnb Dynamic Pricing』を読んでまとめた 【KDD2018】 - honawork
  • ggsoku.com

    ggsoku.com
  • データサイエンティストもしくは機械学習エンジニアになるためのスキル要件とは(2017年夏版) - 渋谷駅前で働くデータサイエンティストのブログ

    この記事は2年前の以下の記事のアップデートです。 前回はとりあえずデータサイエンティストというかデータ分析職一般としてのスキル要件として、「みどりぼん程度の統計学の知識」「はじパタ程度の機械学習の知識」「RかPythonでコードが組める」「SQLが書ける」という4点を挙げたのでした。 で、2年経ったらいよいよ統計分析メインのデータサイエンティスト(物:及びその他の統計分析職)vs. 機械学習システム実装メインの機械学習エンジニアというキャリアの分岐が如実になってきた上に、各方面で技術革新・普及が進んで来たので、上記の過去記事のスキル要件のままでは対応できない状況になってきたように見受けられます。 そこで、今回の記事では「データサイエンティスト」*1「機械学習エンジニア」のそれぞれについて、現段階で僕が個人的に考える「最低限のスキル要件」をさっくり書いてみようかと思います。最初にそれらを書

    データサイエンティストもしくは機械学習エンジニアになるためのスキル要件とは(2017年夏版) - 渋谷駅前で働くデータサイエンティストのブログ
  • データが十分ではない状態で予測の精度を上げる方法 | データ経営|DIAMOND ハーバード・ビジネス・レビュー

    大統領選やビジネスの予測が外れる背景には、サンプルの古さ、少なさ、偏りなどの問題がある。その対抗策の1つとして、記事は「転移学習」の基概念をわかりやすく紹介する。 ドナルド・トランプが大統領選への出馬を表明した当初、ほとんどのアナリストは、彼が共和党の指名候補になる可能性は限りなく低いと予測した。 なかでも顕著なのは、統計関連サイト「ファイブサーティーエイト(538)」を主宰するネイト・シルバーだろう。彼はトランプが指名される確率を2%と予測した(英語サイト)。この予測で使われたのは、過去の候補者に関する複数の有意なデータポイントだ。候補者の経歴、党内の支持率、過去の成功や失敗などのデータである。 ここでの基前提は、予測対象(トランプ)は、過去の前例(これまでの共和党指名候補)と比較可能な同一性があるため、彼らの実績に照らして判断できる、というものだ。これは、きわめて一般的な予測アプ

    データが十分ではない状態で予測の精度を上げる方法 | データ経営|DIAMOND ハーバード・ビジネス・レビュー
  • 例の機械学習コースが良いらしいと知りながらも2年間スルーし続けたがやはり良かったという話 - Qiita

    先日、オンライン学習サイトCourseraの"Machine Learning"コースを修了しました。これが最高に勉強になったわけですが、機械学習に興味があって情報収集を始めてる人にとって、「Courseraの機械学習コースがおすすめですよ」という話は 「はい、知ってます」 という感じではないでしょうか。 (たとえば、Qiitaで検索してみると、以下のような同コースに関連する超人気記事が出てきます) 数学を避けてきた社会人プログラマが機械学習の勉強を始める際の最短経路 - Qiita 機械学習をゼロから1ヵ月間勉強し続けた結果 - Qiita 僕もそんな感じで、幾度となく人や記事に同コースを薦められたりしつつ、たぶん2年ぐらいスルーし続けてきたと思います。 しかし約2ヶ月前、ひょんなきっかけから講座を始めてみて、やはり評判通り最高だったと思うと同時に、僕と同じような感じでこのコースが良い

    例の機械学習コースが良いらしいと知りながらも2年間スルーし続けたがやはり良かったという話 - Qiita
  • 線画着色webサービスPaintsChainerを公開した - Qiita

    http://paintschainer.preferred.tech こちらに先月記事にした線画の着色のデモを公開しました!! 反響の大きかった皆さんに試していただけます!!(ちょっと期待値が上がり過ぎてないといいですがw) http://qiita.com/taizan/items/cf77fd37ec3a0bef5d9d 以前の記事『初心者がchainerで線画着色してみた。わりとできた。』はこちら。 ⇓そしてこちらがもじゃくっきーさんの使用例になっております。 GPUを使っている関係上アクセスが集中したりすると遅くなったりサーバーが落ちたりする可能性もありますが、生暖かく見守っていただければと思います。←たくさんの方に広まったこともあって、めっちゃ重くなっています。ぐぬぬぬ 画面はこんな感じっす。 線画ファイルを選択するととりあえず自動で塗ってくれます。 ※ただし、現状ではgifや

    線画着色webサービスPaintsChainerを公開した - Qiita
  • Retty流『2200万ユーザを支える機械学習基盤』の作り方 - Qiita

    みなさん、こんにちは。Retty CTO の樽石です。 この記事は Retty Advent Calendar 25日目です。メリークリスマス。 昨日は @ttakeoka の『MFIにむけてRettyの取り組み』でした。 今年も残りわずかになりました。いかがお過ごしですか? Retty はこの 1 年でエンジニアがほぼ倍増しました。それによって、情報発信者が増え、Advent Calendar に参加出来るようになりました。みんな楽しそうにしていて、うれしいです。 Retty Inc. Advent Calendar 2016 - Qiita さて、今年最後の Retty Advent Calendar 記事を書くということで、はじめは 1年のまとめ的内容にしようかと思いましたが、それでは平凡で面白くありません。そこで、ネタになりそうなマニアックな技術的記事で締めくくりたいと思います。

    Retty流『2200万ユーザを支える機械学習基盤』の作り方 - Qiita
  • こんな私でもニューラルネットワークをスクラッチで実装できました(30歳 男性) - seri::diary

    この記事はトレタ Advent Calendar 2016の22日目です。 21日目はswdhの ActiveRecordオブジェクトを関連ごとシリアライズしてデシリアライズするでした。 スナップショット的にその時点のモデルを関連モデル含めて保存したい、っていう要望はBtoBやってると結構遭遇しますね。テーブルをちゃんと正規化すればするほど難しくなるやつなのでgem化されてるとありがたいです。 さて、この記事ではゼロから作るDeep Learning ―Pythonで学ぶディープラーニングの理論と実装を読んでpythonに入門するところから初めてニューラルネットワークを実際に実装して見た所感を記述します。平たく言えば読書感想文です。 ゼロから作るDeep Learning ―Pythonで学ぶディープラーニングの理論と実装 作者: 斎藤康毅出版社/メーカー: オライリージャパン発売日: 2

    こんな私でもニューラルネットワークをスクラッチで実装できました(30歳 男性) - seri::diary
  • 機械学習に必要な高校数学やり直しアドベントカレンダーのカレンダー | Advent Calendar 2016 - Qiita

    今年、機械学習を少なくとも一度は手にした人は多いのではないでしょうか。 数ページめくっていると、数式のオンパレードで、「うっ」てなって、静かにを閉じてから数ヶ月。 すでに棚の肥やしになっていたりしませんか? それは私です。これはイカンと思って 機械学習を理解するための高校数学のおさらいをしようよ!で、作りました。 誰が書くの? すでに、おさらいが終わった人、 これを機会におさらいを始めてみようと思った人、 おさらいする必要もなく理解している人、 一緒にこのアドベントカレンダーを作りませんか? 何を書いたらいいの? 得意な分野の説明をわかりやすく説明、三角関数とか行列とか統計とか・・・ 自分の勉強法の紹介 オススメの書籍やオススメ記事やオススメ勉強法の紹介 などなど 来年はもっと理解出来た状態で、機械学習と向き合う年にしましょう!

    機械学習に必要な高校数学やり直しアドベントカレンダーのカレンダー | Advent Calendar 2016 - Qiita
  • 機械学習をプロダクトに入れる際に考える採用基準について - yasuhisa's blog

    サービスに機械学習技術(例えばSVM)を入れる際に、「この機械学習技術番サービスに投入しても大丈夫なものか?」を考える基準がまとまっていると人に説明するときに便利だなとふと思ったのでまとめてみました。散々言われ尽くされている話だとは思います。 前提 考慮に入る採用基準 予測精度 (コードの)メンテナンスの容易性 計算オーダー 学習時 予測時 挙動のコントロールのしやすさ/予測説明性の容易さ チューニングの必要性 その他 まとめ 前提 機械学習がプロダクトの主要な武器になる(例えば最近話題になっているGoogle翻訳におけるNMT)ものではなく、サービスにデータがまずあり、機械学習でデータを活用することにより、そのサービスを支えていくようなものを前提に考えています(例えばCGMサービスのスパム判定)。また、投稿内容は私個人の意見であり、所属組織を代表するものではありませんとお断りしておき

    機械学習をプロダクトに入れる際に考える採用基準について - yasuhisa's blog
  • 畳み込みニューラルネットワークの仕組み | POSTD

    (編注:2016/11/17、記事を修正いたしました。) ディープラーニングの分野でテクノロジの進化が続いているということが話題になる場合、十中八九畳み込みニューラルネットワークが関係しています。畳み込みニューラルネットワークはCNN(Convolutional Neural Network)またはConvNetとも呼ばれ、ディープニューラルネットワークの分野の主力となっています。CNNは画像を複数のカテゴリに分類するよう学習しており、その分類能力は人間を上回ることもあります。大言壮語のうたい文句を実現している方法が当にあるとすれば、それはCNNでしょう。 CNNの非常に大きな長所として、理解しやすいことが挙げられます。少なくとも幾つかの基的な部分にブレークダウンして学べば、それを実感できるでしょう。というわけで、これから一通り説明します。また、画像処理についてこの記事よりも詳細に説明

    畳み込みニューラルネットワークの仕組み | POSTD
  • 情報理論を視覚的に理解する (1/4) : | POSTD

    世界を考察する新しい方法を手に入れたときの感覚が大好きです。特に好きなのは、いずれ具体的なコンセプトに形を変えるボンヤリとした考えがあるときです。情報理論は、その最たる例です。 情報理論は、多くの物事を説明するための正確な言葉を与えてくれます。自分はどのくらい理解できていないのか?質問Aの答えを知ることが、質問Bを答えるのにどのくらい役立つのか?ある種の信念が他の信念とどの程度似ているのか?こういうことに対し、若くて未熟なころから自分なりの考えがありましたが、情報理論に出会って正確で強固な考えとしてはっきりと固まりました。その考えは、桁外れの、例えばデータの圧縮から量子物理学や機械学習、さらにはその間に広がる数多くの分野に応用が利くものです。 残念なことに、情報理論は少々威嚇的に見えてしまうのですが、そう断定すべき根拠は全くないと思います。実際、情報理論の多くの重要な概念は完全に視覚的に説

    情報理論を視覚的に理解する (1/4) : | POSTD
  • 1日1000個のA/Bテストを行う「Booking.com」の開発の裏話を聞いてきました【前編】

    宿泊予約サイトの「Booking.com」は社員数人のスタートアップから始まり、1万3000人の世界的規模にまで成長した会社。「2つの選択肢のうちいずれがユーザーにとって優れているか?」ということを調べるためにA/Bテストを行うウェブサービスやウェブサイトは多くありますが、Booking.comでは何と毎日1000個のA/Bテストを行っているとのことで、開発の裏側はどうなっているのか、最高製品責任者(CPO)のデイビッド・ビシュマンズ氏に話を聞いてきました。 国内も海外も!ホテル・旅館の予約はBooking.com http://www.booking.com/index.ja.html 写真の男性がデイビッド・ビスマンズ氏。 「Booking.comで行われているA/Bテストとはどういうものなのか?」ということで、まずサンプルを見せてもらいます。1つ目のA/Bテストは、検索結果として現れ

    1日1000個のA/Bテストを行う「Booking.com」の開発の裏話を聞いてきました【前編】
  • いまさら聞けない機械学習の評価関数 - Gunosyデータ分析ブログ

    アライアンス事業開発部の大曽根(@dr_paradi)です。 ニュースパスというアプリの分析と開発を行っております。 今回は機械学習の評価関数のお話をします。 内容は、【FiNC×プレイド】Machine Learning Meetup #1 - connpassで発表したものになります。 発表資料 いまさら聞けない機械学習の評価指標 from 圭輔 大曽根 www.slideshare.net 機械学習における評価 現在は機械学習ライブラリが充実しており、また、Webサービスの普及により学習に必要なデータの獲得も以前と比較して容易になっています。 そのため、機械学習のビジネス利用への敷居が下がっています。 予測や分類といった問題を解く際には、設定した課題に対してどのモデルが最も適しているかを評価するための指標(評価関数)が必要になります。 Kaggle*1などのコンペティションではあらか

    いまさら聞けない機械学習の評価関数 - Gunosyデータ分析ブログ
  • 今季見るべきアニメを機械学習で推薦する - はこべにっき ♨

    Coursera で機械学習に入門成功できたので応用に挑戦してみました。ちょうど季節の変わり目ということで、過去に見て気にいったアニメの特徴を学習して、未知のアニメを、気にいりそうなアニメと気にいらなそうなアニメに分類するツールを作って、ソフトウェアに今季見るべきアニメを推薦してもらいたいと思います。 アニメの特徴量 あるアニメを気にいるかどうかは、話のおもしろさや、絵柄の感じ、キャラクターの魅力などによって決まりそうです。ただ、話のおもしろさや、絵の美しさ、キャラクターの魅力を特徴量として数値化するのはむずかしいので、アニメの映像を制作しているスタッフや会社、声を当てているキャストにフォーカスすることにしました。 Courseraの機械学習のコースでは、特徴として妥当かどうかを判断するのに、人間が同じ特徴を与えられて分類といったタスクが可能かを考えてみよとアドバイスしていました。アニメ作

    今季見るべきアニメを機械学習で推薦する - はこべにっき ♨
  • 1