「ものづくりの現場に即したデータリテラシー(データを扱う能力)を十分に備えているデータサイエンティストが少ない」。デンソー 生産技術部担当次長で技師の吉野睦氏(工学博士)は「東京デジタルイノベーション 2020」)最終日に「ものづくりのためのデータリテラシー」について講演した。
もくじ fast.aiとは fast.aiのミッション style-transferをやってみる。 どんな画像が生成されたか 反省会など 1. fast.aiとは? 理論や数学から入るBottom-upアプローチではなく、まずはコードを動かしてタスクを解くTop-downタイプのMOOCです。タスク例としては、猫と犬の分類、映画レビューのgood/bad分類、スーパーの売上予測などがあります。 現在は、Deep Learningのコースが2つ(Part1, 2)、Machine Learningコースが1つあり、今年DLコースのPart3がリリース予定とされています。 ▼他ではあまりみない特徴として、 ・受講自体が無料(※) ・タスクベース ・最新の手法をアクティブに取り入れ、実装レベルで説明している(2,3年前の世界最高記録をお気軽に) ・Excelを用いた説明があり、中身がブラックボッ
エンジニア&リサーチインターンの佐藤(Twitter: TodayInsane)です。 ABEJA Advent Calendarの21日目を担当します。 もうすぐクリスマスですね!"Merry&Happy"!!! 軽い自己紹介 今年の4月からフロントエンドのデザイン→Vue.js実装をメインの業務とし、半年間とあるプロダクトの開発・案件受注を長期インターンとしてお手伝いさせて頂いてました。本記事と直接の関係はありませんが、このプロダクトの開発者兼ぼくのメンターさんによる思いとテックと面白さが詰まったABEJA Tech Blogも是非ご一読ください。そして9月に初案件が無事成功した話を、インターン体験記兼続編として執筆中です。 現在はエンジニア業務と同時並行で、10月から機械学習のリサーチインターンもしています。上述の人物認証を使ったプロダクトやABEJAのサービスであるInsight
記念すべきQiita初投稿です リサーチインターンでPerson Re-Identificationというタスク(後述)についてサーベイをすることになりました。 さっと眺めてみたところ案の定ここ数年で深層学習モデルが火を吹き、Market-1501やDukeMTMC-reIDやMARSなどメジャーなデータセットにおいてSoTAをバチバチと競っていました。 研究はサーベイしないと何していいか全く分からないので、こと激流の真っ只中にある機械学習界隈においては最新の研究を大量にサーベイすればするほど幸せになれると思います。 そんな時にちょうどいい(?)のがCVPR2019ですね(?) 「person」で検索して出てきた掲載論文を上から順に、時間の許す限り1人粛々とまとめていきます。 (下書き開始から約1ヶ月後に追記)一応全て目を通し掲載できました。 なお目的としては現状把握が強めのため、さらっと
本記事は書きかけです。最近は主に Zenn で記事を書いており、本記事の内容の拡大板を書籍として公開しているので続きはそちらをご覧ください。 まえがき この記事は2019年3/11日(日)に大阪大学中之島センターで開講された『機械学習・データ科学スプリングキャンプ初日「ガウス過程と機械学習入門」』の備忘録になります。当日は持橋先生と大羽先生が代わる代わる刺激的な講演をしてくださいました。GPLVMの計算量削減エゲツない。 学生なのでいまTwitterで話題のこちらの書籍1を無料でいただきました。なんと太っ腹。 注意 本記事ではもともと講義で聴講した内容をなるべくそのまま残そうとしましたが、初稿から記事修正までに時間が経ってしまったこと、解説記事では講義と同じテンポでは説明できないことを踏まえて、私なりに再構成しています。 数式の表記は基本的にガウス過程本に倣います。ベクトル${\bf x}
次元と近似の話。 100次元空間にプロットAがあるとする。 しかし、我々には限られた測定手段しかない。 そう。たった10通りの方法=10次元のパラメータしか測れない そうすると、100次元空間のプロットAは10次元空間に近似して表現される。 この近似は、残りの90次元の情報を捨てているという意味ですね。 ところで、手元にある10次元のパラメータは、一般には、互いに独立ではないですね。 今日の歩数$α$と、ラーメン摂取量$β$、体重変化量$γ$と、は、互いに独立ではない。 で、ポイントは、$α, β, γ$をジックリ調べてみる。 何か怪しい。 良く歩いている。ラーメンを食べていない。なのに体重が1kgも増えている。 さては、ビールをがぶ飲みしながら揚げ物を食べまくったな。 きっと、財布の中身も減っているでしょう。 つまり、パラメータ間の相関関係を仮定する事で、測定していない(次元)情報を推定
from sklearn.datasets import load_iris from sklearn.model_selection import train_test_split import torch from torch import nn iris = load_iris() X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target) X_train = torch.from_numpy(X_train).float() y_train = torch.tensor([[float(x)] for x in y_train]) X_test = torch.from_numpy(X_test).float() y_test = torch.tensor([[float(x)] for x
使える統計モデル10選(前編) 統計モデリング(statistical modelling)はデータ解析の方法論の1つです。データ解析の目的は、通常はただの数値や記号の羅列であるデータから、人間が何かしらの判断を行うために有益な情報を引き出すことにあります。データ分析者は、そのままでは意味をなさないデータに対して、折れ線グラフやヒストグラムなどを用いて、人間が判断を行いやすいようにデータの可視化を行います。一方で、時にはニューラルネットワークのような複雑な計算モデルを使ってデータを解析し、まだ観測されていない将来の値を予測させたりします。このように、データから有益な情報を引き出すために、データに対して人為的な視点や事前知識、数学的な仮定などを設計する作業をモデリング(modeling)と呼びます。 統計モデリングによるデータ解析では、データ自体や解析の目的に合わせて分析者が適切なモデルを設
使える統計モデル10選(後編) 前回の記事では、使える統計モデル10選の前編として、主に回帰モデルに焦点を絞って紹介しました。 今回はその後編に当たる生成モデル編です。生成モデル(generative model)は、端的に言うと、コンピュータシミュレーションによりデータを人工的に作ることができるモデルです。データが作られる過程をうまく表現したモデルを構築することができれば、予測だけではなく異常検知やデータ圧縮など幅広いタスクに応用することができます。 生成系(教師なし系) 回帰モデルと同様、生成モデルも数個のパラメータから構成される簡単なものから、複数のモデルを巧みに組み合わせた複雑なものまで無限に存在します。ここでは、データ圧縮から自然言語処理、ソーシャルネット解析までさまざまなデータ解析のタスクで利用されている代表的な生成モデルを5つ選んで紹介します。また、生成モデルのすべては潜在変
今の時代なら、オンラインコースで新しい技術を身に付けることができるようになりました。最近CourseraでAndrew Ngが教えるDeep Learning specializationを完了して、非常に勉強になりました。数学の説明が多くて、最初のモデルは完全にpython・numpyで作ります。レッスンを続くと、Tensorflow、Kerasも使うことがあります。理論の根拠をしっかり勉強して、活用する習い方のスタイルになります。 ただし、数年前から話題になっているfast.aiはまったく逆のやり方にです。「まずやろうぜ」のアプローチです。やってみることによって、fast.aiの基本のライブラリでどんなに簡単に人工知能モデルを作れるか刺激的です。 fast.aiのレッスン 1 のコードに基づいて、ギターを識別できるモデルを作ってみました。 ギターはあまりわからない方に申し訳ないですが、
はじめに fastaiとは fastaiライブラリを使用すると、最新のテクニックを使用してニューラルネットのトレーニングを簡潔に記述できます。 ニューラルネットの記述にはpytorch を使用しています。 fastaiの機能は、サンフランシスコ大学教員のjeremyさんたちがfast.aiというコミュニティで行っているディープラーニングの研究に基づいて実装されています。 バージョンについて fastaiはv0.7と、2018年10月にリリースされたv1でAPIが大きく異なります。古い方だと動作しないコードもあるので、コードを探すときはご注意ください。 courseもv0.7対応の2018年版「Practical Deep Learning For Coders, Part 1 / Cutting Edge Deep Learning For Coders, Part 2」ではなく、v1対応
この記事はバカン Advent Calendar 2019の4日目の投稿です。 Jupyterer向けの記事となります。 理解不十分な部分もあるため、詳細は公式を確認してください。 nbdevとは おそらく簡潔にいうと、IDEの役割を含めることで、Jupyter Notebook1つで作業を完結させるPythonのプログラム環境のことです。 fast.aiが作成しており、現在開発中のfastai v2もnbdevを用いているとのことです。 現状、EDAやモデル構築などの試行錯誤はJupyter Notebookを用いて行われることが多く、"exploring"の役割として存在しています。ですが、それ以降のフェーズではIDEを使うのが一般的とされています。 nbdevでは以下のような機能を提供することで、jupyter上で完結することを試みています。 ・pyファイルの作成 ・READMEの作
今年3月頃から機械学習(主にDeepLearning)とKaggleを始め、賞金のあるコンペ「Freesound Audio Tagging 2019(以下FAT2019)」に初めて挑戦しました。やるならばと金メダルを目指していましたが、結果はPrivateLB 89位で銅メダルに落ち着きました。苦労・工夫した点や、参考にした論文、記事、カーネルなども交えてここに記録したいと思います。 ちなみに以下が最終提出カーネルです。 定数で学習モードと推論モードを切り替えていたので、少し読みづらいですが…。なお、MixMatchなど一部の実装は実験的なもので、最終提出には使っていません。 モデルAの学習カーネル モデルBの学習カーネル(A→B 転移学習) モデルBを使った推論カーネル コンペの内容 FAT2019は、環境音データに対して「エンジン音」や「男性の歌声」などのタグを付ける認識モデルを開発
Fabricというアプリケーションのデプロイ作業や管理作業を自動化するためのツール(Pythonモジュール含む)があります。 アプリケーションのデプロイ作業や管理作業の自動化の為のツールと聞くと、訳の分からんDSL覚えなきゃいけないのかだるいなぁとか、謎のアーキテクチャに合わせなきゃいけないのかめんどくせとか思ってしまうタイプだったんですが、FabricはPythonで書けます。仕組みも(概念的にはでありますが)単純です。 ローカルからリモートへSSHで接続して行える作業だったら基本的に何でも自動化出来ます。 で、リモートのサーバーを複数定義しておくと、自動化した作業を1つずつ全部に適用してくれます。 ロードバランサーの下にWebサーバーが複数あって、それらに自動的にアプリケーションを配置・再配置するために使うってのがよくあるパターンだと思います。 今回は、複数のサーバーに同じ初期設定を行
PR: 以前の記事 のデータサイエンティスト向け講座のColab実行方法などをまとめ、 図解速習DEEP LEARNINGという本ができました。[2019年5月版] 機械学習・深層学習を学び、トレンドを追うためのリンク150選 - Qiitaでも、一部内容をご覧いただけます 参考: Colaboratoryユーザによる非公式の情報交換Slackを試験的に立ち上げました。リンクより、登録・ご参加ください。 TL;DR いつも満員抽選となる東大松尾研Deep Learningエンジニア育成講座『DL4US』の演習資料が公開された Google Colaboratoryを使えば、Python等セットアップ不要ですぐに始められる 全ノートブックを実行し、つまずき所も乗り越え方をまとめました セットアップ後は、スマホやタブレットのブラウザでもok GPUだって無料で使える! Colab概要はこちら:
東京大学の松尾研究室が無料公開している「Deep Learning基礎講座演習コンテンツ」の自主学習方法 手元のPC with Ubuntu 16.04 LTS (+ GeForce 1080) で試した際のメモ。なお、私はnotebook内でやっていることの中身は基本的に一切理解してない。それらしい結果は出ているけど正確かは知らない。 Anaconda不使用 Ubuntu標準のPython 3.5 pyenv使ってやろうとしたら非本質的なところでハマりまくったので生 ~/tensorflow にvirtualenvを経由して環境を用意するというTensorflow公式のドキュメントに基づく TensorFlowのドキュメント不親切だな色々。 tensorflow-gpu 1.5.0 で動作した模様。CUDAは9.1ではなく9.0 Docker不使用。生 tensorflowの他 nump
2019/5/11 PR: こちらの内容を含め、2019年5月11日発刊の 図解速習DEEP LEARNINGという本ができました。[2019年5月版] 機械学習・深層学習を学び、トレンドを追うためのリンク150選 - Qiitaでも、一部内容をご覧いただけます 2019/3/9 ここで紹介している講座が、「東京大学のデータサイエンティスト育成講座」として書籍化されました! 2019/3/9 Colaboratoryに関する情報交換Slackを試験的に立ち上げました。リンクより、登録・ご参加ください。 TL;DR 東大松尾研がJupyter notebook形式でデータ分析/ Deep Learning講義内資料をそれぞれ公開 Google Colaboratoryを使えば、Python等セットアップ不要ですぐに始められる セットアップ後は、スマホブラウザでもok そもそもデータ分析/人工
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く