ベイズ最適化と能動的レベル集合推定の基礎と実践に関するセミナー資料
共立出版様よりご恵贈いただきました。高品質なデータセットがあれば比較的単純なアルゴリズムでも十分な結果が出せるのは産業界でよく知られているにもかかわらず、既存の書籍や授業はデータセット作成ではなくアルゴリズムに焦点を当てています。本書は機械学習研究と災害対応をバックグラウンドに持つ著者がデータセット作成プロセスに焦点を当てており、Human-in-the-Loop機械学習、能動学習、アノテーションについて様々なドメインの機械学習応用事例を交えて解説しています。 目次 【第I部 概要】 第1章 Human-in-the-Loop機械学習の概要 第2章 Human-in-the-Loop機械学習を始める 【第II部 能動学習】 第3章 不確実性サンプリング 第4章 多様性サンプリング 第5章 高度な能動学習 第6章 能動学習をさまざまな機械学習タスクに適用する 【第III部 アノテーション】
はじめに セマンティックセグメンテーションを行う時に普段はアノテーションを作成するのは大変な作業でしょう。もしそれが自動的に作れるのならどれくらい楽になるでしょうね。 私は「自動的に生成された画像データセットで学習して本物に適用する」ということはよくやっています。普通の分類モデルでも教師データを準備することは大変なことだから、自動生成のデータが代わりに使えたら楽ですね。 そしてその生成データはセマンティックセグメンテーションにも使えるようにすることもできます。自動的に生成したデータなので、アノテーションも当然同時に作成することができます。しかもこれは手作業より正確で完璧なアノテーションになるでしょう。 「学習データがないので自分で生成する」という話はよくあることで新しいことではないのですが、これをセマンティックセグメンテーションに使う例はあまり聞いたことないの意外でした。だから私は自分で試
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? Sonic visualiserを用いてアノテーションを行う方法の個人的な備忘録と,ラボの後輩がアノテーションに困った時用のとっかかりの記事として. 全2記事,前編(本記事)ではSonic visualiserの紹介,後編ではアノテーションの具体的な手順について紹介する予定. アノテーション 音楽音源データの解析タスク(コード識別,メロディ検出,音楽構造解析,自動採譜etc...)を行うには, 音源そのものと,正解のラベルが必要です. その正解のラベルを1から作る方法として,アノテーションを行う必要があります. 音源に対してアノテーショ
Twitter: ottamm_190 追記 2022/4/24 speakerdeck版:https://speakerdeck.com/masatoto/shen-ceng-xue-xi-falsebu-que-shi-xing-uncertainty-in-deep-neural-networks コンパクト版:https://speakerdeck.com/masatoto/shen-ceng-xue-xi-niokerubu-que-shi-xing-ru-men
はじめに この資料は機械学習名古屋勉強会のAnnoFabハンズオンの補足説明です。 本編はこちらです。 自己紹介 n-kats(中西克典) 来栖川電算で機械学習エンジニア 話の内容 アノテーションと機械学習プロジェクト全体の関係の話を通して、研究者(機械学習エンジニア)視点で思っていることを話します。 結論を先に言うと、 サービス内容・アルゴリズム・アノテーション方法・データは密につながっている バッサリ分けて考えている人が多い気がする、炎上の元なのでやめてほしい 機械学習プロジェクトには研究者以外の努力も大切 丸投げダメ絶対、肝心な仕事を忘れないで 機械学習にばかり目が行き過ぎてもダメ(機械学習楽しいけど) アノテーションをするだけで分かることはたくさんある 素早くたくさん失敗する・上手く行かないところに気付くには、すぐには機械学習をしない選択も お断り 難しい話かも。 結論は言ったので
AIは教師データの収集とアノテーションが大変 こんにちは、AIやってますか!?(唐突な問いかけ) AIの中でも、ディープラーニングの画像認識といえば、大変なのは教師データを集めることとアノテーションですね。 数千枚の画像に対して、例えばルールを変えてアノテーションのやり直しとか、セマンティックセグメンテーションのアノテーションとか地獄ですよね(想像です)。 なんとかこの教師データの収集とアノテーションを自動化するのが人類の夢なのではないかと思います。ただ、これは卵が先か鶏が先かの話なのでとても難しいです。今回は、Unityを使って、この教師データ生成をなんとか自動化できないかというトライアルになります。 既に先行事例に加えて、Unityさんが丁寧なチュートリアルを出していますので、今回はそれに沿って実践していく形になります。 ブログにも記事を書いていますので、よろしければこちらも合わせて参
はじめまして,インターンの中村です。今回は,アノテーションコストを抑えつつも,高性能な機械学習モデルを学習するための手法である能動学習 (Active Learning) について,その自然言語処理における研究例を紹介したいと思います。特に,自然言語処理において,大量のラベルありデータを集めることが難しく,必要最低限のアノテーションで高性能なモデルを効率的に学習したいといった方にぜひ一読をお勧めしたい内容となっています。 はじめに 深層学習の課題 Active Learningとは Active Learningの概要 1. ラベルなしデータの選択方法 2. ラベルなしデータの抽出基準 自然言語処理における Active Learning テキスト分類における Active Learning 事前学習済みモデル以前の Active learning 事前学習済みモデルを使った Active
実タスクで簡単な能動学習を試してみました。結論としては、1200件で到達できる精度に400件程度のアノテーションでも到達でき、それによりアノテーションに要する時間をかなり削減できそうということが分かりました*1。今後、アノテーションを必要とする機械学習タスクをやる際には能動学習で一手間かけるのを検討してみようと思います。 能動学習をする動機 ここしばらく仕事のタスクで機械学習の教師用のデータをアノテーションをする機会がありました。機械学習する上で、1000件程度は学習データ欲しいという想定でポチポチとアノテーションをしていました。一人1時間で大体100件くらいのデータが作れるようなタスクでしたが、1000件アノテーションするには約10時間の作業工程が必要です。アノテーション自体よりはコードを書いたり実験するのが好きな人間なので、5時間くらいずっとアノテーションしていると疲労します。同じ精度
いつも面白いネタを書かれるすぎゃーん氏の機械学習ネタスライド コードや説明など細かく書いて公開されているのですごく勉強になる speakerdeck.com 上記のスライドのテキスト内容(ブログ記事)がこの辺になるらしい 機械学習の結果の精度はツール自体(アルゴリズム)の精度、というよりはインプットデータの量と綺麗さによる部分が大きい。そんなわけでこのスライドに紹介されている話も例によってインプットとする画像への正解ラベル付けが地獄なわけですが、 ということで、学習用のデータを用意するのは大変だけど、 ある程度(自力でラベル付を行い正解データが)集まったらとりあえず学習させる 学習させたモデルを使って推論させてみる 推論結果を検証することで学習データを増やし、再び学習させることで精度が上がる というサイクルを続けることで、なんだかんだで自力で13000点ほどの分類済みのアイドル顔データを作
マイクロソフトがLobeというツールを公開しました。 このツールを使うことでとても簡単に画像分類の機械学習モデルを作ることができます。 Lobeの画像分類には「ResNet-50 V2」と「MobileNetV2」の2つのmodelを使用することができます。 それぞれのmodelには特徴があり目的や実行環境に合わせて使い分ける必要があります。 ResNet-50 V2を使用すると高い予測精度を達成できますが、予測時間が長くなりより多くのメモリが使用されます。 MobileNetV2は予測速度が速く、メモリ使用量は少ないですが、予測精度は高くありません。 ある程度のマシンパワーがある環境で高い精度が必要なときはResNet-50 V2を使用し、 スマホやRaspberry PiなどではMobileNetV2を使用することになると思います。 どちらのmodelを使用しても転移学習を用いることで
TL;DR 半教師あり学習の1つの手法である、疑似ラベルをCIFAR-10で試した サンプル数が少ない場合は、疑似ラベルを使うことでテスト精度を引き上げることができた ただし、転移学習と比べると若干見劣りすることもある 元ネタ かなり平易に書かれた論文なので読みやすいと思います。 Dong-Hyun, Lee. Pseudo-Label : The Simple and Efficient Semi-Supervised Learning Method for Deep Neural Networks. 2013 http://deeplearning.net/wp-content/uploads/2013/03/pseudo_label_final.pdf 半教師あり学習とは 「教師あり学習」と「教師なし学習」の間の子。教師あり学習のように$(X, y)$とラベル付けされたデータと、教師
画像の認識・理解シンポジウム(MIRU2023)チュートリアル
論文リンク:https://dl.acm.org/citation.cfm?id=3347034
Structured Data(構造化データ)の下処理をおこなう際に避けて通れないのがFeature Engineering(特徴量エンジニアリング)。 特に悩ましいのがカテゴリ変数の扱いで、どのように扱えば良いか困ることが多く、また、使った手法もすぐに忘れてしまいがちなので、自分なりに整理して記事にまとめておきたいというのが趣旨。 1.よく使われる手法 2.次元を増やさない場合 Label Encoding Count Encoding LabelCount (Count Rank) Encoding Target Encoding 3.次元を増やす場合 One hot encoding Entity Embedding 4.参考記事 1.よく使われる手法 まずはよく用いられる定番の手法から。次元を増やすかどうかで大まかに次の2つに分類できる。 ・次元を増やさない場合(Label, Co
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く