タグ

*algorithmとlabelに関するsh19910711のブックマーク (39)

  • 機械学習による適応的実験計画

    ベイズ最適化と能動的レベル集合推定の基礎と実践に関するセミナー資料

    機械学習による適応的実験計画
    sh19910711
    sh19910711 2024/06/06
    "従来の実験計画: 予め実験を行う候補を列挙(実験計画法) + 候補条件に対しては網羅的に実験 / 不確実性: 適応的実験計画に有用な情報をもたらす + 知識不足に起因(データ不足) or 偶然変動(ノイズ)" 2023
  • 感想: Human-in-the-Loop 機械学習 -人間参加型AIのための能動学習とアノテーション-

    共立出版様よりご恵贈いただきました。高品質なデータセットがあれば比較的単純なアルゴリズムでも十分な結果が出せるのは産業界でよく知られているにもかかわらず、既存の書籍や授業はデータセット作成ではなくアルゴリズムに焦点を当てています。書は機械学習研究と災害対応をバックグラウンドに持つ著者がデータセット作成プロセスに焦点を当てており、Human-in-the-Loop機械学習、能動学習、アノテーションについて様々なドメインの機械学習応用事例を交えて解説しています。 目次 【第I部 概要】 第1章 Human-in-the-Loop機械学習の概要 第2章 Human-in-the-Loop機械学習を始める 【第II部 能動学習】 第3章 不確実性サンプリング 第4章 多様性サンプリング 第5章 高度な能動学習 第6章 能動学習をさまざまな機械学習タスクに適用する 【第III部 アノテーション】

    感想: Human-in-the-Loop 機械学習 -人間参加型AIのための能動学習とアノテーション-
    sh19910711
    sh19910711 2024/05/30
    "7章: アノテーションチームのチームビルディングに関するトピック + 社内ワーカー・アウトソーシングワーカー・クラウドワーカーに分類しそれぞれに適したコミュニケーションの方法や報酬設計"
  • 3Dモデルから自動的に生成した画像とアノテーションのデータセットで学習するセマンティックセグメンテーション - Qiita

    はじめに セマンティックセグメンテーションを行う時に普段はアノテーションを作成するのは大変な作業でしょう。もしそれが自動的に作れるのならどれくらい楽になるでしょうね。 私は「自動的に生成された画像データセットで学習して物に適用する」ということはよくやっています。普通の分類モデルでも教師データを準備することは大変なことだから、自動生成のデータが代わりに使えたら楽ですね。 そしてその生成データはセマンティックセグメンテーションにも使えるようにすることもできます。自動的に生成したデータなので、アノテーションも当然同時に作成することができます。しかもこれは手作業より正確で完璧なアノテーションになるでしょう。 「学習データがないので自分で生成する」という話はよくあることで新しいことではないのですが、これをセマンティックセグメンテーションに使う例はあまり聞いたことないの意外でした。だから私は自分で試

    3Dモデルから自動的に生成した画像とアノテーションのデータセットで学習するセマンティックセグメンテーション - Qiita
    sh19910711
    sh19910711 2024/05/27
    "自動的に生成したデータなので、アノテーションも当然同時に作成することができ + 手作業より正確で完璧 / 海星ヒトデを入れるのと入れない同じ画像のペアで学習すると海星ヒトデの特徴を把握しやすい"
  • 【音楽情報処理】Sonic Visualiserで音楽データのアノテーション 前編:Sonic visualiserの紹介 - Qiita

    Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? Sonic visualiserを用いてアノテーションを行う方法の個人的な備忘録と,ラボの後輩がアノテーションに困った時用のとっかかりの記事として. 全2記事,前編(記事)ではSonic visualiserの紹介,後編ではアノテーションの具体的な手順について紹介する予定. アノテーション 音楽音源データの解析タスク(コード識別,メロディ検出,音楽構造解析,自動採譜etc...)を行うには, 音源そのものと,正解のラベルが必要です. その正解のラベルを1から作る方法として,アノテーションを行う必要があります. 音源に対してアノテーショ

    【音楽情報処理】Sonic Visualiserで音楽データのアノテーション 前編:Sonic visualiserの紹介 - Qiita
    sh19910711
    sh19910711 2024/05/23
    "音楽情報処理研究の世界では,Sonic Visualiserというソフトウェアが用いられ / Sonic Visualiser: 音楽分析に特化した様々な可視化・分析 / 可聴化機能: 見ながら&聴きながらのアノテーションが可能" 2022
  • 深層学習の不確実性 - Uncertainty in Deep Neural Networks -

    Twitter: ottamm_190 追記 2022/4/24 speakerdeck版:https://speakerdeck.com/masatoto/shen-ceng-xue-xi-falsebu-que-shi-xing-uncertainty-in-deep-neural-networks コンパクト版:https://speakerdeck.com/masatoto/shen-ceng-xue-xi-niokerubu-que-shi-xing-ru-men

    深層学習の不確実性 - Uncertainty in Deep Neural Networks -
    sh19910711
    sh19910711 2024/05/11
    "現実の環境は非常に変化しやすくNNが未知データと捉え「知らない」不確実性が生まれる / NNは分布の変化に敏感 + 性能を劣化させることがある / アンサンブルで重要なのはNN間の振る舞いの多様性" 2021
  • シンプルなHITL機械学習と様々なタスクにおけるHITL機械学習

    sh19910711
    sh19910711 2024/05/11
    "様々なサンプリング手法を組み合わせて活用することで同じ件数の学習データであってもモデルの予測性能を効率よく改善できる / 評価データを最初に作成しないとモデルの精度を正しく評価するのが難しくなる"
  • 能動学習のいろは:書籍「Human-in-the-Loop機械学習」3〜5章

    sh19910711
    sh19910711 2024/05/10
    "エントロピー基準サンプリング: 正解ラベルを観測した際の「驚き」の期待値で不確実性を計算 / 多様性サンプリング: モデルが「知らないことを知らない」データを特定してサンプリングしたい"
  • 20分で分かる Human-in-the-Loop 機械学習におけるアノテーションとヒューマンコンピューターインタラクションの真髄

    第8回 Data-Centric AI勉強会 ~Human-in-the-Loop機械学習 特別回~の発表内容です。 https://dcai-jp.connpass.com/event/315963/ 書籍「Human-in-the-Loop 機械学習」において、翻訳を担当した章(1,7,8,…

    20分で分かる Human-in-the-Loop 機械学習におけるアノテーションとヒューマンコンピューターインタラクションの真髄
    sh19910711
    sh19910711 2024/05/10
    "データの性質が時間とともに変化する場合、既存のモデルを新しいデータに適応させるよりも、小規模でも新規にアノテーションしたデータを学習データに追加して再学習させるほうが効果的"
  • Human-in-the-Loop 機械学習 / Human-in-the-Loop Machine Learning

    Adaptive Experimental Design for Efficient Average Treatment Effect Estimation �and Treatment Choice

    Human-in-the-Loop 機械学習 / Human-in-the-Loop Machine Learning
    sh19910711
    sh19910711 2024/05/06
    "Dawid-Skene: 複数人の回答からの正解予測問題 + EMアルゴリズムを使い回答者信頼性と正解を交互に推定 + Mechanical Turkで利用可能 (SageMaker GroundTruth) / HumanGAN: 人間をGANの識別器にして人間の感性を取り込む" 2021
  • 機械学習プロジェクトとアノテーション(機械学習名古屋第22回勉強会) - Qiita

    はじめに この資料は機械学習名古屋勉強会のAnnoFabハンズオンの補足説明です。 編はこちらです。 自己紹介 n-kats(中西克典) 来栖川電算で機械学習エンジニア 話の内容 アノテーションと機械学習プロジェクト全体の関係の話を通して、研究者(機械学習エンジニア)視点で思っていることを話します。 結論を先に言うと、 サービス内容・アルゴリズム・アノテーション方法・データは密につながっている バッサリ分けて考えている人が多い気がする、炎上の元なのでやめてほしい 機械学習プロジェクトには研究者以外の努力も大切 丸投げダメ絶対、肝心な仕事を忘れないで 機械学習にばかり目が行き過ぎてもダメ(機械学習楽しいけど) アノテーションをするだけで分かることはたくさんある 素早くたくさん失敗する・上手く行かないところに気付くには、すぐには機械学習をしない選択も お断り 難しい話かも。 結論は言ったので

    機械学習プロジェクトとアノテーション(機械学習名古屋第22回勉強会) - Qiita
    sh19910711
    sh19910711 2024/04/27
    "専門家でなくても分かること・出来ることをちゃんとする / 機械学習が分からなくても出来ることをサボるとプロジェクトが上手く進まない / 「解決方法を探る」の段階でどうアノテーションするかも考える" 2019
  • Unityでディープラーニング学習用の教師データを大量に生成する方法

    AIは教師データの収集とアノテーションが大変 こんにちは、AIやってますか!?(唐突な問いかけ) AIの中でも、ディープラーニングの画像認識といえば、大変なのは教師データを集めることとアノテーションですね。 数千枚の画像に対して、例えばルールを変えてアノテーションのやり直しとか、セマンティックセグメンテーションのアノテーションとか地獄ですよね(想像です)。 なんとかこの教師データの収集とアノテーションを自動化するのが人類の夢なのではないかと思います。ただ、これは卵が先か鶏が先かの話なのでとても難しいです。今回は、Unityを使って、この教師データ生成をなんとか自動化できないかというトライアルになります。 既に先行事例に加えて、Unityさんが丁寧なチュートリアルを出していますので、今回はそれに沿って実践していく形になります。 ブログにも記事を書いていますので、よろしければこちらも合わせて参

    Unityでディープラーニング学習用の教師データを大量に生成する方法
    sh19910711
    sh19910711 2024/04/18
    "人類の夢: 教師データの収集とアノテーションを自動化する / Unityを使って、この教師データ生成をなんとか自動化できないか / com.unity.perception: Unityの教師データ生成のためのチュートリアル" 2021
  • 自然言語処理における Active Learning - ELYZA Tech Blog

    はじめまして,インターンの中村です。今回は,アノテーションコストを抑えつつも,高性能な機械学習モデルを学習するための手法である能動学習 (Active Learning) について,その自然言語処理における研究例を紹介したいと思います。特に,自然言語処理において,大量のラベルありデータを集めることが難しく,必要最低限のアノテーションで高性能なモデルを効率的に学習したいといった方にぜひ一読をお勧めしたい内容となっています。 はじめに 深層学習の課題 Active Learningとは Active Learningの概要 1. ラベルなしデータの選択方法 2. ラベルなしデータの抽出基準 自然言語処理における Active Learning テキスト分類における Active Learning 事前学習済みモデル以前の Active learning 事前学習済みモデルを使った Active

    自然言語処理における Active Learning - ELYZA Tech Blog
    sh19910711
    sh19910711 2024/04/16
    "テキスト分類で 10数% 程度,NER で 20% 程度,Image Captioning では 45%程度 のラベルありデータがあれば,訓練データ全てにラベルを付与した通常の教師あり学習に匹敵する性能を得られることが報告" 2021
  • 実タスクで能動学習を試してみた - yasuhisa's blog

    実タスクで簡単な能動学習を試してみました。結論としては、1200件で到達できる精度に400件程度のアノテーションでも到達でき、それによりアノテーションに要する時間をかなり削減できそうということが分かりました*1。今後、アノテーションを必要とする機械学習タスクをやる際には能動学習で一手間かけるのを検討してみようと思います。 能動学習をする動機 ここしばらく仕事のタスクで機械学習の教師用のデータをアノテーションをする機会がありました。機械学習する上で、1000件程度は学習データ欲しいという想定でポチポチとアノテーションをしていました。一人1時間で大体100件くらいのデータが作れるようなタスクでしたが、1000件アノテーションするには約10時間の作業工程が必要です。アノテーション自体よりはコードを書いたり実験するのが好きな人間なので、5時間くらいずっとアノテーションしていると疲労します。同じ精度

    実タスクで能動学習を試してみた - yasuhisa's blog
    sh19910711
    sh19910711 2024/04/15
    "Uncertainly Sampling: アノテーションされていない全てのデータに対してスコアを付与 + スコアの絶対値が最小の事例に人手でアノテーション + アノテーションされたデータ全体を使って分類器を再学習" 2016
  • 機械学習用の学習データをイチから自力で作るには愛がないと無理だと悟った - データの境界

    いつも面白いネタを書かれるすぎゃーん氏の機械学習ネタスライド コードや説明など細かく書いて公開されているのですごく勉強になる speakerdeck.com 上記のスライドのテキスト内容(ブログ記事)がこの辺になるらしい 機械学習の結果の精度はツール自体(アルゴリズム)の精度、というよりはインプットデータの量と綺麗さによる部分が大きい。そんなわけでこのスライドに紹介されている話も例によってインプットとする画像への正解ラベル付けが地獄なわけですが、 ということで、学習用のデータを用意するのは大変だけど、 ある程度(自力でラベル付を行い正解データが)集まったらとりあえず学習させる 学習させたモデルを使って推論させてみる 推論結果を検証することで学習データを増やし、再び学習させることで精度が上がる というサイクルを続けることで、なんだかんだで自力で13000点ほどの分類済みのアイドル顔データを作

    機械学習用の学習データをイチから自力で作るには愛がないと無理だと悟った - データの境界
    sh19910711
    sh19910711 2024/04/14
    "機械学習の結果の精度はツール自体(アルゴリズム)の精度、というよりはインプットデータの量と綺麗さによる / 全く興味ない対象の学習データを自力で作るの、これ見たらやっぱり無理だと悟った" 2016
  • マイクロソフトが公開した機械学習モデルの訓練を容易にできる「Lobe」を試してみた。 - Qiita

    マイクロソフトがLobeというツールを公開しました。 このツールを使うことでとても簡単に画像分類の機械学習モデルを作ることができます。 Lobeの画像分類には「ResNet-50 V2」と「MobileNetV2」の2つのmodelを使用することができます。 それぞれのmodelには特徴があり目的や実行環境に合わせて使い分ける必要があります。 ResNet-50 V2を使用すると高い予測精度を達成できますが、予測時間が長くなりより多くのメモリが使用されます。 MobileNetV2は予測速度が速く、メモリ使用量は少ないですが、予測精度は高くありません。 ある程度のマシンパワーがある環境で高い精度が必要なときはResNet-50 V2を使用し、 スマホやRaspberry PiなどではMobileNetV2を使用することになると思います。 どちらのmodelを使用しても転移学習を用いることで

    マイクロソフトが公開した機械学習モデルの訓練を容易にできる「Lobe」を試してみた。 - Qiita
    sh19910711
    sh19910711 2024/04/07
    "Lobe: 画像分類 + 「ResNet-50 V2」と「MobileNetV2」 + 学習したmodelはエクスポートしてCoreMLやTensorFlowで利用 / 予測が間違っている場合は、下記の画像で示した場所をクリックするとLabelが修正されて再度Trainingが行われ" 2020
  • CIFAR-10を疑似ラベル(Pseudo-Label)を使った半教師あり学習で分類する - Qiita

    TL;DR 半教師あり学習の1つの手法である、疑似ラベルをCIFAR-10で試した サンプル数が少ない場合は、疑似ラベルを使うことでテスト精度を引き上げることができた ただし、転移学習と比べると若干見劣りすることもある 元ネタ かなり平易に書かれた論文なので読みやすいと思います。 Dong-Hyun, Lee. Pseudo-Label : The Simple and Efficient Semi-Supervised Learning Method for Deep Neural Networks. 2013 http://deeplearning.net/wp-content/uploads/2013/03/pseudo_label_final.pdf 半教師あり学習とは 「教師あり学習」と「教師なし学習」の間の子。教師あり学習のように$(X, y)$とラベル付けされたデータと、教師

    CIFAR-10を疑似ラベル(Pseudo-Label)を使った半教師あり学習で分類する - Qiita
    sh19910711
    sh19910711 2024/03/06
    "疑似ラベルによる半教師あり学習: 未ラベルデータと、本物のラベルがついたラベル付データを混ぜて同時に訓練 / 訓練させるたびに、疑似ラベルを再度推論 / 本物のラベルと疑似ラベルの間のバランスが重要" 2018
  • 大規模言語モデル時代のHuman-in-the-Loop機械学習

    画像の認識・理解シンポジウム(MIRU2023)チュートリアル

    大規模言語モデル時代のHuman-in-the-Loop機械学習
    sh19910711
    sh19910711 2023/07/26
    arXiv:2306.07899 / "ChatGPTに作業を丸投げするMTurkワーカ: 医学論文のabstractの要約を依頼 + 33〜46%のワーカがChatGPTを使って作業を行ったと推定された / 「ChatGPT使用」と検出された要約は元の文章からのコピーが著しく少ない"
  • 論文紹介:Relaxed Softmax for PU Learning

    論文リンク:https://dl.acm.org/citation.cfm?id=3347034

    論文紹介:Relaxed Softmax for PU Learning
    sh19910711
    sh19910711 2021/10/08
    "Positive-Unlabeled (PU) Learning > 正例にだけラベルがついている + 言語モデルの学習でよくある状況 / 誤分類しやすい負例をサンプリングしたい > ボルツマン負例サンプリングを提案"
  • カテゴリカル変数のEncoding手法について - ysaz (ImanazaS) blog

    Structured Data(構造化データ)の下処理をおこなう際に避けて通れないのがFeature Engineering(特徴量エンジニアリング)。 特に悩ましいのがカテゴリ変数の扱いで、どのように扱えば良いか困ることが多く、また、使った手法もすぐに忘れてしまいがちなので、自分なりに整理して記事にまとめておきたいというのが趣旨。 1.よく使われる手法 2.次元を増やさない場合 Label Encoding Count Encoding LabelCount (Count Rank) Encoding Target Encoding 3.次元を増やす場合 One hot encoding Entity Embedding 4.参考記事 1.よく使われる手法 まずはよく用いられる定番の手法から。次元を増やすかどうかで大まかに次の2つに分類できる。 ・次元を増やさない場合(Label, Co

    カテゴリカル変数のEncoding手法について - ysaz (ImanazaS) blog