[B! *algorithm][label] sh19910711のブックマーク

sh19910711 id:sh19910711

*algorithmとlabelに関するsh19910711のブックマーク (39)

[Ridge-i 論文読み会] ICLR2019における不完全ラベル学習
Ridge-i 論文読み会での発表資料 https://ridge-i-yomikai.connpass.com/event/124688/
sh19910711 2025/11/19
2019 / "不完全ラベル学習: 学習に用いられるデータのラベルが欠損しているという問題設定 / 現実問題ではラベリングの際のデータの選択にバイアスが掛かる / わかりやすいデータにはラベル付けがされやすい"

*algorithm

機械学習

分類

label
リンク
Label Studioによる固有表現抽出のデータアノテーション～ spacy のファインチューニング
ほかにもHomebrewやDockerなどでインストールすることもできます。詳細は公式ドキュメントをご参照ください。インストールできた場合は、次のコマンドでLabel Studioを立ち上げられます。 localhost:8080 に接続して以下のような画面が表示されたら成功です。 HumanSignal. Label Studioのログイン画面のスクショアノテーションユーザー作成「SIGN UP」を選択し、適当なメールアドレス、パスワードを入力してアカウントを作成してください。（メールアドレスは実際に使用しているものでも、user@example.com のようなものでもよいと思います。）無事にユーザー作成ができた場合は以下のような画面に移ります。 HumanSignal. Label Studioのプロジェクト一覧画面のスクショプロジェクト作成「Create Projec
sh19910711 2025/10/18
2024 / "Label Studio: LLMのfine-tuningや訓練に用いるデータを作成できるツール / 物体検出やNER、話者分離など、多様なタスクに対応 / モデルを用いたpre-annotationやactive-learning"

*algorithm

機械学習

label

*program

python
リンク
BERTを用いて膨大なコンテンツにメタデータを自動付与する〜 Yahoo!ショッピングの商品属性推定
ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは。Yahoo! JAPAN研究所の鍜治です。みなさんはコンテンツにメタデータを付与したいとき、どのようにしていますか？　もちろん手作業で付与することもできますが、コンテンツ量が膨大なときには、自動的にメタデータを付与できる仕組みがあると便利だと思いませんか？私がリーダーを務めている研究開発チームでは、Yahoo!ショッピングの商品に属性というメタデータを自動付与するため、BERTを用いた商品属性推定モデルを開発しています。本記事では、そもそも商品の属性とはどういうものなのか、どのようにBERTを使っているのか、既存モデルと精度はどのくらい違うのか、などについてお話したいと思いますので、よろしくお願いします。 Yaho
sh19910711 2025/09/16
2022 / "BERTの元論文では、マスク言語モデルに加えて次文予測（Next Sentence Prediction）モデルを学習することも提案 ~ ここでは採用していません / 商品タイトルについては、そもそも次文を定義することが難しい"

*algorithm

NLP

label

*service

事例
リンク
アノテーションツールをClaudeに作らせて、自分の設計力を見直してみた
イントロ ELEMENTS開発部AiQグループの森本です。私は、AiQ PERMISSIONというプロダクトの開発を担当しております。AiQ PERMISSIONは、セルフガソリンスタンドで義務化されている給油者の行動監視をAIが代替し、人手不足の解消や業務効率化、安全性の向上を目的としています。 AiQ PERMISSIONでは、設置しているカメラ映像から行動を検知して、給油者が不審な行動を対象のレーンに許可を出したり、給油を緊急停止したりします。この処理を行う際に、ガソリンスタンドのカメラの映像情報と各レーンの番号の対応、並びに監視する範囲を指定するために、下記のオレンジ色や赤紫色の枠を設定し、アノテーション情報を付加する必要があります。問題/課題ツールを作成したのは2025年3月時点で、Vibe Codingで簡単なLPなどは作れるような状況でした。が、実際に業務をしていたら「
sh19910711 2025/09/06
"「なんか違う」出来のものができる / 動くものでフィードバックを得て自分の言語化力の不足している点に気づく、というのが特に良かった"

*program

prompt

coding

*algorithm

label
リンク
[DL輪読会] Using millions of emoji occurrences to learn any-domain representations for detecting sentiment, emotion and sarcasm
[DL輪読会] Using millions of emoji occurrences to learn any-domain representations for detecting sentiment, emotion and sarcasm
sh19910711 2025/09/03
2017 / "テキストに付与されている感情表現（顔文字・絵文字・ハッシュタグ）はDistant Supervisionで用いられ ~ / Distant Supervision: 間接的なラベルを用いてラベルなしデータをラベルありデータとして用いる"

*algorithm

NLP

rep

label
リンク
メタ動画データセットによる動作認識の現状と可能性
第74回産総研人工知能セミナー「日常生活知識とAI」での講演スライドです。
sh19910711 2025/08/16
2024 / "知識グラフを利用したゼロショット動作認識 / ノードが動作ラベル + 各ノードの特徴量は、動作ラベルから得た文埋め込みベクトル / GNNの最終層と動画から得られる特徴量で動作認識"

*algorithm

機械学習

cv

label
リンク
NVIDIA Cosmos の世界基盤モデルによる合成データ生成入門〜 Cosmos Predict 編 - ABEJA Tech Blog
こんにちは！ABEJA で ABEJA Platform 開発を行っている坂井（@Yagami360）です。今年の CES2025 にて、 NVIDIA から Cosmos という自動運転やロボティクス用のプラットフォームをリリースしたという発表が大々的にありました。 blogs.nvidia.co.jp CES 2025での NVIDIA 発表動画は、以下を見ていただければと思います（Cosmos以外にも色々発表しています） youtu.be Cosmos は、NVIDIA が提唱している「フィジカル AI」の開発を促進するプラットフォームであり「世界基盤モデル」なるものを使っているとのことで、何やら凄そうな印象を受け、NVIDIA Omniverse との違いも気になったので、実際に Cosmos を動かしながらその機能を確かめてみました。なお、本記事の動画は全体的に画質が悪いです
sh19910711 2025/08/11
"Cosmos: WFMを使用して合成データ生成・データ拡張・合成データ評価・ガードレールなどの機能を提供 / Cosmos Predict: テキスト・画像・動画を入力 + 物理的に正確な動画生成（合成データ生成）を行なう"

*algorithm

機械学習

生成

label

gpu
リンク
20250226 NLP colloquium: "SoftMatcha: 10億単語規模コーパス検索のための柔らかくも高速なパターンマッチャー"
sh19910711 2025/08/02
"SoftMatcha: パターンマッチングの一致判定に単語埋め込みの類似度 + 転置索引を拡張したアルゴリズムにより、10億語規模のコーパスに対しても、柔らかくも高速に検索 / numba: うまく書くとSIMDの性能を簡単に引き出せる"

*algorithm

search

label

近傍

performance
リンク
ロボティクスモデルの精度向上の挑戦　〜データ拡張（Data Augmentation）編〜 - ABEJA Tech Blog
こんにちは！ABEJA で ABEJA Platform 開発を行っている坂井（@Yagami360）です。先日の記事で、LeRobot で公開されているロボティクス領域の VLA モデル「π0」をファインチューニングした上で Gymnasium シミュレーター環境上で動かす方法を解説しました。 tech-blog.abeja.asia 前回の記事では、ただ単に公開されている学習用データセットでモデルをファインチューニングして推論させるだけの簡単な内容でしたが、今回はもう少し踏み込んでモデル自体の改善をやってみようと思います。また前回はロボティクスモデルとして π0 モデルを動かしましたが、今回の記事では学習時間の都合上、より軽量なロボティクスモデルである「ACT」を使用してモデル改善を行います。 ACT [Action Chunking with Trasnformers] の詳細に
sh19910711 2025/07/20
"推論時は学習時と違ってロボットからのカメラ画像がぼやけてしまう / 画像がぼやけた途端にうまく制御できていないことがわかる / 理想的な環境での Max 品質だけではなく汎化性能を含めて評価する"

*algorithm

機械学習

label

*tech

robot
リンク
Kubricで機械学習用の合成データを作成する
※本記事は 2022年07月執筆時の情報です。はじめに機械学習プロジェクトでは良質な教師データが重要とされています。しかし、データ収集やアノテーション作業には手間と時間がかかります。そこでシミュレーションで生成される合成データの利用が提案されています。 Kubric は Google Research が公開している、機械学習用の合成データを生成するためのパイプラインです。3D モデルを使ってインスタンスセグメンテーション、深度画像、オプティカルフローなどのデータセットを作成することができます。物理シミュレーションには PyBullet、レンダリングには Blender が使われています。 Kubric のインストール README と Installing を参考に Kubric が動く環境を作ります。 Kubric のリポジトリをクローンします。
sh19910711 2025/07/08
2022 / "Kubric: 3D モデルを使ってインスタンスセグメンテーション、深度画像、オプティカルフローなどのデータセットを作成 / 物理シミュレーションには PyBullet、レンダリングには Blender"

*algorithm

機械学習

cv

label
リンク
アノテーションのバイアス排除に関する2020年代の研究動向
社内LT会で発表した資料です。内容はアノテーションのバイアス排除に関する近年の研究をざっくり紹介したものです。
sh19910711 2025/06/28
2022 / "単に違う視点を知るだけではバイアス低減には至らない / 余分な情報をあえてつける + 各アイテムの非本質的な部分で学習してしまうことを防ぐ"

*algorithm

機械学習

label
リンク
ラベルなしデータを用いた Dense Tracking の研究事例 / Learning Dense Tracking from Unlabeled Videos
社内勉強会での発表資料です。ラベルなし動画を用いて画素レベルでのトラッキング（dense tracking）を学習する研究事例を紹介します。近年では、応用先である Video Object Segmentation において教師あり手法に匹敵する性能を持った教師なし手法が提案されつつあり…
sh19910711 2025/04/22
2020 / "Dense Tracking: 1フレーム目で与えられた画素が次フレーム以降どこに移動したのかを特定 / Video colorization: 入力の情報を欠損させる + 物体の形状変化に頑健だが、色の大きな変化に対応できる枠組みとなっていない"

*algorithm

機械学習

cv

label
リンク
能動学習による学習データのラベル付け工数削減 - Qiita
はじめにこんにちは、(株)日立製作所研究開発グループサービスコンピューティング研究部の露木です。画像認識や自然言語処理などの問題を教師あり学習の枠組みで解く場合，大量のデータを収集し，正解ラベルを付与して学習データを作成する必要があります。この学習データ作成の工数を削減するために，能動学習と呼ばれる技術があります。能動学習は，モデルの高精度化に有効なラベルなしデータから順に選択して学習する技術です。これにより，ラベルなしデータへのラベル付け作業 (アノテーション) 数を削減し，ひいては学習データの作成コストを削減できます。本記事では能動学習の概要を説明した上で，実行可能なソースコードと実行結果をご紹介します。能動学習の概要機械学習で最も一般的な「教師あり学習」では，複数の特徴量 $x_1,x_2,x_3 \cdots $ からなる特徴量ベクトル $\bf x$ と，ラベル
sh19910711 2025/04/22
2019 / "能動学習が「特定のモデルの高精度化に有用なデータ」から順に追加しますから，実際のデータ分布を反映した有効な評価データを作成できないことに起因し"

*algorithm

機械学習

label
リンク
相互推薦システムでのPseudo Label を活用したマッチ予測精度向上の取り組み
sh19910711 2025/03/05
"マッチングシステムの推薦の難しさ: 正解ラベルがスパース + 両サイドの嗜好をバランスよく考慮する必要がある / 行動量の多い採用担当者に対して今回の手法が有効"

*algorithm

search

label
リンク
[論文読み] Weakly Supervised 3D Object Detection via Multi-Level Visual Guidance
sh19910711 2025/03/01
2024 / "3DBoxのラベル付け作業は2DBoxよりも高コスト / 2Dラベルのみを使用し3D検出器を学習したい / 画像とLiDAR点群で共通する情報を活用"

*algorithm

機械学習

cv

label
リンク
新たな学習方法！「教師あり」Contrastive Learningを解説！ - Qiita
0. 忙しい方へ Contrastive Learningにラベル情報を用いる教師ありCLを提案したよ教師ありCLで用いる損失関数はSupCon(=Supervised Contrastive)という名前だよ教師ありCLがクロスエントロピー損失を用いた通常の教師あり学習よりも高い性能を示したよ ImageNet/CIFAR-10/CIFAR-100の画像分類タスクでより高い分類精度を示したよハイパーパラメーター(e.g. 学習率)への高い安定性も示したよ ImageNet-Cへのロバスト性もより良いよ 1. 教師ありContrastive Learningの説明 1.1 Contrastive Learning 画像: "A Survey on Contrastive Self-supervised Learning", Jaiswal, A., Babu, A., Zadeh, M
sh19910711 2024/10/12
"CLによって自己教師あり学習は2020年大きく飛躍 / 教師ありCL: クロスエントロピー損失を用いた通常の教師あり学習よりも高い性能 / 精度が高いからと言って転移学習もうまくいくわけではなく" '20

*algorithm

機械学習

label
リンク
Confident Learning -そのラベルは正しいか？- - 学習する天然ニューラルネット
これは何？ ICML2020に投稿された Confident Learning: Estimating Uncertainty in Dataset Labels という論文が非常に面白かったので、その論文まとめを公開する。論文 [1911.00068] Confident Learning: Estimating Uncertainty in Dataset Labels 超概要データセットにラベルが間違ったものがある(noisy label)。そういうサンプルを検出したい Confident Learningという方法を提案。現実的な状況下でSOTAを達成 PyPIに実装を公開済みですぐに使用可能(pip install cleanlab) GitHub - cgnorthcutt/cleanlab: Find label errors in datasets, weak supe
sh19910711 2024/09/15
"データセットにラベルが間違ったものがある(noisy label)。そういうサンプルを検出したい / 誤っているとされたラベルにPseudo-Labelをつけたり、mixupなどと組み合わせるなども可能" '20

*algorithm

label
リンク
実用 Confident Learning
sh19910711 2024/09/14
"Confident Learning: データセットに含まれるラベルの誤りを検出 / HintonがMNISTの誤り1件を見つけて喜んでいるのを見て" '22

*algorithm

機械学習

label
リンク
自己教師学習（Self-Supervised Learning）
cvpaper.challenge のメタサーベイ発表スライドです。 cvpaper.challengeはコンピュータビジョン分野の今を映し、トレンドを創り出す挑戦です。論文サマリ作成・アイディア考案・議論・実装・論文投稿に取り組み、凡ゆる知識を共有します。2020の目標は「トップ会議30+本投稿」することです。 http://xpaperchallenge.org/cv/
sh19910711 2024/09/14
"良好な特徴表現: あらゆる解きたいタスク（target task）に有効なデータの特徴表現 + 擬似的なタスク（pretext task）を事前に解くことで獲得" '20

*algorithm

機械学習

label
リンク
【論文紹介】Meta Pseudo Labels - Qiita
概要 Google Research Brain Teamから出た"Meta Pseudo Labels"という短いタイトルの論文を読んでみました。公開されている論文はまだ Preprint なので今後書き直される可能性はありますが、大まかには理解できたので紹介してみます。分類モデルの訓練は、一般的にはクロスエントロピー損失を最小化することを通じて行われます。これは、モデルが出力する分布をターゲット分布に近づけるための操作です。多くの場合、ターゲット分布は one-hot 表現が採用されます。しかし、one-hot 表現による訓練には、過学習が生じやすいという欠点があります。この問題に対処する方法として、例えば Label Smoothing のような方法が提案されています。また、半教師あり学習のシナリオでは、事前学習済みのモデル（教師モデル）の出力分布をモデル（生徒モデル）のターゲット
sh19910711 2024/06/13
"one-hot 表現: 過学習が生じやすい + Label Smoothing のような方法が提案 / MPL: 教師モデルの訓練と生徒モデルの訓練をうまく組み合わせ + 生徒が教師の疑似ラベルから学ぶ + 教師が生徒の Validation 損失から学ぶ" 2020

*algorithm

機械学習

label
リンク
1 2 次のページ