タグ

satojkovicのブックマーク (28,376)

  • 現代の競争的機械学習における先端トレーニング手法と戦略的パラダイム:Kaggleマスターの戦術詳解

    シード平均化とマルチラン検証 モデルの初期値やデータ順序による不安定性を排除するため、同一ハイパーパラメータで異なる乱数シードを用いて複数回(20〜60回)トレーニングを行い、予測値を平均化する手法が標準化しています。特にNLPタスクでは、最低でも3〜5シードのアンサンブルが必須要件とされます。 2. 表形式データにおける勾配ブースティングとNNの進化 表形式データ(Tabular Data)では、GBDT(XGBoost, LightGBM, CatBoost)とニューラルネットワーク(NN)の高度な統合が進行しています。 GPU加速による実験ループの高速化 NVIDIA cuMLや各フレームワークのGPUバックエンド成熟により、実験サイクルが劇的に高速化しました。これにより、数百から数千のモデル構成を試行し、多様性に富んだモデルをスタッキングに利用する戦略が可能になっています。 表形式

    現代の競争的機械学習における先端トレーニング手法と戦略的パラダイム:Kaggleマスターの戦術詳解
  • 自動顔認識技術の50年 - ユニファ開発者ブログ

    こんにちは、ユニファで機械学習エンジニアをしている藤塚です。 現在、顔認識は世の中で当たり前のように使われるようになっており、様々なサービスの基盤になっています。ユニファでも顔認識システムを独自で開発しており、過去のブログで顔認識システムの紹介もしています。 tech.unifa-e.com 現在、さらなる精度向上を目指し基盤モデルの更新を行っています。 今回は、[1] [2505.24247] 50 Years of Automated Face Recognition のサーベイ論文に基づいて、顔認識技術がこれまでどのような道を辿ってきたのかということを振り返ってみました。 歴史的なところから近年の発展、そして現在の課題までを見ていこうと思います。 自動顔認識技術におけるベンチマークタイムライン(図は [1] から引用) 自動顔認識技術の登場から発展 顔の特徴表現に関する進化(図は [

    自動顔認識技術の50年 - ユニファ開発者ブログ
  • 物体検出モデルの推論高速化入門

    はじめに 株式会社EVERSTEELで機械学習エンジニアをしている加藤です。 機械学習システムの運用において、推論の高速化は重要な課題です。特にリアルタイムでの処理が求められるアプリケーションでは、レスポンス時間の短縮がユーザー体験に直結します。また、クラウド環境のコスト削減やエッジデバイスのリソース制約など、様々な観点から推論の効率化が必要とされます。 記事では特に物体検出モデルのCPU推論に焦点を当て、ディープラーニングモデルの推論を高速化する方法を紹介するとともに、それらのベンチマーク結果を共有します。 「鉄ナビ検収AI」における推論高速化ニーズ 弊社では鉄スクラップの画像解析を行う「鉄ナビ検収AI」というアプリケーションを開発しています。アプリケーションを提供するために多様な画像認識モデルを運用していますが、その中でも速度要件が厳しいものとして、荷台検出モデルが存在します。 荷

    物体検出モデルの推論高速化入門
  • DINO v2:画像処理の基盤モデル - Morpho Tech Blog

    こんにちは。CTO室リサーチャーの鈴木です。 近年、深層学習の分野では、さまざまなタスクにおいて「基盤モデル」と呼ばれる汎用的で高性能なモデルが注目を集めており、これらのモデルを活用した多岐にわたる応用が急速に進展しています。記事では、その中でも画像分野における基盤モデルの一つである"DINO v2"[1]の概要をご紹介します。 記事の概要 基盤モデルDINO v2は、 画像の質特徴を抽出する「自己教師あり表現学習」の決定版! Contrastive LearningやMasked Auto-Encoderの仲間だよ 画像分野における汎用性の高さが魅力! 深度推定、インスタンス検索、物体の姿勢推定など、幅広いタスクに対応可能な特性 DINO v1とは構造からして大きく違うよ! 筆頭著者が同じくMetaという繋がりはあるよ はじめに~基盤モデル~ 近年、深層学習の研究と応用が急速に進展

    DINO v2:画像処理の基盤モデル - Morpho Tech Blog
  • Claude Code Orchestra: Claude Code × Codex CLI × Gemini CLIの最適解を探る

    Claude Code Orchestra: Claude Code × Codex CLI × Gemini CLIの最適解を探る こんにちは,松尾研究所の尾崎です.25卒でデータサイエンティストをやっています. 最近はClaude CodeやCodex CLI,Gemini CLIといったCLIベースのAIコーディングアシスタントが急速に普及してきました.皆さんも日常的に使っている方が多いのではないでしょうか. しかし,単一のツールだけでは対応しきれない場面が増えてきています.Claude Codeは最も利用されているであろうCLI Agentですが,複雑な設計判断はCodex CLIに劣るとの声もあります.一方でCodex CLIは深い推論が得意ですがレスポンスが重い.Gemini CLIは巨大なコンテキストとリサーチ能力に優れますが直接的なコード実装能力は前述の2つほどはないとの指

    Claude Code Orchestra: Claude Code × Codex CLI × Gemini CLIの最適解を探る
  • Claude Codeで機械学習モデルをファインチューニングした話 — YOLOの精度改善をAI駆動開発で回す - izanami

    Colab MCP × Claude Code でYOLOモデルをファインチューニングした — ローカルPCGPUがなくても機械学習を回す方法 3行要約 Google公式の Colab MCP Server を使い、Claude Code からColabGPUに直接アクセスしてYOLOのファインチューニングを実行した データ前処理・学習設定・学習実行・評価・モデル変換まで、ターミナルから一歩も出ずにMLパイプラインを完結させた 個人開発のモバイルアプリ(交通量調査)に搭載するカスタムモデルを、GPU非搭載のMacだけで作れた はじめに 2026年3月、GoogleColab MCP Serverを公式リリースしました。 これは、Claude CodeやGemini CLIなどのMCP対応AIエージェントから、Google ColabGPUランタイムをプログラム的に操作できるオープン

    Claude Codeで機械学習モデルをファインチューニングした話 — YOLOの精度改善をAI駆動開発で回す - izanami
  • Claude Codeの Agent Skills は設定したほうがいい - じゃあ、おうちで学べる

    Claude Codeを使い始めて、様々な発信をしてきました。今回は「Agent Skills」について。これも設定しておくと、Claude Codeがグッと使いやすくなる機能です。 Claude Code の settings.json は設定した方がいい - じゃあ、おうちで学べる Claude Code の CLAUDE.mdは設定した方がいい - じゃあ、おうちで学べる Claude Code の .claude/commands/**.md は設定した方がいい - じゃあ、おうちで学べる Claude CodeのHooksは設定したほうがいい - じゃあ、おうちで学べる Claude CodeのSubagentsは設定したほうがいい - じゃあ、おうちで学べる はじめに 「このプロジェクトではpython-pptxを使ってスライドを作って」「SQLは必ずこのフォーマットで書いて」

    Claude Codeの Agent Skills は設定したほうがいい - じゃあ、おうちで学べる
  • DINOv2 PCA visualization code

  • DINOv2 の実力:VRAM使用量と処理速度をGTX1080で検証

  • 画質評価指標SSIMについて調べてみた - Visualize

    実質的な第1回目の記事は、画質評価指標のSSIMについて調べてみました。 背景 以前、仕事でH.264/AVCエンコーダの開発をしていました。 エンコーダを開発する際は性能の良し悪しの重要な観点として、 符号化→復号した際の画質劣化をどれくらい抑えられるかを評価する必要があります。 画質評価の方法として、当時は客観評価と主観評価の両方をやっていたのですが、 客観評価にはPSNR (と参考程度に市販の画質評価ツール) を使用していました。 PSNR (Peak-Signal to Noize Ratio) はこの分野で伝統的に広く用いられている評価手法です。 ここで、MAXは画素値の最大値です。1画素8bitの画像なら画素値は0~255なので、最大値は255です。 また、MSE = {(符号化前の画素値 - 符号化後の画素値)^2 の1画素あたりの平均値}です。 つまり、PSNRは符号化前の

  • サイゼリヤの間違い探しが難しすぎたので大人の力で解決した

    こんにちは。河です。 僕はサイゼリヤに行くとまずキッズメニューの間違い探しを解くんですが、 今回は難しすぎたので、大人の力(=画像処理)で解決することにしました。 2014年9月版。みんなもやってみよう! (以下、間違い探しの答えが出てきます。見たくない人は↑の画像で頑張ってから読もう。) やり方 いろいろ書いてますが、左面と右面の違う部分を色の差分から見つけてるだけです。 紙の歪みを吸収するために、少しややこしいことをしてます。 (1) 間違い探しページの写真を撮る ↑の写真です。普通にiPhoneで撮りました。 (2) ページ領域を抽出する 画像からページの部分を見つける必要があります。 今回は面倒なので、左側は手作業で指定しました。 角を手作業でタグ付けして・・・ こっちは手作業。 射影変換で台形補正します。OpenCVならWarpPerspectiveです。 台形補正しても、紙が

    サイゼリヤの間違い探しが難しすぎたので大人の力で解決した
  • わかりやすい画像のdiffを求めて - Qiita

    どうも。フロントエンドエンジニアの @Quramy です。 さて、前回、1日10万枚の画像を検証するためにやったことで書いているとおり、reg-suitという画像に特化した回帰テストツールをメンテしています。 画像回帰テストという文脈において、差分の可視化方法はとても重要なファクターです。なぜなら、画像(=スナップショット)に差分が発生したからといって、それすなわち棄却、というわけではなく、その差分の内容を判断して、意図せぬ変更であれば棄却、意図した変更であればexpectedを更新する必要があります。すなわち、ワークフローに目視による差分のレビューが発生するのです。 そこで、少しだけ異なる2枚の画像について差分を効果的に可視化する、というテーマに向き合ってみました。 主にC++OpenCVでの実装ですが、これらの知識が無くとも読めるよう、コードやAPIへの言及を少なくして、中間画像で説

    わかりやすい画像のdiffを求めて - Qiita
  • アニメ系イラストに対する機械学習研究や実装をまとめてみた - とあの方舟

    未来の自分のためにだらだらと見かけたものをメモしていこうと思います。 研究まとめ系 deeppomf/DeepLearningAnimePapers 2018年で更新が停止している? SerialLain3170/AwesomeAnimeResearch タグ分類 KichangKim/DeepDanbooru TensorFlow Danbooruから独自にダウンロードしたデータで学習? v3の配布モデルが性能が良いらしい(v4は軽量版) RF5/danbooru-pretrained プロジェクトページ PyTorch モデル配布あり タグ: Danbooru2018で頻出の6000タグ ResNet50 キャラクター分類 arkel23/animesion 物体検知 jerryli27/AniSeg 顔、目、口、体(figure) kosuke1701/AnimeCV 顔 hysts

    アニメ系イラストに対する機械学習研究や実装をまとめてみた - とあの方舟
  • CartoonSegmentationの論文を読んでみた

    概要 最近話題になっているCartoonSegmentationというモデルの元論文「Instance-guided Cartoon Editing with a Large-scale Dataset」を読んでみました。長いので以下ではCartoonSegmentationと呼びます。 CartoonSegmentationはアニメ・漫画などの画像に特化したセグメンテーションマスクを生成するモデルです。論文を読んだところ高品質のデータセットを新しく作っているのが最大のコントリューションだと思いました。今回はこのデータセット作成の部分について説明してみます。 データセットについて 漫画・アニメに特化したセグメンテーション用のデータセットはいくつか存在するのですが、非公開だったり数が足りなかったりするのでCartoonSegmentationでは新しくデータセットを作成しました。 前景と後景

    CartoonSegmentationの論文を読んでみた
  • Software engineering under the spotlight

  • Node.js作者の発言「人間がコードを書く時代は終わった」について思うこと | maguro​.dev

    語訳: これまで何千回も言われてきたことだけど、自分の声も加えさせてほしい――人間がコードを書く時代は終わった。ソフトウェアエンジニアを自認する我々にとっては穏やかでない話だが、それでも事実だ。ソフトウェアエンジニア仕事がなくなるという意味ではなく、プログラムのシンタックスを直接書くことはソフトウェアエンジニア仕事ではなくなった、ということだ。 正直、内心ぎょっとした。 Ryanは Deno Land Inc. を共同創業し、Node.jsに代わる新しいJavaScript/TypeScriptランタイムであるDenoを作っている。僕はその会社でソフトウェアエンジニアとして働いている。自分の会社のCEOが「人間がコードを書く時代は終わった」と言っている。 ソフトウェアエンジニアとして、これまで通りのやり方を続けていたら何が起きるかわからない——最悪のケース、つまりレイオフだってあり

    Node.js作者の発言「人間がコードを書く時代は終わった」について思うこと | maguro​.dev
  • 「SAMを応用したコンピュータビジョンの話」というタイトルで登壇させていただきました #devio2024 | DevelopersIO

    1 はじめに 製造ビジネステクノロジー部の平内(SIN)です。 2024/07/20に弊社日比谷オフィスで開催された「Classmethod Odyssey」で登壇させて頂きましたので、その資料を共有いたします。 タイトルは「SAMを応用したコンピュータビジョンの話」でした。 2023年4月、Segment Anything Modelが公開されて以降、ゲームチェンジャーだと信じで、色々、試してみた1年あまりの作業を、見ていただけて嬉しかったです。 2 登壇資料 3 関連ブログ 発表させて頂いた内容は、以下のプログをまとめたのもです。 興味あるものがございましたら、是非、見てやって下さい。

    「SAMを応用したコンピュータビジョンの話」というタイトルで登壇させていただきました #devio2024 | DevelopersIO
  • Agentic coding革命が "成った" 世界で…… - Islands in the byte stream

    今年に入ってすぐくらいから、coding agentを活用した、いわゆる vibe coding を行うようになりました。 vibe codingとは、おおむね「自然言語でcoding agentに指示をしてプロダクトを作る」という開発スタイルのことを指すとみていいようです*1。 これはまさにソフトウェア開発における革命です。しかも、この革命はすでに "成って" います。 たとえば、ここ1ヶ月くらいで私が仕事で生産するコードの8割くらいは、coding agentによるものです。そして、おそらく1年以内にこれは9割を超えます。 この流れはもはや不可逆です。すでにvibe codingによって作られるプロダクトは、これまでとは異なる質を持っているからです。 つまり、vibe codingはただagentic codingがコーディングの役割を担うというだけにとどまりません。vibe codi

    Agentic coding革命が "成った" 世界で…… - Islands in the byte stream
  • Gitは最初1244行しかなかった

    概要 Junio C Hamanoさんに興味を持って調べていると、Linusさんが書いたGitの初版は1244行ということが分かりました。Gitの初版について、軽く行数の確認とビルドチャレンジをして、あまり調べずに動かしながら機能を推測してみました。 はじめに Highlights from Git 2.39 の冒頭で登場するcommit数が一番多い方「Junio C Hamano」さんを知らなかったので調べてみました。 gihyoのインタビュー記事が面白かったです。Junio C HamanoさんはGitのメンテナで、LinusさんからGitのメンテナを引き継いだすごい方だということを知りました。 このgihyoのインタビュー記事の中で「MLで流れてきたGitのコード行数は1244行だった」というところが気になりました。調べてみると、2020年にTwitterでRui Ueyamaさんへ

    Gitは最初1244行しかなかった
  • GitHub Copilot Agent モードで毎回打ってるプロンプトを楽に入力したい…!!!

    はじめに 以前以下のような記事を書いて、その中で Prompts の使い方について説明しました。 GitHub Copilot Agent Mode の MCP の Tools, Prompts, Resources の使い方 端的に言うと、よくつかうプロンプトを登録しておくことで /prompt-name と入力するだけでプロンプトを呼び出せるようになります。/ を入力すると、登録したプロンプトの一覧が表示されるので、そこから選ぶこともできます。便利…! 自分は、Agent モードを使う時には、何をやってほしいのかを AI相談して決めて、そのあと実行をお願いするということをしています。そこらへんについては過去に「GitHub Copilot のAgent モードで Vibe じゃないコードを書く時に気を付けたこと」という記事を書いています。 何をやるかというフェーズは Ask モード

    GitHub Copilot Agent モードで毎回打ってるプロンプトを楽に入力したい…!!!