satojkovicのブックマーク - はてなブックマーク

現代の競争的機械学習における先端トレーニング手法と戦略的パラダイム：Kaggleマスターの戦術詳解

シード平均化とマルチラン検証モデルの初期値やデータ順序による不安定性を排除するため、同一ハイパーパラメータで異なる乱数シードを用いて複数回（20〜60回）トレーニングを行い、予測値を平均化する手法が標準化しています。特にNLPタスクでは、最低でも3〜5シードのアンサンブルが必須要件とされます。 2. 表形式データにおける勾配ブースティングとNNの進化表形式データ（Tabular Data）では、GBDT（XGBoost, LightGBM, CatBoost）とニューラルネットワーク（NN）の高度な統合が進行しています。 GPU加速による実験ループの高速化 NVIDIA cuMLや各フレームワークのGPUバックエンド成熟により、実験サイクルが劇的に高速化しました。これにより、数百から数千のモデル構成を試行し、多様性に富んだモデルをスタッキングに利用する戦略が可能になっています。表形式

satojkovic 2026/04/18

リンク

自動顔認識技術の50年 - ユニファ開発者ブログ

こんにちは、ユニファで機械学習エンジニアをしている藤塚です。現在、顔認識は世の中で当たり前のように使われるようになっており、様々なサービスの基盤になっています。ユニファでも顔認識システムを独自で開発しており、過去のブログで顔認識システムの紹介もしています。 tech.unifa-e.com 現在、さらなる精度向上を目指し基盤モデルの更新を行っています。今回は、[1] [2505.24247] 50 Years of Automated Face Recognition のサーベイ論文に基づいて、顔認識技術がこれまでどのような道を辿ってきたのかということを振り返ってみました。歴史的なところから近年の発展、そして現在の課題までを見ていこうと思います。自動顔認識技術におけるベンチマークタイムライン（図は [1] から引用）自動顔認識技術の登場から発展顔の特徴表現に関する進化（図は [

satojkovic 2026/04/18

リンク

物体検出モデルの推論高速化入門

はじめに株式会社EVERSTEELで機械学習エンジニアをしている加藤です。機械学習システムの運用において、推論の高速化は重要な課題です。特にリアルタイムでの処理が求められるアプリケーションでは、レスポンス時間の短縮がユーザー体験に直結します。また、クラウド環境のコスト削減やエッジデバイスのリソース制約など、様々な観点から推論の効率化が必要とされます。本記事では特に物体検出モデルのCPU推論に焦点を当て、ディープラーニングモデルの推論を高速化する方法を紹介するとともに、それらのベンチマーク結果を共有します。「鉄ナビ検収AI」における推論高速化ニーズ弊社では鉄スクラップの画像解析を行う「鉄ナビ検収AI」というアプリケーションを開発しています。本アプリケーションを提供するために多様な画像認識モデルを運用していますが、その中でも速度要件が厳しいものとして、荷台検出モデルが存在します。荷

satojkovic 2026/04/18

リンク

DINO v2：画像処理の基盤モデル - Morpho Tech Blog

こんにちは。CTO室リサーチャーの鈴木です。近年、深層学習の分野では、さまざまなタスクにおいて「基盤モデル」と呼ばれる汎用的で高性能なモデルが注目を集めており、これらのモデルを活用した多岐にわたる応用が急速に進展しています。本記事では、その中でも画像分野における基盤モデルの一つである"DINO v2"[1]の概要をご紹介します。本記事の概要基盤モデルDINO v2は、画像の本質特徴を抽出する「自己教師あり表現学習」の決定版！ Contrastive LearningやMasked Auto-Encoderの仲間だよ画像分野における汎用性の高さが魅力！深度推定、インスタンス検索、物体の姿勢推定など、幅広いタスクに対応可能な特性 DINO v1とは構造からして大きく違うよ！筆頭著者が同じくMetaという繋がりはあるよはじめに～基盤モデル～近年、深層学習の研究と応用が急速に進展

satojkovic 2026/04/13

リンク

Claude Code Orchestra: Claude Code × Codex CLI × Gemini CLIの最適解を探る

Claude Code Orchestra: Claude Code × Codex CLI × Gemini CLIの最適解を探るこんにちは，松尾研究所の尾崎です．25卒でデータサイエンティストをやっています．最近はClaude CodeやCodex CLI，Gemini CLIといったCLIベースのAIコーディングアシスタントが急速に普及してきました．皆さんも日常的に使っている方が多いのではないでしょうか．しかし，単一のツールだけでは対応しきれない場面が増えてきています．Claude Codeは最も利用されているであろうCLI Agentですが，複雑な設計判断はCodex CLIに劣るとの声もあります．一方でCodex CLIは深い推論が得意ですがレスポンスが重い．Gemini CLIは巨大なコンテキストとリサーチ能力に優れますが直接的なコード実装能力は前述の2つほどはないとの指

satojkovic 2026/04/11

リンク

Claude Codeで機械学習モデルをファインチューニングした話 — YOLOの精度改善をAI駆動開発で回す - izanami

Colab MCP × Claude Code でYOLOモデルをファインチューニングした — ローカルPCにGPUがなくても機械学習を回す方法 3行要約 Google公式の Colab MCP Server を使い、Claude Code からColabのGPUに直接アクセスしてYOLOのファインチューニングを実行したデータ前処理・学習設定・学習実行・評価・モデル変換まで、ターミナルから一歩も出ずにMLパイプラインを完結させた個人開発のモバイルアプリ（交通量調査）に搭載するカスタムモデルを、GPU非搭載のMacだけで作れたはじめに 2026年3月、GoogleがColab MCP Serverを公式リリースしました。これは、Claude CodeやGemini CLIなどのMCP対応AIエージェントから、Google ColabのGPUランタイムをプログラム的に操作できるオープン

satojkovic 2026/04/10

リンク

Claude Codeの Agent Skills は設定したほうがいい - じゃあ、おうちで学べる

Claude Codeを使い始めて、様々な発信をしてきました。今回は「Agent Skills」について。これも設定しておくと、Claude Codeがグッと使いやすくなる機能です。 Claude Code の settings.json は設定した方がいい - じゃあ、おうちで学べる Claude Code の CLAUDE.mdは設定した方がいい - じゃあ、おうちで学べる Claude Code の .claude/commands/**.md は設定した方がいい - じゃあ、おうちで学べる Claude CodeのHooksは設定したほうがいい - じゃあ、おうちで学べる Claude CodeのSubagentsは設定したほうがいい - じゃあ、おうちで学べるはじめに「このプロジェクトではpython-pptxを使ってスライドを作って」「SQLは必ずこのフォーマットで書いて」

satojkovic 2026/04/09

リンク

DINOv2 PCA visualization code

satojkovic 2026/04/09

リンク

DINOv2 の実力：VRAM使用量と処理速度をGTX1080で検証

satojkovic 2026/04/08

リンク

画質評価指標SSIMについて調べてみた - Visualize

実質的な第1回目の記事は、画質評価指標のSSIMについて調べてみました。背景以前、仕事でH.264/AVCエンコーダの開発をしていました。エンコーダを開発する際は性能の良し悪しの重要な観点として、符号化→復号した際の画質劣化をどれくらい抑えられるかを評価する必要があります。画質評価の方法として、当時は客観評価と主観評価の両方をやっていたのですが、客観評価にはPSNR (と参考程度に市販の画質評価ツール) を使用していました。 PSNR (Peak-Signal to Noize Ratio) はこの分野で伝統的に広く用いられている評価手法です。ここで、MAXは画素値の最大値です。1画素8bitの画像なら画素値は0～255なので、最大値は255です。また、MSE = {(符号化前の画素値 - 符号化後の画素値)^2 の1画素あたりの平均値}です。つまり、PSNRは符号化前の

satojkovic 2026/03/15

リンク

サイゼリヤの間違い探しが難しすぎたので大人の力で解決した

こんにちは。河本です。僕はサイゼリヤに行くとまずキッズメニューの間違い探しを解くんですが、今回は難しすぎたので、大人の力（＝画像処理）で解決することにしました。 2014年9月版。みんなもやってみよう！（以下、間違い探しの答えが出てきます。見たくない人は↑の画像で頑張ってから読もう。）やり方いろいろ書いてますが、左面と右面の違う部分を色の差分から見つけてるだけです。紙の歪みを吸収するために、少しややこしいことをしてます。 (1) 間違い探しページの写真を撮る ↑の写真です。普通にiPhoneで撮りました。 (2) ページ領域を抽出する画像からページの部分を見つける必要があります。今回は面倒なので、左側は手作業で指定しました。角を手作業でタグ付けして・・・こっちは手作業。射影変換で台形補正します。OpenCVならWarpPerspectiveです。台形補正しても、紙が

satojkovic 2026/02/18

リンク

わかりやすい画像のdiffを求めて - Qiita

どうも。フロントエンドエンジニアの @Quramy です。さて、前回、1日10万枚の画像を検証するためにやったことで書いているとおり、reg-suitという画像に特化した回帰テストツールをメンテしています。画像回帰テストという文脈において、差分の可視化方法はとても重要なファクターです。なぜなら、画像(=スナップショット)に差分が発生したからといって、それすなわち棄却、というわけではなく、その差分の内容を判断して、意図せぬ変更であれば棄却、意図した変更であればexpectedを更新する必要があります。すなわち、ワークフローに目視による差分のレビューが発生するのです。そこで、少しだけ異なる2枚の画像について差分を効果的に可視化する、というテーマに向き合ってみました。主にC++とOpenCVでの実装ですが、これらの知識が無くとも読めるよう、コードやAPIへの言及を少なくして、中間画像で説

satojkovic 2026/02/18

リンク

アニメ系イラストに対する機械学習研究や実装をまとめてみた - とあの方舟

未来の自分のためにだらだらと見かけたものをメモしていこうと思います。研究まとめ系 deeppomf/DeepLearningAnimePapers 2018年で更新が停止している? SerialLain3170/AwesomeAnimeResearch タグ分類 KichangKim/DeepDanbooru TensorFlow Danbooruから独自にダウンロードしたデータで学習？ v3の配布モデルが性能が良いらしい(v4は軽量版) RF5/danbooru-pretrained プロジェクトページ PyTorch モデル配布ありタグ: Danbooru2018で頻出の6000タグ ResNet50 キャラクター分類 arkel23/animesion 物体検知 jerryli27/AniSeg 顔、目、口、体(figure) kosuke1701/AnimeCV 顔 hysts

satojkovic 2026/02/18

リンク

CartoonSegmentationの論文を読んでみた

概要最近話題になっているCartoonSegmentationというモデルの元論文「Instance-guided Cartoon Editing with a Large-scale Dataset」を読んでみました。長いので以下ではCartoonSegmentationと呼びます。 CartoonSegmentationはアニメ・漫画などの画像に特化したセグメンテーションマスクを生成するモデルです。論文を読んだところ高品質のデータセットを新しく作っているのが最大のコントリューションだと思いました。今回はこのデータセット作成の部分について説明してみます。データセットについて漫画・アニメに特化したセグメンテーション用のデータセットはいくつか存在するのですが、非公開だったり数が足りなかったりするのでCartoonSegmentationでは新しくデータセットを作成しました。前景と後景

satojkovic 2026/01/24

リンク

Software engineering under the spotlight

satojkovic 2026/01/22

リンク

Node.js作者の発言「人間がコードを書く時代は終わった」について思うこと | maguro.dev

日本語訳: これまで何千回も言われてきたことだけど、自分の声も加えさせてほしい――人間がコードを書く時代は終わった。ソフトウェアエンジニアを自認する我々にとっては穏やかでない話だが、それでも事実だ。ソフトウェアエンジニアの仕事がなくなるという意味ではなく、プログラムのシンタックスを直接書くことはソフトウェアエンジニアの仕事ではなくなった、ということだ。正直、内心ぎょっとした。 Ryanは Deno Land Inc. を共同創業し、Node.jsに代わる新しいJavaScript/TypeScriptランタイムであるDenoを作っている。僕はその会社でソフトウェアエンジニアとして働いている。自分の会社のCEOが「人間がコードを書く時代は終わった」と言っている。ソフトウェアエンジニアとして、これまで通りのやり方を続けていたら何が起きるかわからない——最悪のケース、つまりレイオフだってあり

satojkovic 2026/01/22

リンク

「SAMを応用したコンピュータビジョンの話」というタイトルで登壇させていただきました #devio2024 | DevelopersIO

1 はじめに製造ビジネステクノロジー部の平内（SIN）です。 2024/07/20に弊社日比谷オフィスで開催された「Classmethod Odyssey」で登壇させて頂きましたので、その資料を共有いたします。タイトルは「SAMを応用したコンピュータビジョンの話」でした。 2023年4月、Segment Anything Modelが公開されて以降、ゲームチェンジャーだと信じで、色々、試してみた１年あまりの作業を、見ていただけて嬉しかったです。 2 登壇資料 3 関連ブログ発表させて頂いた内容は、以下のプログをまとめたのもです。興味あるものがございましたら、是非、見てやって下さい。

satojkovic 2026/01/22

リンク

Agentic coding革命が "成った" 世界で…… - Islands in the byte stream

今年に入ってすぐくらいから、coding agentを活用した、いわゆる vibe coding を行うようになりました。 vibe codingとは、おおむね「自然言語でcoding agentに指示をしてプロダクトを作る」という開発スタイルのことを指すとみていいようです*1。これはまさにソフトウェア開発における革命です。しかも、この革命はすでに "成って" います。たとえば、ここ1ヶ月くらいで私が仕事で生産するコードの8割くらいは、coding agentによるものです。そして、おそらく1年以内にこれは9割を超えます。この流れはもはや不可逆です。すでにvibe codingによって作られるプロダクトは、これまでとは異なる質を持っているからです。つまり、vibe codingはただagentic codingがコーディングの役割を担うというだけにとどまりません。vibe codi

satojkovic 2026/01/21

リンク

Gitは最初1244行しかなかった

概要 Junio C Hamanoさんに興味を持って調べていると、Linusさんが書いたGitの初版は1244行ということが分かりました。Gitの初版について、軽く行数の確認とビルドチャレンジをして、あまり調べずに動かしながら機能を推測してみました。はじめに Highlights from Git 2.39 の冒頭で登場するcommit数が一番多い方「Junio C Hamano」さんを知らなかったので調べてみました。 gihyoのインタビュー記事が面白かったです。Junio C HamanoさんはGitのメンテナで、LinusさんからGitのメンテナを引き継いだすごい方だということを知りました。このgihyoのインタビュー記事の中で「MLで流れてきたGitのコード行数は1244行だった」というところが気になりました。調べてみると、2020年にTwitterでRui Ueyamaさんへ

satojkovic 2025/12/25

リンク

GitHub Copilot Agent モードで毎回打ってるプロンプトを楽に入力したい…！！！

はじめに以前以下のような記事を書いて、その中で Prompts の使い方について説明しました。 GitHub Copilot Agent Mode の MCP の Tools, Prompts, Resources の使い方端的に言うと、よくつかうプロンプトを登録しておくことで /prompt-name と入力するだけでプロンプトを呼び出せるようになります。/ を入力すると、登録したプロンプトの一覧が表示されるので、そこから選ぶこともできます。便利…！自分は、Agent モードを使う時には、何をやってほしいのかを AI と相談して決めて、そのあと実行をお願いするということをしています。そこらへんについては過去に「GitHub Copilot のAgent モードで Vibe じゃないコードを書く時に気を付けたこと」という記事を書いています。何をやるかというフェーズは Ask モード

satojkovic 2025/12/05

リンク

はてなブックマーク

タグ

satojkovicのブックマーク (28,376)

お知らせ

月間はてなブックマーク数ランキング（2026年4月）

今週のはてなブックマーク数ランキング（2026年4月第4週）

今週のはてなブックマーク数ランキング（2026年4月第3週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス