CEDEC2021 ダウンロード時間を大幅減!~大量のアセットをさばく高速な実装と運用事例の共有~

Towards a More Efficient Reasoning LLM: AIMO2 Solution Summary and Introduction to Fast-Math Models
初めまして! 株式会社 Elith で Computer Vision Reseacher をしている下村です。 今回は、Open-Vocabulary Object Detection の論文について、学習データに焦点を当てた手法を中心に概要を紹介します。本記事内で使用する図は参考文献から引用しています。 Open-Vocabulary Object Detection とは Open-Vocabulary Object Detection (OVD) は、事前に定義された物体クラスに制限されず、任意のテキスト (Open-Vocabulary) で指定された未知の物体クラスを検出するタスクです。この手法は、従来の弱教師あり学習やゼロショット学習に比べて高い精度を達成します。 この手法は、2021年のコンピュータビジョンやパターン認識に関する国際会議 CVPR(Computer Visi
Turingの基盤AIチームの三輪です。 Turingで研究・開発した結果をまとめた「One-D-Piece: Image Tokenizer Meets Quality-Controllable Compression」という論文を公開したので、紹介します。 これは何? 「One-D-Piece」という新たな「画像トークナイザ」を提案しました。これによって256段階の可変品質で画像を圧縮し、Transformerベースのモデルと相性のいいトークン列での表現に変換することができます。 背景 テキストトークナイザと画像トークナイザ Transformer型のモデルは、「トークン」の列を入力に取ります。そのため、Transformer型のモデルを用いるためには、データを何らかの方法でトークンにする「トークナイザ」が必要です。 トークナイザといって一般に想起されるのはテキストトークナイザ、つまり
こんにちは、HACARUS でインターンをしている山下です。 今回は、Segment Anything Model (SAM) のような高性能のセグメンテーションモデルを限られたリソース下で利用したい場合の選択肢となる NanoSAM (Apache License 2.0) を紹介します! NanoSAM は通常の SAM とどう違うのか? SAM は Meta によって公開された高性能のセグメンテーションモデルです。SAM の基本的な使い方 や 他のモデルと組み合わせて使う方法 は、以前の記事で紹介しました。 SAMは、入力画像を image encoder でテンソルに変換した上で座標指定などのプロンプトと組み合わせ、mask decoder でマスクを出力するという構造になっています。 SAM の構造(パラメータ数は実測値) 上の画像中にも示したとおり、NanoSAM の構造上の
株式会社SCIEN 機械学習エンジニアの川田です。 先日、画像認識とコンピュータビジョン分野における国内最大の会議、MIRU2025に参加してきました。数多くの刺激的な発表がありましたが、中でも特に私の心に深く刻まれたのが、京都大学 西野恒 先生による講演「見えないモノを視ようとして」です。 この講演は、単に研究事例を紹介するだけでなく、そこから『見るとは何か?』という根源的な問いを私たちに考えさせる内容でした。 CVの研究というと、つい最新のモデルの精度や、斬新なモデルアーキテクチャに目を奪われがちです。しかし西野先生は、その原点に立ち返り、目の前の画像や映像そのものを深く観察することの重要性を説きました。 本レポートでは、特に私の心を揺さぶったこの講演の要点を、3つの「見えないモノ」をテーマにご紹介します。 現象の奥に隠された物理法則を視る 「なぜ、風が強く吹く水面は黒く見えるのか?」
論文 Conditional Image Generation with PixelCNN Decoders 表記 LL: log likelihood 概要 PixelCNNをベースにした条件付き生成モデルを提案する。モデルに与えるコンテクストは任意のラベルやタグ、埋め込みベクトルを指定できる。例えばImageNetのクラスラベルをコンテクストに与えた場合は動物、物体、風景、構造物などのリアルかつ多様な画像を生成する。また、未知の特定の人物の埋め込みベクトルを与えた場合はその人物の様々な表情、ポーズ、照明条件の画像を生成する。また、提案モデルをオートエンコーダのデコーダとして用いた場合、高精細かつ多様な画像を生成する。さらに、提案手法はPixelCNNのLLを改善し、PixelRNNと同等のLLのモデルをPixelRNNの半分以下の時間で学習することに成功した。 研究分野における位置付け
こんにちは、ティアフォーでVisual SLAMの研究開発をしている石田です。今回はVisual-Inertial Odometryという、カメラとIMU(慣性計測装置)を用いた経路推定手法を紹介し、これを自動運転に応用できた場合のインパクトと、応用までに乗り越えなければならない課題についてお話します。 走行経路の推定結果 なお、ティアフォーでは、「自動運転の民主化」をともに実現していく様々なエンジニア・リサーチャーを募集しています。もしご興味があればカジュアル面談も可能ですので以下のページからコンタクトいただければと思います。 tier4.jp 自動運転における自己位置推定 自己位置推定とは、名前のとおり車両やセンサーデバイスなどが地図の中でどこにいるのかを推定するための技術であり、自動運転において欠かせない要素のひとつです。自分がどこを走っているか把握できなければ迷子になってしまいます
こんにちは! HACARUS でインターンをしている長野です。 本記事では深度推定の最新モデルの一つである Depth-Anything と、その簡単な実行方法を紹介します。 深度推定とは カメラから被写体までの距離のことを深度と言い、画像から深度を推測することを深度推定と呼びます。以下の画像は深度推定を行った例です。右の画像ではカメラから近い物体ほど明るい色で表現されていることがわかります。 元画像: https://github.com/LiheYoung/Depth-Anything/blob/main/assets/examples/demo3.png 人間は過去の経験から物体ごとのおおよそのサイズ感や遠近感などをわかっているため、画像を一目見て大体の距離感が掴めますが、コンピュータにはその判断が非常に難しいです。そのため、以前はステレオカメラなど複数の視点の画像をもとに深度の推定
Media fundamentalsチームの大谷です。今回は物体検出を評価するための新しい指標を設計したので、その研究について概要を解説します。この研究成果はCVPR2022に採択されています。論文のリンクはこちらです。 Mean Average Precisionはなにを見ている? 物体検出の評価では多くの場合Mean Average Precision (mAP)が使われています。まずAPについて概要を確認しておきましょう。APは検出したオブジェクトをconfidence score順に並べてprecision-recall curveを求め、その曲線の下の面積で求められます。これをカテゴリごとに計算し、全てのカテゴリ上で平均したものがmAPです。ここでは詳細に触れませんが、実際のAPの計算では諸々の実装上の事情があり、それらがAPの振る舞いにおいて少なくない影響を及ぼしています。ここ
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? Kaggleでコンペに参加されている方の中には、 メダルが欲しい! 上位になりたい! 賞金が欲しい! など、様々なモチベーションで勝つことを目標にしている方も多いのではないかと思います。もちろん勉強やコミュニケーションなどの側面もありますが、競い合う楽しさというのはデータ分析コンペの醍醐味の1つです。 私自身もそういう楽しさにハマってしまった者の1人のですが、さらなるロマンを求め、あわよくばカッコよく勝ちたいという気持ちで取り組んできました。狙いがガチッとはまったコンペもあれば、箸にも棒にもかからなかったものもありました。本記事ではそん
※本記事は 2022年07月執筆時の情報です。 はじめに 機械学習プロジェクトでは良質な教師データが重要とされています。しかし、データ収集やアノテーション作業には手間と時間がかかります。そこでシミュレーションで生成される合成データの利用が提案されています。 Kubric は Google Research が公開している、機械学習用の合成データを生成するためのパイプラインです。3D モデルを使ってインスタンスセグメンテーション、深度画像、オプティカルフローなどのデータセットを作成することができます。物理シミュレーションには PyBullet、レンダリングには Blender が使われています。 Kubric のインストール README と Installing を参考に Kubric が動く環境を作ります。 Kubric のリポジトリをクローンします。
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く