本資料はclapper.challengeの研究メンバーと作成した資料です。 cvpaper.challengeはコンピュータビジョン分野の今を映し、トレンドを創り出す挑戦です。論文サマリ・アイディア考案・議論・実装・論文投稿に取り組み、凡ゆる知識を共有しています。 http://xpaperch…
本資料はclapper.challengeの研究メンバーと作成した資料です。 cvpaper.challengeはコンピュータビジョン分野の今を映し、トレンドを創り出す挑戦です。論文サマリ・アイディア考案・議論・実装・論文投稿に取り組み、凡ゆる知識を共有しています。 http://xpaperch…
2024年3月3日開催の第12回全日本コンピュータビジョン勉強会における発表資料です.
概要 Sakana AIは進化や集合知などの自然界の原理を応用して基盤モデルを開発することを目指しています。私達の目標は、モデルを自ら訓練し開発することだけではありません。基盤モデルの開発を効率化、高度化、自動化するための新たな手法を生み出すことに挑戦しています。この目標に向けた第一歩として、私たちはプレプリント「Evolutionary Optimization of Model Merging Recipes (モデルマージの進化的最適化)」を公開しました。 このリリースの要点は以下の通りです。 進化的モデルマージという手法を提案します。これは、多様な能力を持つ幅広いオープンソースモデルを融合(マージ)して新たな基盤モデルを構築するための方法を、進化的アルゴリズムを用いて発見する手法です。私たちの手法は、ユーザーが指定した能力に長けた新しい基盤モデルを自動的に作成することができます。既
RHEL8の主なバージョン OpenSSL 1.1.1、TLS 1.3,GCC 8.2、OpenJDK 11/8などがサポートされる。PythonはPython 3.6がデフォルト、Node.jsのサポートや、PHP 7.2、Ruby 2.5、Perl 5.26などが提供される。データベースはMariaDB 10.3、MySQL 8.0、PostgreSQL 10/9.6、redis 5、Apache HTTP 2.4、nginx 1.14がデフォルト。 RHEL9の主なバージョン OpenSSL 3.0.1、TLS 1.3,GCC 11.2.1、OpenJDK 17/11などがサポートされる。PythonはPython 3.9がデフォルト、Node.js 16、PHP 8.0、Ruby 3.0、Perl 5.32などが提供される。データベースはMariaDB 10.5、MySQL 8.0
In October 2023, we released LLaVA-1.5 with a simple and efficient design along with great performance on a benchmark suite of 12 datasets. It has since served as the foundation of many comprehensive studies of data, model, and capabilities of large multimodal models (LMM), and has enabled various new applications. Today, we are thrilled to present LLaVA-NeXT, with improved reasoning, OCR, and wor
はじめに 基盤モデル がAIの新潮流となりました。基盤モデルというとやはり大規模言語モデルが人気ですが、リクルートでは、画像を扱えるモデルの開発にも注力しています。画像を扱える基盤モデルの中でも代表的なモデルのCLIPは実務や研究のさまざまな場面で利用されています。CLIPの中には日本語に対応したものも既に公開されていますが、その性能には向上の余地がある可能性があると私たちは考え、仮説検証を行ってきました。今回はその検証の過程で作成したモデルと評価用データセットの公開をしたいと思います。 公開はHugging Face上で行っていますが、それに合わせて本記事では公開されるモデルやデータセットの詳細や、公開用モデルの学習の工夫などについて紹介します。 本記事の前半では、今回公開するモデルの性能や評価用データセットの内訳、学習の設定について紹介します。記事の後半では大規模な学習を効率的に実施す
🔥[NEW!] LLaVA-1.5 achieves SoTA on 11 benchmarks, with just simple modifications to the original LLaVA, utilizes all public data, completes training in ~1 day on a single 8-A100 node, and surpasses methods that use billion-scale data. LLaVA represents a novel end-to-end trained large multimodal model that combines a vision encoder and Vicuna for general-purpose visual and language understanding,
h5-指標は過去5年間に発表された論文の h-指数です。h の中でも最大値であり、2022〜2018 に発表された h 論文はどれにおいても必ず h 引用があります。非表示
Google Research LUMIERE A Space-Time Diffusion Model for Video Generation Read Paper
この記事を読む およそ時間: 17 分「父や母が亡くなったら具体的にいつまでに何をしなければいけないのか?」 「忘れるとまずい手続きって何なのかちゃんと把握していない・・・」 このように、必ずいつかは訪れる「親の死」。 実際にその時が来たとき、何をどういう手順で進め準備すればいいのか把握できているでしょうか? 実際、この記事を書いている私自身も父の死を経験し、亡くなった後の忙しさを非常によく覚えています。 その際に驚いたのが、実際に親が亡くなった後から四十九日までは「家族の死という現実に向き合う間もなく様々な手続きと判断がどんどん要求される」ことです。 そんな状況でゆとりなくバタバタと四十九日を終え、死後数ヶ月たった頃に、父の友人からきた1本の電話。 内容は「お父さんの焼香をさせてほしい」とのことで、後日我が家を訪ねて来られました。 そのときに父の友人から言われた「お父さんにはお世話になっ
At FAIR, we’re excited about driving continued exploratory research in generative AI, but we also want to make sure we do so in a manner that prioritizes safety and responsibility. Today, together with Inria, we are excited to share a research paper and code that details Stable Signature, an invisible watermarking technique we created to distinguish when an image is created by an open source gener
はじめに Kotoba Technologies, Inc. Co-Founder/CTO、Toyota Technological Institute at Chicago, Research Assistant Professorの笠井淳吾です。これまで自然言語処理(NLP)、機械学習の国際学会(ACL、ICLR、NeurIPS、EMNLP、ICCVなど)にて、投稿や発表を積み重ねてきましたが、一度自分なりに論文を書く際に考えていること、留意点、コツのようなものを言語化して共有したいと思います。個人の好みによるところも多々あるかと思いますので、取捨選択していただいて、皆さんの論文執筆の一助になることを願っています。 全体のストラクチャー まずは全体の流れから考えていきます。基本的に、論文を書く際には(多くの場合そもそもプロジェクトを始める前に)、タイトルをイメージしていきます。タイトル
今日、文化庁は生成AIと著作権保護についてのガイドラインとなる素案を提示しました。(2023/12/20時点。その後の状況については追記をお読みください。) 生成AIでなにが合法でどんなとき違法になるべきか、クリエイターや開発者、ビジネス系のひとなどが議論していますが、多くの生成AI周辺にいる人たち全員に関係あるガイドラインがいままさに検討されているわけです。 朝日新聞ではこう報じています。 文化庁は20日、文化審議会著作権分科会の法制度小委員会に、生成AI(人工知能)によるコンテンツの無断学習は、著作権法で著作権者の許諾が不要とされる「非享受目的」にあたらない場合があるとする「AIと著作権に関する考え方」の素案を示した。生成AIが記事や画像データなどを無断で利用する「ただ乗り」(フリーライド)に懸念の声が上がる中、現行法を厳格に解釈し、歯止めをかけたい考えだ。 朝日新聞デジタルより引用
IBIS2023の企画セッション「Vision and Languageの最前線」で講演した資料です.
GANalyze: Toward Visual Definitions of Cognitive Image Properties Lore Goetschalckx*12 Alex Andonian**1 Aude Oliva1 Phillip Isola1 1MIT Computer Science and Artificial Intelligence Laboratory, 2KU Leuven (Belgium) We introduce a framework that uses Generative Adversarial Networks (GANs) to study cognitive properties like memorability, aesthetics, and emotional valence. These attributes are of inte
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く