Philosophy We strive to create an environment conducive to many different types of research across many different time scales and levels of risk. Learn more about our Philosophy Learn more
要点 OpenAI CLIPの日本語モデルを作り、公開しました。ご活用ください。 CLIPとは画像とテキストの埋め込みモデル(意味を表す固定長のベクトルに変換するモデル)であり、意味が近い画像とテキスト同士が近いベクトルになるという性質を持っています。4億枚の多様な画像とテキストのペアを用いて学習されており、高いゼロショット性能を備えています。 応用例:テキストによる画像の検索、類似画像検索、画像 and/or テキストの分類、クラスタリング、画像やテキストの特徴量生成など 日本語CLIPモデルはHugging Face Model Hubからダウンロードできます。 応用方法を理解するためのサンプルコードとその解説を、4つの記事にして順次公開する予定です。進捗状況: 1/4。 日本語CLIPモデルの使い方、サンプルコード(鋭意作成中) 長くなるので使い方の解説は別の記事にしました。 すぐに
Text to Face👨🏻🧒👧🏼🧓🏽 (arXiv preprint 2024) [💬 3D] Portrait3D: Text-Guided High-Quality 3D Portrait Generation Using Pyramid Representation and GANs Prior, Yiqian Wu et al. [Paper] (CVPR 2024) CosmicMan: A Text-to-Image Foundation Model for Humans, Shikai Li et al. [Paper] [Project] (arXiv preprint 2024) Fast Text-to-3D-Aware Face Generation and Manipulation via Direct Cross-modal Mapping an
State-of-the-art computer vision systems are trained to predict a fixed set of predetermined object categories. This restricted form of supervision limits their generality and usability since additional labeled data is needed to specify any other visual concept. Learning directly from raw text about images is a promising alternative which leverages a much broader source of supervision. We demonstr
今回はOpenAIの『CLIP(Contrastive Language-Image Pre-training)』を解説したいと思います。 CLIPは画像の分類に利用されるモデルですが、今までのモデルと何が違うかというと、自然言語処理の技術を応用する点です。 一般的な画像分類では、たくさんの画像を用意して、それぞれ対して犬、猫、リンゴ、などのラベルをつけます。 それを教師データとして学習します。 しかしながら、その方法には以下のような問題点があります。 ラベル付けに非常にコストがかかる。ラベルの種類が限定的で、学習対象の種類についてはうまく分類できるが、初めて見る対象(例えば、犬と猫を学習して、果物を分類するなど)については分類精度が低い。 CLIPでは、こういった問題に取り組んでいきます。 ちなみに、CLIPはモデルの仕組みではなく事前学習方法ですので、モデル自体はResNetやVisi
2022年の年末に, 自然言語処理の実質的に全論文が集まる ACL anthologyの論文を「内容」で検索できるニューラル検索システム, "ACL2Vec" http://clml.ism.ac.jp/ACL2Vec/を公開しました。これは, 2021年の言語処理学会年次大会で発表した "Researcher2Vec" [PDF] の方法を, 2022年秋までのACL anthologyの内容が全て含まれている新しいデータセット, https://github.com/shauryr/ACL-anthology-corpus に対して適用したものです。 この方法は完全に統計的に動いており, 内部的には1000次元のニューラル文書ベクトルをSVDで効率的に計算し, 基本的な線形代数を用いて最適解を返すものになっています。 この方法を拡張して, Researcher2Vecにもあるように,
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く