Description
タイトル:GRiT: A Generative Region-to-text Transformer for Object Understanding 著者:Jialian Wu, Jianfeng Wang, Zhengyuan Yang, Zhe Gan, Zicheng Liu, Junsong Yuan, Lijuan Wang(所属:ニューヨーク州立大学バッファロー校、Microsoft) 論文:https://arxiv.org/abs/2212.00280 コード:https://github.com/JialianW/GRiT ざっくりいうと 物体検出にImage Captioningを導入した「Dense Captioning」の研究 検出とテキスト生成の2段階からなり、画像特徴と、テキストトークンの特徴をText Decoderに入れてキャプション生成 クローズドセット
本サイトに関するコメント等はGitHubのDiscussionsもしくはharuyama@econ.kobe-u.ac.jpにご連絡ください。 姉妹サイト1:「Pythonで学ぶマクロ経済学 (中級+レベル)」 🚀 姉妹サイト2:「経済学のためのPython入門」 🐍 はじめに# 「なぜプログラミング?」文系の経済学の学生が理系のプログラミングを学ぶとなると,まず頭に浮かぶ質問かも知れない。過去にも同じような質問を問うた経済学部の卒業生は多くいると思われる。例えば,Excelのようなスプレッドシートのソフトは1980年代からあり,当時の大学生も使い方を学ぶ際「なぜ?」と思ったことだろう。しかし今ではWord,Excel,PowerPointの使い方は,大学卒業生にとって当たり前のスキルになっている。同じように,AI(人工知能)やビッグデータが注目を集める社会では,ある程度のプログラミン
こちらは「ChatGPT の仕組みを理解する」の後編記事になります。 前編は以下の記事をご参照ください。 tech-blog.abeja.asia 前半記事では、自然言語の基礎的な部分から GPT-3.5 まで説明していきました。GPT-3.5 の次としては、ChatGPT の元になっている InstructGPT を説明したいところなんですが、InstructGPT では強化学習の手法を使用しているので、後半記事では一旦自然言語から離れて強化学習の基礎から PPO までを説明し、最後にメインコンテンツである InstructGPT → ChatGPT を説明します。 強化学習の基礎事項 強化学習のモデル化 環境のマルコフ性とマルコフ決定過程(MDP) 価値関数 強化学習手法の分類 価値ベースの強化学習手法 方策ベースの強化学習手法と方策勾配法 アクター・クリティック手法 TRPO [Tr
こんにちは!株式会社 ABEJA で ABEJA Platform 開発を行っている坂井(@Yagami360)です。世間では ChatGPT などの大規模言語モデル(LLM)による対話型 AI が盛り上がってますね。クオリティーも凄いし AI 業界以外でも盛り上がってると嬉しいですよね。この数年で一段と AI の社会実装が業界以外の人にも目に見える形で進んできたなあと実感しております。 自分は普段業務では ABEJA Platform という AI プロダクトやその周辺プロダクトのバックエンド開発とフロントエンド開発をやっているのですが、AI 業界所属していながら ChatGPT などの LLM 全然追いかけれていない状態になっちゃてて自責の念にかられているので、このブログ執筆という良い機会に ChatGPT の仕組みについて調べてみました。 本記事の対象読者としては、以下のようになりま
はじめに LLMの応用先の一つに,テキストに加えて画像や音声といった複数のモーダルの入出力を行うマルチモーダル情報処理があります.例えば,2023年3月に発表されたGPT-4の論文では,テキストと画像から構成されるプロンプトを入力することで,画像の内容に関して高度な対話を実現できることが報告されています.GPT-4のように,テキスト以外の情報を考慮して対話を行うタスクはマルチモーダルチャットと呼ばれています. マルチモーダルチャットを実現する方法として,テキストの情報のみで事前学習されたLLMを改良し,マルチモーダル情報を扱えるようにする手法が多数提案されています.例えば,テキストと画像を入力可能なタスクであれば,画像データで学習された画像のエンコーダとなるモデルをLLMに接続することで,画像とテキストを同じ枠組みで処理する手法(BLIP-2やMiniGPT-4)が提案されています. 今回
G-gen 又吉です。Google Cloud (旧称 GCP) の事前トレーニング済みの API のひとつである Cloud Vision API を用いて車のナンバープレートをマスキングする処理をご紹介します。 はじめに Vision AI Vision API 事前確認でわかったこと 構成図 準備 ディレクトリ構成 main.tf gcf_source_code/detect_car main.py requirements.txt gcf_source_code/detect_license_plate main.py requirements.txt 動作検証 検証データ 実行 Cloud Vision API と Cloud Functions でナンバープレートをマスキング はじめに Vision AI Vision AI とは、Google Cloud 上で画像や動画から分
SDXL 1.0をAUTOMATIC1111で動かすにはStability AIが画像生成AIのStable Diffusion 1.5をリリースしたのは2022年10月20日。そこから約9ヶ月経った本日2023年7月27日、高画質な最新バージョンSDXL 1.0の登場となった。まだ全く使いこなせていないが、速報と言うことで、その絵をご覧頂きたい。 Stable Diffusion 1.5とSDXL 1.0の大きな違いはザックリ2点。 学習ベースが512✕512ドットから1,024✕1,024ドットへ 1pass式からBase→Refinerと言う2pass式になった 学習ベースの解像度がこれだけ違うと、当然出てくる絵に差が出る。1passから2passになった技術的な理由はさておき、Baseのままでもそれなりに見れ、更にRefinerを通すと解像度や質感が向上する。 BaseとRefin
Stability AI、画像生成モデルSDXL 1.0をリリース、オープンモデルとして公開 Stability AIは2023年7月26日、同社の開発するテキストによるAI画像生成モデルSDXL(Stable Diffusion XL)の新バージョンSDXL 1.0をリリースした。 ANNOUNCING SDXL 1.0 -Stability AI Stability AIが最新のテキストから画像を生成するモデル、Stable Diffusion XL 1.0をリリース。 Amazon Bedrockで利用可能に。@clipdropapp では今すぐ使えます!https://t.co/LxVgOdhUe4#StabilityAI #AI #AIcommunity #TextToImage #OpenSource #AWS #SDXL pic.twitter.com/SW73NRp
製造業の生成AI活用に3つの道筋、製造現場などでの活用事例を探る:製造現場向けAI技術(1/4 ページ) 最も大きな注目を集めるワードの1つである「生成AI」。製造業ではどのように役立てられるのだろうか。活用事例を幾つか取り上げるとともに、製造現場などでの活用事例を探る。 「生成AI」は今、最も大きな注目を集めるワードの1つだ。OpenAIによるChatGPTの公開は、AI(人工知能)による高精度のコンテンツ生成がもう一定程度可能なのだということを知らしめ、多くの人々に衝撃を与えた。 その衝撃は産業界にも届いている。現在、製造業でも大規模言語モデル(LLM)や画像生成AIの業務適用を検討する企業が増えてきている。もっとも、それらの動きの多くはあくまで初期段階や業務の一部での試験的な導入にとどまる。組織や業務プロセス、働き方の在り方そのものを変え得るような事例はまだ出てきていない。 だが今後
非営利の技術コンソーシアムであるLinux Foundationによるサポートのもとで、Meta・Microsoft・Amazon・地図会社のTomTomが設立したオープンで相互運用可能な地図データ構築を目指す団体「Overture Maps Foundation」が、設立以来初となるオープンな地図データセットを2023年7月27日に公開しました。 Overture Maps Foundation Releases Its First World-Wide Open Map Dataset – Overture Maps Foundation https://overturemaps.org/overture-maps-foundation-releases-first-world-wide-open-map-dataset/ Meta, Microsoft and Amazon rele
このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」(シームレス)を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 Twitter: @shiropen2 米Cornell Techに所属する研究者らが発表した論文「(Ab)using Images and Sounds for Indirect Instruction Injection in Multi-Modal LLMs」は、画像や音声に悪意あるプロンプトを含ませたプロンプト・インジェクション(生成AIに対しての攻撃)を提案した研究報告である。 ユーザーが知らずにその画像や音声を大規模言語モデル(LLM)のチャットbotAIに入力すると、画像や音声と無関係な偽の情報や、フィッシングサイトに誘導するテキスト回答を出力する。また、ギャル風に
こんにちは、igaです。 先日の連休で、あるコンテンツの聖地巡礼をして英気を養ってきました! 英気を養ったところで、「Node.jsからPythonにソースコードを移植する」ということが必要になりました。 元のNode.jsのコードでPythonには存在しない書き方をしていて、そのままPythonに書き直すのが難しいため、ChatGPTに助けてもらって移植を行ってみよう、と考えました。 今回のポイント 変換にあたって、Node.jsで変数の値をインクリメントする「index++」という記述が、Pythonには存在しません。 同じように変数の値をインクリメントする場合、Pythonでは「index += 1」という記述にする必要があります。 それで今回のソースコードですが、関数の引数を指定するところでインクリメントの、しかもやや複雑な記述が存在していました。 num = this.#tran
マイクロソフトは、自動で文章などを作る生成AIの事業で、データセンターの拠点をすべて日本国内に切り替え、情報管理の強化を進める方針を明らかにしました。 マイクロソフトは、企業向けなどの生成AIの事業を手がけていて、AIの機能を担うデータセンターの拠点は、アメリカと欧州に置かれていました。 発表によりますと、会社は、東日本にあるデータセンターを拡充し、AIの機能を新たに日本国内に置くということです。 生成AIをめぐっては、データセンターの拠点が海外にあることで機密性や重要性の高い情報管理に対する懸念が指摘されています。 会社は、生成AIの事業ですべてのデータのやりとりを日本国内で行うことで、情報管理の強化につながるとしています。 また、生成AIの事業の拡大に合わせて、今後、西日本にあるデータセンターの拡充も検討していくとしています。 生成AIの情報管理をめぐっては、NECも日本国内にあるデー
生成AI、中でもOpen AIの大規模言語モデルであるChatGPTを社内ツールとして取り入れ、業務に活用する動きが広がっている。筆者が記憶している限り、最も速い動きを見せた企業の1つがパナソニック子会社のパナソニック コネクトだ。 マイクロソフト「Azure OpenAI Service」の提供開始にあわせて独自システム「ConnectAI」を開発し、2月には全社導入を発表。今年9月からはさらに一歩踏み込んで、ChatGPTに社内データをつなぎ込み、10月以降カスタマーサポートで活用する計画も発表している。 導入から数ヵ月、ChatGPTは今、どのような業務にどう活用されているのか。見えてきた業務効率化の鍵と課題を、パナソニック コネクト IT・デジタル推進本部 戦略企画部 シニアマネージャーの向野孔己氏に聞いた。 使用回数は1日あたり5800回、トータルで26万回 ──今年2月に全社に
非IT企業も「AIプログラミングのない時代には戻れない」 「GitHub Copilot」導入した東急の内製開発チーム、手応えは?(1/2 ページ) 米AWSや米GitHubなど、外資ベンダーが提供を進める、生成AIを活用したプログラミング支援サービス。特にGitHubの「GitHub Copilot」は2月に法人版「GitHub Copilot for Business」がリリースされたばかりにもかかわらず、ZOZOやサイバーエージェントなど、さまざまなIT企業が導入を進めている。 非IT企業でも、部門単位などで限定的に導入するケースが見られる。東急もその1社だ。同社では、街づくりにおけるDX(デジタルトランスフォーメーション)を担う内製開発チーム「URBAN HACKS」(アーバン ハックス)が、法人版「GitHub Copilot for Business」を導入。約30人のエンジニ
この記事は何 2023年、世間はLLMで大騒ぎですが、データの業界ではセマンティックレイヤー・Headless BIへの注目も高まっています。 これは、まだ国内では黎明期ともいえるそんな技術が、今後どんな存在となりうるのかを、筆者の個人的な解釈と妄想をもとに述べる長文ポエムです。 セマンティックレイヤーとは まず最初にセマンティックレイヤーについて解説します。 セマンティックレイヤーとは セマンティックレイヤーとは、データベースとデータ利用者の間に入り、両者間のやりとりを円滑にする存在です。 データ統合プラットフォームを提供するAirbyte社は、セマンティックレイヤーをデータとビジネスユーザーの中間に位置する、複雑なデータを理解可能なビジネスの概念に変換・翻訳するレイヤーと説明しています。 A semantic layer is a translation layer that sits
Snowpark Pythonを使うクライアントアプリケーションのためのローカル開発環境を用意してみました。Python環境準備に加え、Snowflakeのユーザーの準備などいくつかポイントがあったのでご紹介します。 データアナリティクス事業本部 機械学習チームの鈴木です。 Snowpark Pythonを使うクライアントアプリケーション開発用に、ローカル環境で開発環境を用意したので、試した内容をご紹介します。 この記事の内容 以下のガイドを参考に、Snowpark Pythonのクライアントアプリケーションを開発するため、ローカル環境で開発環境を用意してみました。 標準的な内容を紹介されていますが、PythonバージョンやインストールするPythonライブラリも確認できたため、クライアントアプリケーションを実行するためのコンテナを準備するような際にも参考になると思います。また、クライアン
議事 1開会 2議事 (1)法制度小委員会主査の選任等について【非公開】 (2)令和5年著作権法改正について (3)AIと著作権について (4)その他 3閉会 配布資料 資料1 第23期文化審議会著作権分科会法制度小委員会委員名簿(236KB) 資料2 新たな裁定制度における未管理公表著作物等について(384KB) 資料3 AIと著作権に関する論点整理について(640KB) 参考資料1 文化審議会関係法令等(349KB) 参考資料2 第23期文化審議会著作権分科会委員名簿(271KB) 参考資料3 第23期文化審議会著作権分科会における検討課題について(令和5年6月30日文化審議会著作権分科会決定)(276KB) 参考資料4 小委員会の設置について(令和5年6月30日文化審議会著作権分科会決定)(265KB) 参考資料5 文化審議会著作権分科会(第68回)(第23期第1回)における主な意見
7月21日、 映画製作会社は100年余りにわたってさまざまなモンスターを画面に登場させてきたが、ついに2023年になって私たちとそっくりの外見を持つ「メタヒューマン」と呼ばれる怪物が現れた。写真は14日、ロサンゼルスのネットフリックス事務所前でストライキを行う全米映画俳優組合の関係者(2023年 ロイター/Mike Blake) [21日 ロイター] - 映画製作会社は100年余りにわたってさまざまなモンスターを画面に登場させてきたが、ついに2023年になって私たちとそっくりの外見を持つ「メタヒューマン」と呼ばれる怪物が現れた。 6月以降、米ハリウッドでは制作側と俳優が映画やテレビにおける人工知能(AI)の活用に関する議論を戦わせてきたが、その条件を巡って合意できていない。全米映画俳優組合(SAG-AFTRA)が14日にストライキに入り、63年ぶりに脚本家組合と同時にストを決行することにな
フィンランド在住、19歳、女性というプロフィールのミラ・ソフィア。YouTube、Instagram、TikTok、Twitterといった主要SNSで写真や動画を公開しています。 ミラ・ソフィアがAIインフルエンサーだということを知ってかどうかはわかりませんが、SNSには多種多様な声が集まっています。 ・ゴージャスだね ・美しすぎる ・ゴールドどころかプラチナだよ ・完璧な美 ・欠点が見当たらない ・絶対美 ・寂しいのは君だけじゃない ・ダイヤモンドのような輝き ・女神か ・セクシーすぎます ・ボクのガールフレンドになって! ・何着ても似合うな ・AIってすごい ・実在しない女性なのか ・ロボットガールをどんだけフォローしてんだよ ・えっ、これってフェイクなの!? ・AIに騙される可哀そうな人が多すぎるぞ ※画像:Twitterより引用 https://twitter.com/AiMode
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く