並び順

ブックマーク数

期間指定

  • から
  • まで

121 - 156 件 / 156件

新着順 人気順

画像特徴量の検索結果121 - 156 件 / 156件

  • CreateField Blog

    はじめに 先日、2024/4/4 CohereからCommand R+という新たなLLM(大規模言語モデル)が発表されました。 Cohereは、Transformerモデルを提唱した論文共同執筆者の人が立ち上げたカナダのAIベンチャー企業のようです。 https://ascii.jp/elem/000/004/192/4192907/ Command R+とは、最大で128Kトークンが処理が可能で、コストはGPT4Turboの3~5倍ほど安いモデルです(Claude3 Sonnetと同等)。 先日、以下の記事にてGPT, Claude3, Gemini別に審査官による特許引用文献段落の再現率の検証を行いました。 ChatGPT, Claude3, Gemini別に審査官による特許引用文献段落抽出の再現率を検証してみた - CreateField Blog Gemini 1.5 Pro AP

      CreateField Blog
    • OpenCV 3で犬と猫を分類できるように学習してみる(BOW: Bag Of Visual Words, KNN: k-Nearest Neighbour, k-meansクラスタリング, KAZE) - Qiita

      OpenCV 3で犬と猫を分類できるように学習してみる(BOW: Bag Of Visual Words, KNN: k-Nearest Neighbour, k-meansクラスタリング, KAZE)Python画像処理OpenCV機械学習 はじめに 今回は、画像の中の物体が何なのかをOpenCV3とPython3で推測してみます。 ・  = Dog or Cat ? 物体認識は、訓練フェーズとテストフェーズに分かれ、それぞれ、次のようになります。 訓練フェーズ 入力画像 特徴量抽出 特徴量をクラスタリング クラスタリングされた特徴量を集計(ヒストグラム) ヒストグラムと物体カテゴリの相関を学習 テストフェーズ 入力画像 特徴量抽出 特徴量をクラスタリング クラスタリングされた特徴量を集計(ヒストグラム) ヒストグラムがどの物体カテゴリに近いか距離を計算 今回、それぞれのステップでOpe

        OpenCV 3で犬と猫を分類できるように学習してみる(BOW: Bag Of Visual Words, KNN: k-Nearest Neighbour, k-meansクラスタリング, KAZE) - Qiita
      • blog.rettuce.com » unframe004でAIxAIっていう作品をつくっていました。

        2016.11.3~5 に unframe004 をいつもお世話になっている中目黒のPanofNスタジオで行いました。 今年は4回目となり、今まで好き勝手作ってきたメンバー同士に緩い繋がりみたいなのがあってもいいんじゃないかみたいな話になり、 グループテーマみたいなものを用意してみることになりました。そして今回のグループテーマは「愛」。 やってみた感想としてはテーマ決めてもまー結局みんな好き勝手に作る感じで、 あんまりテーマありきみたいな作品は少なかったかな。。w (失敗だったのかな。。w) そういうの向いてない人たちなのかなって感じでしたw 来年とかに行うなら果たしてテーマを設けるのかどうかみたいなのはまたみんなと話してみようかと思います。 あと、今回はお客さんの人数だったり、知ってる人や初見の人のバランスなど、いい塩梅になってきたなーっていう印象。 4回とかやってると知ってる人の中でも

          blog.rettuce.com » unframe004でAIxAIっていう作品をつくっていました。
        • 【カメラマン必見?】「記憶に残る写真を撮るには『人間』を写すのがベスト」であることがMITの最新の研究... | DERiVE コンピュータビジョン ブログ

          このサイトについて DERiVEはコンピュータビジョン、画像認識が専門のMasaki Hayashiがお送りしている、コンピュータビジョン(Computer Vision)を中心としたITエンジニア、研究向けのブログです。※「DERiVE メルマガ別館」は2015/9月で廃刊致しました、 あなたは写真を撮るのは好きですか?写真を撮るのが上手なカメラマンほど、印象深く記憶に残る写真を上手く撮影しますよね。では、写真の要素の中において、一体何が記憶に残りやすさに一番貢献しているのでしょうか? MITのComputer Visionチームの最新研究によると、写真の記憶のしやすさに一番の貢献しているのは「人間」であることがわかったそうです。 アメリカで年一回開催されているビッグカンファレンス、CVPRの開催が6/20に近づいてきていますが、そこに投稿されたMITのチームによる以下の論文、 「Wha

          • IBIS2017参加報告 - ZOZO TECH BLOG

            こんにちは、データチームの後藤です。 VASILYデータチームは2017年11月8日〜11日にかけて、東京大学の本郷キャンパスで行われた第20回情報論的学習理論ワークショップ(以下、IBIS2017)に参加しました。本記事では、発表の様子や参加した感想をお伝えしたいと思います。 IBIS2017について IBIS2017 IBISは機械学習に関する国内最大規模の学会です。機械学習や統計学、情報理論などの理論研究や、機械学習の応用的な研究が対象となります。参加登録数は去年の約2倍の1036人となっており、その規模は加速的に大きくなっています。 初日の懇親会では「IBIS年代記」と題して、20年の歴史を振り返るトークも行われました。絶滅の危機に瀕しているトキ(IBIS)は絶滅寸前のニッチな研究者集団という意味を表している?そうですが、今となってはビッグデータや深層学習のブームと重なり、絶滅寸前

              IBIS2017参加報告 - ZOZO TECH BLOG
            • 有限混合分布モデルの学習に関する研究 (Web 版)

              次へ: 序 論 有限混合分布モデルの学習に関する研究 (Web 版) 赤穂 昭太郎 2001 年 3 月 15 日学位授与(博士(工学)) 序 論 研究の背景と位置づけ 論文の構成 有限混合分布とその基本的性質 定義 モジュール性 階層ベイズモデルとの関係 パラメトリック性とノンパラメトリック性 RBF ネットワークとの関係 学習における汎化と EM アルゴリズム 最尤推定 汎化と竹内の情報量規準 (TIC) 汎化バイアス 竹内の情報量規準 (TIC) 冗長性と特異性 EM アルゴリズム 一般的な特徴 一般的な定式化 独立なサンプルが与えられた時の混合分布の学習 独立な要素分布の場合 サンプルに重みがある場合 EM アルゴリズムの一般化 EM アルゴリズムの幾何学的解釈 正規混合分布の汎化バイアスの非単調性について はじめに Radial Basis Boltzmann Machine (

              • Shopee - Price Match Guaranteeでゴールドメダルを獲得しました - Taste of Tech Topics

                皆さんこんにちは。 @tereka114です。 GPU熱により、部屋が熱くなってきており、冷房が欠かせません。 先日、Kaggleで開催された「Shopee - Price Match Guarantee」でゴールドメダル(5位/2426)を獲得しました。 ※本件のプレスリリースをこちらで公開しています。 www.acroquest.co.jp この記事ではコンペの概要と当チームの取り組みを紹介します。 概要 チームでの取り組み 解法 1. 商品群の中でペアの候補群を作成する。 1-1. 画像解析 1-2. テキスト解析 1-3. 候補の検索 2. ペアの候補群から候補を絞り、最終的なペアを作成する。 2-1. XGBoostを用いて、候補を絞る 2-2. 凝集型クラスタリング(Agglomerative Clustering) このコンペで学べたこと 最後に 概要 ECサイトを運営するS

                  Shopee - Price Match Guaranteeでゴールドメダルを獲得しました - Taste of Tech Topics
                • metric learning のファッション分野における活躍

                  この記事の目的は? ファッションの3つの研究分野において、 metric learning がどう使われているかを説明し、関連文献をいくつか紹介します。 metric learning やファッションの研究に興味を持たれた方が、研究を始めやすくなればと考えています。 street-to-shop image retrieval どんな研究か? ファッションアイテムの自撮り画像から、ECサイトで使われるような商品画像を検索 するための研究です。ファッションに限らない、一般的な呼び方だと cross-domain image retrieval と呼んだりもします。 図:自撮り画像の例 図:商品画像の例 出典: (M. Hadi Kiapour et al., 2015, ICCV) Where to Buy It: Matching Street Clothing Photos in Onl

                    metric learning のファッション分野における活躍
                  • 「笑い」を理解するAIを作ってみました ~ボケ判定AIを作ろう! (ボケてコンペ #1) 1st place solution ~ - Qiita

                    「笑い」を理解するAIを作ってみました ~ボケ判定AIを作ろう! (ボケてコンペ #1) 1st place solution ~画像処理自然言語処理機械学習NLP 株式会社バンダイナムコ研究所のlaiです。Nishika株式会社が主催した「ボケ判定AIを作ろう! (ボケてコンペ #1)」コンペに参加しました。本記事で私の取り組みの共有と振り返りをしたいと思います。 概要 本コンペでは、株式会社オモロキ様提供の「ボケ缶データセット」を用い、ボケ画像とボケテキストのみから、そのボケが面白いか・面白くないかを予測するコンペです。「ボケて」では星をつけることで面白いボケに投票できるようになっており、その数をもとに面白さを定義しています。ある時点のボケての星の数を2段階にビニングしたもの(面白いものを1、 面白くないものを0)が本コンペの目的変数となります。 ボケ画像とテキストのペアの例: 結果

                      「笑い」を理解するAIを作ってみました ~ボケ判定AIを作ろう! (ボケてコンペ #1) 1st place solution ~ - Qiita
                    • whoopsidaisies's diary

                      概要 Detectron2のModel Zooにある訓練済みを使って、物体検出やインスタンスセグメンテーション、姿勢推定等を行う。 多くのモデルに対して一括で処理できるコードを作った。便利。 Detectron2 FacebookのAI研究グループ(FAIR)が開発している物体検出アルゴリズムを実装のためのソフトウェア。 環境 ubuntu 18.04 GeForce GTX TITAN X インストール 詳細は省略。ほぼ公式の通りやった。Windowsでやろうとしたら公式対応してないから大変そうな雰囲気。 メモ代わりに大雑把な手順を載せるが公式を読んでやったほうがいい。 OS、cuda等:dockerコンテナ利用 nvidia/cuda:10.1-cudnn7-devel Python環境 Anaconda 2019.10でpython3.7環境構築 pytorch conda inst

                        whoopsidaisies's diary
                      • NECの映像品質の評価技術、国際標準規格として採用 | エンタープライズ | マイコミジャーナル

                        NECは、同社が開発した映像品質の客観評価技術がITU-T SG9における映像品質の客観評価方法に関する国際標準規格「J.249」の1方式として採用されたことを明らかにした。 同技術は、量の画像特徴量を用いて映像品質(QoE:Quality of Experience)の客観的な評価を自動で行う技術で、送信元の映像画面から少量の特徴量を抽出・送信し、受信端末側でこの特徴量と受信映像の特徴量を比較することで品質を評価。特徴量は、画面を16×16画素のブロックに分割し、各ブロック内の輝度の分散に相当する簡易な特徴量として算出。品質チェックを行う際に送信元の映像が不要で、抽出された少量の特徴量だけあれば、サービス運用中でもリアルタイムにチェックすることが可能だ。また、配信経路のさまざまなポイントで品質評価できるため、システム障害の発生箇所を素早く見つけることが可能となる。 また、圧縮処理前の元映

                        • NEC、AIを活用した映像解析で工場での数十種類の細かい作業を識別する技術を開発

                          NECは工場での組み立て等の人手による作業において、AIを活用した映像解析により一般的なカメラで撮影した数回分のお手本映像だけで学習モデルを作成し、手指の動きを捉えて数十種類の細かい作業を高精度に識別することで、全工程の流れを見える化する技術を開発しました。 このAIニュースのポイント NECがAIを活用した映像解析で数十種類の細かい作業を識別する技術を開発 数回のお手本映像の学習のみで解析可能で、道具や部品に関する教師データの用意が不要 作業を細かく識別し、それぞれの工程でかかる時間を計測する為生産性の向上に貢献 日本電気株式会社は工場での組み立て等の人手による作業において、AIを活用した映像解析により一般的なカメラで撮影した数回分のお手本映像だけで学習モデルを作成し、手指の動きを捉えて数十種類の細かい作業を高精度に識別することで、全工程の流れを見える化する技術を開発しました。 手指を使

                            NEC、AIを活用した映像解析で工場での数十種類の細かい作業を識別する技術を開発
                          • 1.9TOPSの演算性能を実現した画像認識アプリケーション向けへテロジニアスマルチコアSoCの開発について | 東芝デバイス&ストレージ株式会社 | 日本

                            色情報に関する4種類の画像特徴量により夜間においても昼間なみの認識精度を実現 当社は、今年1月にサンプル出荷を開始した画像認識用プロセッサVisconti™4「TMPV7608XBG」で採用した新技術を、米国サンフランシスコで開催された半導体国際学会ISSCC2015(International Solid-State Circuits Conference)において、2月25日(現地時間)に発表しました。本製品は1.9TOPS注1(毎秒1.9兆回の演算)という高い演算性能を持ち、色の傾向を表す4種類の特徴量を組み合わせて画像認識を行うことにより、低照度時の認識性能を強化し、夜間の歩行者などに対して高い認識性能を実現しています。 本製品では画像認識においてニーズが高まっている浮動小数点演算処理が可能な8個の画像処理エンジン(MPE:Media Processing Engine)と、今回新

                            • 日立システム、数百万の画像から類似画像を1秒以内で検索できる製品 | 経営 | マイコミジャーナル

                              日立システムアンドサービスは7月30日、日立製作所が開発した、数百万件規模の大規模な画像データの中から指定した画像と類似した画像を1秒以内で検索できる技術「EnraEnra」を用いた「画像検索ソリューション」の提供を8月3日から開始する。 EnraEnraは、画像から色分布や輝度勾配パターンの分布などの情報を数値ベクトル化した「画像特徴量」を自動的に抽出し、それを基に類似画像を検索する技術で、画像に関連するキーワード情報が付与されてない画像データも検索対象にできる。また、数百万件の画像データから約1秒で類似した画像を検索し、サーバを並列化すれば数千万件の画像を1秒以内で検索することが可能。 標準機能で登録できるのは、ローカルディスクに存在する画像ファイルやURLで指定した画像ファイル。「Webクローラによる、Webサイト内の画像ファイル、キーワードなどのメタ情報の登録」、「カメラ付携帯電話

                              • アップルがLLMのようにスケーラブルな大規模自己回帰画像モデルを開発

                                3つの要点 ✔️ LLMの画像版として、自己回帰学習型の画像モデルAIMを提案 ✔️ 事前学習した画像特徴量の質はモデル規模とデータの質に従い向上し、下流タスクの性能は事前学習性能に従い向上 ✔️ 20億枚の画像でAIMの70億パラメータを事前学習しImageNet-1kタスクで精度84%を達成に加え、性能飽和の兆しなし Scalable Pre-training of Large Autoregressive Image Models written by Alaaeldin El-Nouby, Michal Klein, Shuangfei Zhai, Miguel Angel Bautista, Alexander Toshev, Vaishaal Shankar, Joshua M Susskind, Armand Joulin (Submitted on 16 Jan 2024)

                                  アップルがLLMのようにスケーラブルな大規模自己回帰画像モデルを開発
                                • 卒業論文 顔領域認識を利用した イラストの作者同定アルゴリズム 平成 24 年 2 月 9 日提出 指導教員 近山 隆 教授 田浦 健次朗 准教授 電子情報工学科 03093010 板持 貴之 概要 画像処理・認識�

                                  卒業論文 顔領域認識を利用した イラストの作者同定アルゴリズム 平成 24 年 2 月 9 日提出 指導教員 近山 隆 教授 田浦 健次朗 准教授 電子情報工学科 03093010 板持 貴之 概要 画像処理・認識の研究では,その対象画像として写真が用いられることが多く,人が描いた絵を対象としたもの は少ない.さらに,人が描いた絵の中でも,油絵等の塗りや絵の具の材料が重要になるものが対象になっているこ とが多く,漫画などの線画をメインとしたものはさらに少ない.しかし,近年では,漫画やアニメといったものが 現代の一大コンテンツとなってきており,それらをターゲットとした研究も重要になってきている. さらに近年,イラスト投稿サイトと呼ばれるサービスを通じ,アマチュアの人でも Web 上に様々なイラスト (本 論文では,漫画やアニメ絵のような,線画をメインとした絵のことをイラストと呼ぶ) を投稿

                                  • APTOS反省会メモ - 重み元帥によるねこにっき

                                    はじめに 以前,APTOS 2019 Blindness Detectionに参加し,何とか銀メダルを獲得しました. 今回はHoxoMaxwellさん主催のAPTOS反省会に参加した際のメモ書き + 皆様のスライドを紹介します. なお,弊チームの振り返りに関しては以下の通りです. mocobt.hatenablog.com icebee.hatenablog.com 発表資料はこんな感じで,夜中3時まで野郎2人で作ったせいか大分可愛らしくなってます. ぜひご確認ください. speakerdeck.com 以下,発表順で紹介します. 79th Solution by @Takarasawa_さん & @tomoyukunさん speakerdeck.com 0を判別するモデル, 1以下, 2以下, 3以下を判別する3モデルを合わせた4モデルが1番強かった EfficientNetには最適解像

                                      APTOS反省会メモ - 重み元帥によるねこにっき
                                    • Kaggleで勝つデータ分析の技術

                                      2019年10月9日紙版発売 2019年10月9日電子版発売 門脇大輔,阪田隆司,保坂桂佑,平松雄司 著 B5変形判/424ページ 定価3,608円(本体3,280円+税10%) ISBN 978-4-297-10843-4 Gihyo Direct Amazon 楽天ブックス ヨドバシ.com 電子版 Gihyo Digital Publishing Amazon Kindle ブックライブ 楽天kobo honto この本の概要 データサイエンスの認知の高まりとともに,データ分析に関するコンペティションが多数開催されるようになってきました。最も有名なコンペティションプラットフォームであるKaggleにおけるプレイヤー数は10万人を超え,多くのエンジニアが自分の腕を試すためにコンペティションに参加しています。分析コンペでは,実際のデータを扱うため,機械学習の解説書にはあまり載っていないよ

                                        Kaggleで勝つデータ分析の技術
                                      • cslabの日記

                                        WindowsでPython使うとき、多くはバイナリーインストーラを使うと思うが、その時同時にインストールされるPython shell(IDLE)はよりも、便利なものがIPython。 IpythonがPyhon shellよりイイ点は、 ・コマンドの補完ができること。(モジュール内部の補完も、ファイル名の補完も効く) ・OSのコマンド(コマンドプロンプトで実行できるコマンド)がそのまま使えること。(cd, pwd, ls とか) その動作確認メモ http://ipython.org/download.html からipythonのインストーラとってくる。ここにも書いてあるが、補完機能はreadline ライブラリを使っている。これを入れないと、ipythonのコード補完が効かない。ipython起動時に警告だしてくる。 WARNING: Readline services not a

                                          cslabの日記
                                        • Autowareにおける3次元物体検出アルゴリズムの再検討【サーベイ編】 - TIER IV Tech Blog

                                          ティアフォーのSensing/Perceptionチームで開発を行っている村松です。Autowareの動物体検出アルゴリズムのうち一部を再検討し、Autowareに組み込むまでについて紹介します。今回はそのサーベイ編として、調査した概要や手法についてお話します。 なお、ティアフォーでは、「自動運転の民主化」をともに実現していく様々なエンジニア・リサーチャーを募集しています。もしご興味があればカジュアル面談も可能ですので以下のページからコンタクトいただければと思います。 TIER IV Careers tier4.jp 自動運転における3次元物体検出について 3次元物体検出とは、3次元空間での物体のクラス(種類)・位置・大きさ・向きなどを推定する技術です。自動運転において、事故なく目的地まで移動するためには、他車両や歩行者などがどこにどの大きさで存在するかという周辺環境の認識が必須となります

                                            Autowareにおける3次元物体検出アルゴリズムの再検討【サーベイ編】 - TIER IV Tech Blog
                                          • 論文まとめ:(DALL・E 2論文)Hierarchical Text-Conditional Image Generation with CLIP Latents

                                            タイトル:Hierarchical Text-Conditional Image Generation with CLIP Latents リンク:https://cdn.openai.com/papers/dall-e-2.pdf 所属:OpenAI コード:DALL・E 2の前の段階のGLIDEは公開されているが、これは非公開(2022年4月時点) ざっくりいうと 訓練済みCLIPと拡散モデルを使った、テキスト→画像による生成モデル CLIPの画像埋め込み特徴を生成するような、拡散モデルベースの事前分布モデルを開発 先行研究のGLIDEの改良という位置づけだが、多様性に富む画像生成に成功 要旨 2段階のモデルを提案 テキストキャプションを与えてCLIP画像埋め込みを生成する事前処理 画像埋め込みを条件として画像を生成するデコーダ 画像表現を明示的に生成することで、写実性とキャプションの

                                              論文まとめ:(DALL・E 2論文)Hierarchical Text-Conditional Image Generation with CLIP Latents
                                            • 物体検出DETR (DEtection TRansformer) - Qiita

                                              本書は筆者たちが勉強した際のメモを、後に学習する方の一助となるようにまとめたものです。誤りや不足、加筆修正すべきところがありましたらぜひご指摘ください。継続してブラッシュアップしていきます。 © 2021 NPO法人AI開発推進協会 本書はTransformerを使った物体検出モデルであるDETRを説明します。(Transformerを理解している前提で記載しています。まだ理解していない方は当法人で作成している別冊「Seq2Seq&Transformer」を先に読んでください。) 【参考文献、サイト】 論文 End-to-End Object Detection withTransformers End-to-End Object Detection with Transformers(DETR)の解説 Transformerを物体検出に採用!話題のDETRを詳細解説! 1.はじめに DE

                                                物体検出DETR (DEtection TRansformer) - Qiita
                                              • OpenCVのremapを使って局所Affine変換

                                                のようです。くせはなく直感的です。入力の座標と出力の座標を対として保持したテーブル(map)を指定するだけで画像変換してくれます。画像の外の値をどうするだとか、そういったオプションも用意されています。 mapとは出力先の各座標が入っていて、例えば無変換の4×4のX座標は、 [0, 1, 2, 3], [0, 1, 2, 3], [0, 1, 2, 3], [0, 1, 2, 3] な具合です。左上を原点とした2倍拡大であれば [0, 0.5, 1, 1.5], [0, 0.5, 1, 1.5], [0, 0.5, 1, 1.5], [0, 0.5, 1, 1.5], な感じで、各座標位置に変換元座標のどこの座標を参照するかが配列で指定されています。小数点が扱えるので、サブピクセル単位で指定することができます。Y座標に関しても同様で、 [0, 0, 0, 0], [0.5, 0.5, 0.5

                                                  OpenCVのremapを使って局所Affine変換
                                                • DEIM 2011 Proceedings

                                                  deim 2011 Proceedings Proceedings of the 3rd Forum on Data Engineering and Information Management プログラム * が付いている著者は発表者で す 2月27日 13:00-14:30A1: マイクロ ブログ(1) リストを用いたTwitterユーザのタグ付け手法 : *山口祐人, 天笠俊之, 北川博之(筑波大) 投稿間隔に基づくマイクロブログからの話題チャンク抽出に関する一検討 : 新谷歩生, 関洋平, 佐藤哲司(筑波大) 属性伝搬モデルを用いたマイクロブログのフォロー先推薦法 : 康大樹, 島田諭, 関洋平, 佐藤哲司(筑波大) Twitter-based TV Audience Behavior Estimation for Better TV Ratings : *若宮翔子, 李龍, 角谷

                                                  • マルチモーダルLLMの活用方法と技術解説

                                                    TL; DR GPT-4VやGeminiなど、大規模言語モデル(LLM)を画像や音声など複数のモダリティに対応させたマルチモーダルLLMが登場し始めている LLMをマルチモーダル化することで様々な恩恵を受けられる 学習済みモデル同士を組み合わせた構造にし事前知識を活用することで、学習の効率化を実現する はじめに Elithで機械学習エンジニアをしている成木です。 ChatGPTをはじめとする様々なプロダクトが登場しLLMが急速に普及していく中で、最近それらに画像や音声といったモダリティが入力できるようになるなどLLMのマルチモーダル化が進んでいます。 その例として、画像入力に対応のGPT-4Vや、画像や音声、動画を用いた対話が可能であるGeminiなどがあります。このように画像や音声などのテキスト以外のモダリティを処理を可能にすることで、LLMの活用方法や適用範囲がより大きく広がっています

                                                      マルチモーダルLLMの活用方法と技術解説
                                                    • MidjourneyやStable Diffusionなどの画像生成AIの仕組みについて|IT navi

                                                      以前、「最近、人工知能による自然言語処理が爆発的に進化しているのでまとめてみた。」という記事の中で、DALL-E2、Imagen、Partiなどのテキスト(文字情報)から画像生成するAIについて解説したのですが、その後、Midjourneyや DreamStudio(Stable Diffusion)などの新しい画像生成AIが次々と公開されて、世間が盛り上がってきましたので、新しい情報を追加してまとめ直すことにしました。 1.4種類の画像生成モデル 一般的に、ディープラーニングを利用して自動的に画像を生成する画像生成モデルとしては、大きく分けて以下の4種類のモデルがあります。 (1) 変分オートエンコーダー(VAE) VAE(Variational Auto-Encoder)は、入力データを特徴量に圧縮し、その特徴量をまた元のデータに戻すという仕組みのオートエンコーダーの一種で、この特徴量

                                                        MidjourneyやStable Diffusionなどの画像生成AIの仕組みについて|IT navi
                                                      • 個人情報保護法その他で規定された個人情報等の種類と規制の違い

                                                        個 人 情 報 等 の 種 類 と 規 制 の 違 い ~ 要 配 慮 、 プ ラ イ バ シ ー 、 個 人 関 連 情 報 、 仮 名 加 工 情 報 、 匿 名 加 工 情 報 等 々 ~ 2 2 . 8 弁 護 士 水 町 雅 子 1 ミス・間違い等もありえますので、必ず法律・GL等原典に当たっていただけますようお願いします。 講師略歴 弁護士 水町雅子 (みずまちまさこ) http://www.miyauchi-law.com メール→osg@miyauchi-law.com ◆ 東京大学教養学部相関社会科学卒業 ◆ 現、みずほ情報総研入社 ITシステム設計・開発・運用、事業企画等業務に従事 ◆ 東京大学大学院法学政治学研究科法曹養成専攻(法科大学院)修了 ◆ 司法試験合格、法曹資格取得、第二東京弁護士会に弁護士登録 ◆ 内閣官房社会保障改革担当室参事官補佐 マイナンバー制度立案

                                                        • GANの発展の歴史を振り返る!GANの包括的なサーベイ論文の紹介(アルゴリズム編)

                                                          3つの要点 ✔️様々な分野で使用されている 「GAN」の包括的なサーベイ論文の紹介 ✔️アルゴリズム編では、「GAN」のアルゴリズムに焦点を絞って様々なアプローチを紹介 ✔️ この記事で「GAN」の最新動向までをキャッチアップ可能 A Review on Generative Adversarial Networks: Algorithms, Theory, and Applications written by Jie Gui, Zhenan Sun, Yonggang Wen, Dacheng Tao, Jieping Ye (Submitted on 20 Jan 2020) subjects : Computer Vision and Pattern Recognition (cs.CV); Machine Learning (cs.LG) はじめに 2014年に画像生成のためのア

                                                            GANの発展の歴史を振り返る!GANの包括的なサーベイ論文の紹介(アルゴリズム編)
                                                          • Zero-shot Learning入門 - エクサウィザーズ Engineer Blog

                                                            こんにちは。エクサウィザーズで画像ギルドに所属し、機械学習エンジニアをしている小島です。今年の3月からこちらにジョインいたしました。 この記事では、弊チームで取り組んいるテーマ「Zero-shot Learning」について、歴史的な背景を振り返りつつ、簡単な実装を紹介します。今研究でホットな研究テーマの一つである「クロスモーダルモデル」を身近に感じていただければ幸いです。 Zero-shot Learningとは 「Zero-shot Learningとは何か」というのは、実は曖昧なテーマです。「これがZero-shotだ」という定義が論文によって異なるためです。わかりやすい理解の仕方としては、Many-Shot Learning、One/Few-shot Learningから天下り的に考えていくことでしょう。 画像系の機械学習の問題は、大きく分けて、タスクの軸とデータ数の軸の2軸で考え

                                                              Zero-shot Learning入門 - エクサウィザーズ Engineer Blog
                                                            • 日立製作所、放送・通信融合時代に向けた研究成果を紹介 | RBB TODAY

                                                              「将来のシステムではバックエンドからフロントエンドに対して高精細な100チャンネルを3000万世帯に配信するプロ—ドキャストが可能になり、またフロントエンドからバックエンドには100億アイテムのデータ収集が行えるブロードギャザーが可能になると考えている」 日立製作所中央研究所ネットワークシステム研究部の武田幸子氏は、東京・有楽町で開催された「日立 uVALUEコンベンション2007」で「放送・通信の融合に向けた研究」の講演を行い、冒頭のように話した。バックエンドからフロントエンド(家庭、企業、都市、産業など)へのブロードキャストにはギガビットクラスの広帯域化とともに高付加価値サービスの提供、バックエンドでは高機能化が求められる。同社では、これらの要件について、光アクセスシステム、映像サービス・サーバ、高速類似画像検索技術などの取り組みが行われている。今回の講演ではこれらの詳細が発表された。

                                                                日立製作所、放送・通信融合時代に向けた研究成果を紹介 | RBB TODAY
                                                              • Bio-Research Infrastructure Construction Team, RIKEN

                                                                生物情報基盤構築チーム, VCAD システム研究プログラム, 理化学研究所 MIRU 2010 サテライトワークショップ 「細胞内画像処理」 MIRU 2010 Workshop on Intracellular Image Processing (WIIP-MIRU2010) 開催日程:平成22年7月26日(月) (MIRU2010の前日) 開催場所:釧路市観光国際交流センター 参加登録:WIIP-MIRU2010については参加登録は不要です. MIRU 2010への参加登録はMIRU2010参加登録をご覧ください。 開催趣旨: 通常の生物学では生命体の最小単位は細胞であり、たんぱく質のみや細胞の小器官のみでは「生きている」とは見なされません。つまり細胞内観察画像は「生命とは何か?」に迫る重要な自然科学のデータであり、生きている細胞の中身を観察するライブセルイメージングは近年急速に発達し

                                                                • 画像処理的アプローチによるWeb情報処理:先端研ブログ - CNET Japan

                                                                  Icon, Others そしてこれらをベースに自動的に画像要素を分類しました。 分類エンジンは SVMLight + RBF Kernel を使用。 SVM (サポートベクターマシン) は機械学習の手法の一つです。 あらかじめ与えられた正解例・誤り例から、何が正誤の判断の決め手になる要素なのかを自動的に学習し、その学習結果を用いて新たな事例に対して正誤の判断を与えます。 学習に使う特徴量(正誤判断の決め手となる要素の候補)として、ピクセル数・色数・DCT等の画像に基づくものと、周辺文字列・リンク有無等のテキストに基づくものを使用しています。 画像に基づく特徴量の一つとして、その画像に文字が含まれるか否かが重要です。 文字があれば見出しとして使われている画像の確率が高くなるわけですし。 ただし、OCRを用いても文字を認識するのは難しいので、「文字認識」ではなく画像パターンを用

                                                                  • 自動ナンバープレート読取装置の開発

                                                                    情報通信 2 0 1 2 年 7 月・S E I テ クニ カ ルレビ ュー ・ 第 18 1 号 − ( ) − 99 自動ナンバープレート読取装置によって認識または判定さ れた情報等は、ネットワーク回線を通して中央装置に伝送さ れ、 旅行時間計測等の様々なアプリケーションに利用される。 3. 画像処理アルゴリズム 3 − 1 画像処理の流れ ナンバープレート情報認識 や車色判定の高精度化を実現するためには、それぞれの文 字を分離できるレベルの高解像度画像と共に、ナンバープ レート上の文字を正しく認識し、人間の感覚に近い色判定 を行う画像処理アルゴリズムが重要なキーとなる。 ナンバープレート情報認識と車色判定の画像処理の流れ を図 2 に示す。まず、撮影された画像から車両に取り付け 1. 緒 言 日本において、自動ナンバープレート読取システムは、 車両の旅行時間計測やその他詳細なナンバー

                                                                    • 【記事更新】私のブックマーク「視覚と自然言語の融合研究(Integrating Vision and Language)」 – 人工知能学会 (The Japanese Society for Artificial Intelligence)

                                                                      Home » リソース » 私のブックマーク » 【記事更新】私のブックマーク「視覚と自然言語の融合研究(Integrating Vision and Language)」 牛久祥孝(東京大学) はじめに 視覚(もう少し具体的にいえば画像や動画など)を対象とした研究と、自然言語を対象とした研究は、それぞれComputer VisionおよびNatural Language Processingの領域において、お互い少しずつ影響しあいながら発展を遂げてきた。特に近年、深層学習の一種であるConvolutional Neural Network (CNN)やRecurrecnt Neural Network (RNN)といった共通の機械学習手法が台頭し、それぞれの領域への参入障壁が低くなった。結果として、視覚と自然言語を融合する研究が様々な広がりを見せつつある。(深層学習によって、はじめてこれ

                                                                      • 村田製作所のセンサーデータ基盤「NAONA」はHR領域で手応え、今後は接客にも

                                                                        村田製作所は、「CEATEC 2019」(2019年10月15~18日、幕張メッセ)において、センシングデータプラットフォーム「NAONA」の最新の開発成果を披露した。 NAONAは、人が五感を使って認識している「認知情報」や「関係性情報」をセンシングし、データを提供するプラットフォームである。前回のCEATECでの展示では、このセンシングデータとして、360度マイクを組み込んだコミュニケーションセンサーで収集した音声データを用い、音声特徴量(音量、テンポ、トーンなど)に変換し活用していた。 今回は、先述の音声特徴量に加えて、人と人の会話の中で特定のキーワードが出てくる回数などの分析結果も利用。さらに音声データだけでなく、カメラで撮影した画像データから得た、人の表情や顔の角度などを分析した画像特徴量も取得している。これらの特徴量分析はエッジコンピューティングで処理しており、センサーデータを

                                                                          村田製作所のセンサーデータ基盤「NAONA」はHR領域で手応え、今後は接客にも
                                                                        • 顔検出器CenterFaceで高速推論 - OPTiM TECH BLOG

                                                                          まえがき R&Dチームの宮﨑です。CenterFaceをTensorRTで実装したところ、かなりの性能が出たので記事にしました。 日々様々なDNNを実装・計測しているオプティムですが、その中でアンカーフリーの顔検出としてピックされたCenterFaceが期待できる結果が出たのでご紹介させていただきます。この取り組みは実際には去年の年末に行われたものであり、かなり遅れたご紹介にはなってしまっていることをご了承ください😢 まえがき 背景・動機🤩 CenterFaceとは?🤔 公開された論文・コード 特徴 CenterFace実装の流れ💨 顔検出ベンチマーク比較🙈 最後に🤖 背景・動機🤩 オプティムが提供する製品の一つにAI Cameraがあります。このAI Cameraの機能として顔検出が必要になるので、オプティムでは性能の良い顔検出器がないか日々目を光らせています。Center

                                                                            顔検出器CenterFaceで高速推論 - OPTiM TECH BLOG