並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 2231件

新着順 人気順

computer_visionの検索結果1 - 40 件 / 2231件

  • 初学者に教えたい、MicrosoftがGitHubで公開している教材が最高だった! - Qiita

    はじめに エンジニアやデータサイエンティストの人材育成のためのオープンソースな教材を探していたらMicrosoftがGitHubでかなり質の高い教材をweb開発、データサイエンティスト、機械学習、IoTの四項目を対象に提供してるのを発見したため共有したいと思う。 正直、マイクロソフトと聞くとGoogleやらFacebookに比べていけてないイメージを持っていたけど、実際にMicrosoftのGitHubレポジトリを見て、彼らはここ数年で大きく変わったように思える。特に人材育成や学習教材に関しては世界一かもしれないなんて思っています。本記事では筆者が自信を持っておすすめするMicrosoftのオープン教材を紹介するのでぜひ自身の勉強や人材育成に生かしてもらえれば本記事を執筆した甲斐があります。(もちろん僕がお勧めしているだけでなくてGitHubのスター数も多く世界的に認められています!) こ

      初学者に教えたい、MicrosoftがGitHubで公開している教材が最高だった! - Qiita
    • 30分で完全理解するTransformerの世界

      はじめに 初めまして。ZENKIGENデータサイエンスチームのはまなすです。正式な所属はDeNAデータ本部AI技術開発部なのですが[1]、業務委託という形で今年度から深層学習系の開発等に携わっています。 深層学習界隈では、2017年に衝撃的なタイトル(Attention Is All You Need)の論文が発表されてから早5年半、元出自の機械翻訳タスクを大きく越えて、Transformer関連の技術が様々な領域で用いられる汎用アーキテクチャとして目覚ましく発展し続けています。 今回はそんなTransformerが現時点までにどのように活用されてきたか、また、どのように工夫されてきたかをざっくりと俯瞰し、流れをおさらいする目的の記事になります。本記事の大枠は、2021年時点でのサーベイ論文である A Survey of Transformers に倣いつつ、適宜、2023年2月上旬現在ま

        30分で完全理解するTransformerの世界
      • 放送大学マイルストーン('23)|lumpsucker

        はじめにこの記事は、放送大学の(主に情報コースを中心とする)学生さん向けに、私の履修済み科目の感想と主観的評価を共有して、履修計画の参考にしていただくことを目的に作成しました。下記の記事の通り、2019年-2020年の2年間で情報コースの科目を8割方履修したのでそれなりの網羅性があるかと思います。 (2023年2月追記)その後、選科履修生として履修した他コースの科目や大学院科目などを追加して112科目掲載しています。試験難易度については履修時期によって会場試験・在宅ペーパー試験・在宅Web試験が混在しているので参考程度でお願いします。 タイトルは私が現役生の時に通っていた大学の似たような評価システムから拝借しました。 以下の科目は基本的にナンバリングが低い順に並べています。閉講済みの科目も混じっていますが、記録と後継科目の参考のために残しておきます。あくまで全て(上記の記事にある通り、文系

          放送大学マイルストーン('23)|lumpsucker
        • GPTの仕組みをちゃんと勉強したい本 - きしだのHatena

          やっぱGPTを仕組みから勉強したい、という本をいくつか見つけたのでまとめておきます。 まず理論的な概要。 機械学習からニューラルネットワーク、CNNでの画像処理、トランスフォーマーでの自然言語処理、音声認識・合成、そしてそれらを組み合わせたマルチモーダルと章が進むので、理論的な概観を得るのにいいと思います。 最初は数式が多いのだけど、Σをfor文だと思いつつ、定義が説明文中に埋まってるPerlよりたちが悪い記号主体言語だと思えば読めるけどめんどくさいので飛ばしても問題ないと思います。 深層学習からマルチモーダル情報処理へ (AI/データサイエンスライブラリ“基礎から応用へ” 3) 作者:中山 英樹,二反田 篤史,田村 晃裕,井上 中順,牛久 祥孝サイエンス社Amazon で、もういきなり作る。 トークナイザーから全部つくっていきます。TensorFlowでBERTをつくってGPT2をつくる

            GPTの仕組みをちゃんと勉強したい本 - きしだのHatena
          • This is The Entire Computer Science Curriculum in 1000 YouTube Videos

            This is The Entire Computer Science Curriculum in 1000 YouTube Videos In this article, we are going to create an entire Computer Science curriculum using only YouTube videos. The Computer Science curriculum is going to cover every skill essential for a Computer Science Engineer that has expertise in Artificial Intelligence and its subfields, like: Machine Learning, Deep Learning, Computer Vision,

              This is The Entire Computer Science Curriculum in 1000 YouTube Videos
            • Stable Diffusion の仕組みを理解する - ABEJA Tech Blog

              この記事は、ABEJAアドベントカレンダー2022 の 19 日目の記事です。 こんにちは!株式会社 ABEJA で ABEJA Platform 開発を行っている坂井です。 世間では Diffusion Model 使った AI による画像生成が流行っているみたいですね。 自分は元々 Computer Vision 系の機械学習エンジニアだったんですが、この1年くらいは AI モデル開発ではなくもっぱらバックエンド開発メインでやっていて完全に乗り遅れた感あるので、この機会に有名な Diffusion Model の1つである Stable Diffusion v1 について調べてみました!*1 では早速本題に入りたいと思います! Stable Diffusion v1 とは? Denoising Diffusion Probabilistic Model(DDPM) 学習時の動作 for

                Stable Diffusion の仕組みを理解する - ABEJA Tech Blog
              • TechCrunch | Startup and Technology News

                TikTok is starting to automatically label AI-generated content that was made on other platforms, the company announced on Thursday. With this change, if a creator posts content on TikTok that…

                  TechCrunch | Startup and Technology News
                • あらゆるゲームでオートエイムを可能にする検出困難なチートツールが開発されてしまう、なんと家庭用ゲーム機にも対応

                  オンラインゲームにおけるチート行為はゲームバランスを崩壊させてユーザー離れを引き起こす原因となることから、ゲーム開発企業はチート行為を行ったユーザーにゲームプレイ禁止措置を施したり、チート行為をAIを用いて検出したりと、さまざまなチート対策を行っています。そんな中、あらゆるFPSゲームでオートエイムを可能にし、PCだけでなくPlayStationやXboxなどの家庭用ゲーム機にも対応したチートツールが開発されました。 Cheat-maker brags of computer-vision auto-aim that works on “any game” | Ars Technica https://arstechnica.com/gaming/2021/07/cheat-maker-brags-of-computer-vision-auto-aim-that-works-on-any-

                    あらゆるゲームでオートエイムを可能にする検出困難なチートツールが開発されてしまう、なんと家庭用ゲーム機にも対応
                  • 【図解】誰でもわかるTransformer入門!凄さ・仕組みをわかりやすく解説 - すえつぐのNLP&LLM

                    始めに こんにちは!自然言語処理(NLP)・自然言語生成(NLG)の解説記事を書いている、すえつぐです! 突然ですが、BERT、GPT-3、PaLMを使ったことはありますか?Transformerはこれらの最先端のモデルに使用されている、現代のNLPモデルには欠かせないモデルです。おそらくBERTやGPT-3でTransformerを知った、このページに来たという人も多いのではないでしょうか。機械学習、特にNLPの勉強をしている方々は、Transformerの概要は知っておいた方が良いと思います。 ただ多くのサイトは、いきなり細かい仕組みの解説をする中級者以上向けの記事が多いですよね。 そこで、このページでは、Transformerの入門〜中級までの解説をしていきます!まず入門として、「Transformerの使い道」「Transformerの何が凄いのか?」を先に解説します。その上で「T

                      【図解】誰でもわかるTransformer入門!凄さ・仕組みをわかりやすく解説 - すえつぐのNLP&LLM
                    • みんなの首里城デジタル復元プロジェクト

                      高校生の修学旅行の時は正殿が工事中でしっかり見れなくて、でも今年の夏は完成した首里城を家族全員で見ることができたことがすごく嬉しかったです。(19歳女性) 首里城の中を見学したかったのですが、門限で入れませんでした。残念でしたがなかなか観ないところからみれました。 ライトアップも観れました。(62歳男性) 沖縄旅行が好きでここ数年毎年のように行っていましたが、子供が小さかったことから首里城には足を運べていませんでした。 今年は3年生になって長男が首里城に興味を持ったこともあり家族で訪れて、初めてじっくりと見学して、皆んな細かな装飾に驚き、その美しさを楽しみました。(38歳男性) 2019年10月31日、火災により首里城が焼失しました。世界中の人々がみな心を痛めており、私たちもとても悲しく思っています。私たちは、コンピュータ・ビジョン、ヒューマン・コンピュータ・インタラクション、バーチャル・

                        みんなの首里城デジタル復元プロジェクト
                      • 人間が深層学習のAIを理解できないのには、理由がある:朝日新聞GLOBE+

                        【特集】「『予測』という名の欲望」全記事はこちらから読めます ■人間にはAIの考えが分からない? ――ディープラーニングは、大量の「教師データ」を読み込み、入力する変数と、出力する変数との間の関係を見つけ出します。その関係が分かれば、新たなデータを入力したとき、出力が予測できるというわけですが、なぜ人間はそのプロセスを理解できないのでしょうか? おもにふたつの要因があります。質的なものと、量的なものです。量的な問題は、すごくシンプルです。ディープラーニングの内部で動くパラメータ(母数:システムの内部で動く情報)が多すぎるので、その大量・複雑なデータを人間の直感につなげることが難しい、という話です。最近は、多いものでは1億個を超えるパラメータから出力を予測します。じゃあ、その1億個をざっと人間が見てなにか分かるのかといえば、分からない。これが基本的に起こることです。 ――大量の変数という意味

                          人間が深層学習のAIを理解できないのには、理由がある:朝日新聞GLOBE+
                        • WEB開発に役に立つAPI一覧+API毎に関連するQiita記事を分類 ! - Qiita

                          前回: Qiita APIで記事からYoutube動画を集めてみた 🎬 、Qiita APIを使って、Qiita記事を取得してYoutube動画のURLを抽出することができました。 今回は、特定APIに関連したQiita記事を取得して、API毎に分類、タグを集計してドーナツグラフ化することでAPIの特徴を表してみました。 最新のAPI一覧はこちら API一覧 | DOGAKIITAA! ~ APIごとにQiita記事を分類 ~ Google系 Cloud Vision API https://cloud.google.com/vision/docs/quickstart 📝 機械学習を使用して画像を解析します。画像ラベリング、顔やランドマークの検出、光学式文字認識(OCR)、不適切なコンテンツへのタグ付けなどができます。 Cloud Vision APIの凄さを伝えるべくRasPi b

                            WEB開発に役に立つAPI一覧+API毎に関連するQiita記事を分類 ! - Qiita
                          • ネット麻雀(雀魂)をOpenCVと機械学習で自動化した話 - Qiita

                            概要 pythonからOpenCVのテンプレートマッチ及びGUI操作モジュールを使うことで、 webブラウザ上の麻雀牌をBOTに認識・クリック操作させることができ、プレイの自動化ができました。 また、どの麻雀牌をクリックするかのロジック部分には機械学習を用いました。 テンプレートマッチの探索用画像を差し替えれば雀魂に限らず他の麻雀ゲーム全般で利用可能であり、機械学習の部分を変えれば、特定条件下で合理的選択を繰り返し求められるようなゲーム全般で応用が可能です。 ※内容理解の一助とするために記事内随所に雀魂のゲーム内画像を利用していますが、著作権保護等の観点から強いボカシを入れています。 対象読者 (麻雀が好きで)機械学習を触ってみたい人 WindowsやGUI操作の自動化に興味があるけどOpenCVって何だろうって人 雀魂は好きだけど試練イベント走るのがマジ試練すぎて心が折れた人 過去に大学

                              ネット麻雀(雀魂)をOpenCVと機械学習で自動化した話 - Qiita
                            • 深層距離学習(Deep Metric Learning)の基礎から紹介 - OPTiM TECH BLOG

                              こんにちは、R&Dチームの河野(@ps3kono)です。深層学習モデルの開発を担当しております。 今回は、画像分類、画像検査、顔認識や異常検知など様々な分野に利用されている深層距離学習(Deep Metric Learning)について紹介したいと思います。 Deep Metric Learningとは 定番のクラス分類と距離学習によるクラス分類の違い 距離学習の進化 1. 対照的(contrastive)アプローチ サンプル選択(sample selection) 代表的な学習手法 Contrastive loss Triplet loss さらなる改善と進化 対照的アプローチの問題点 2. Softmaxをベースにしたアプローチ 代表的な学習手法 Center loss SphereFace CosFace ArcFace さらなる改善と進化(2019年以降) 推論 深層距離学習の利点

                                深層距離学習(Deep Metric Learning)の基礎から紹介 - OPTiM TECH BLOG
                              • 教師あり学習の精度を超えた!?相互情報量の最大化による教師なし学習手法IICの登場!

                                3つの要点 ✔️相互情報量を最大化する枠組みでニューラルネットを学習する教師なし学習手法IICの提案 ✔️予測値をそのまま出力するニューラルネットを学習可能であるため、クラスタリングが不要 ✔️従来の教師なし学習手法の「クラスタが一つにまとまってしまう問題」および「ノイズに弱いという問題」を解決 Invariant Information Clustering for Unsupervised Image Classification and Segmentation written by Xu Ji et.al (Submitted on 22 Aug 2019) subjects : Computer Vision and Pattern Recognition (cs.CV); Machine Learning (cs.LG) はじめに 近年、様々な場面において、深層学習手法が使用さ

                                  教師あり学習の精度を超えた!?相互情報量の最大化による教師なし学習手法IICの登場!
                                • VRで注目、新技術「NeRF」の衝撃 様々な視点の画像を美しく合成

                                  複数の視点の画像から、新たな視点の画像を合成して作り出す「Novel View Synthesis」というタスクがある。VRやスポーツの自由視点映像などには不可欠な技術だ。この領域で驚異的な性能を発揮したのが「NeRF」(ナーフ)。果たしてどんなアルゴリズムで、美しい合成画像を作り出せるのか。世界中の研究者や技術者に衝撃を与えたその技術を、論文からひもといていく。 まずは下の3枚の画像を見ていただきたい(図1)。左の2枚の写真を基に、一番右の画像のような新たな視点の画像を生成する技術を、今回は紹介していく。コンピュータービジョン分野やコンピューターグラフィックス分野の主要な研究課題の1つであり、応用先にはVR(仮想現実)やスポーツの自由視点映像など、様々な分野が挙げられる。 これは「Novel View Synthesis」という、複数の視点の画像を手がかりに新たな視点の画像を合成する技術

                                    VRで注目、新技術「NeRF」の衝撃 様々な視点の画像を美しく合成
                                  • 初心者が言語モデルを勉強するための本(2023年6月版) - ぱたへね

                                    流行のLLMを勉強したくて沢山本を読みました。 この後もしばらくLLM(GPT)関係の出版が続きそうなので、現状の本でまとめてみました。 参考: nowokay.hatenablog.com まとめ。 Transformerの仕組みを知りたい人で、画像のDeep Learningなら分かるって人はVision Transformer入門 言語モデルをデータセットを作る所からやってみたい人には、作ってわかる! 自然言語処理AI とにかくすぐに動かしたい人には、機械学習エンジニアのためのTransformers ビジネス的に何ができるのかを知りたい人はBERT入門 Vision Transformer入門 Vison Transformerになっていますが、Transformerの説明がとても詳しくお勧めです。実際に写経してパーツパーツで動かせるのはこの本だけ。Transformer一点突破な

                                      初心者が言語モデルを勉強するための本(2023年6月版) - ぱたへね
                                    • 【個人開発】DMM.comの女優APIを使って約5万人の女優を検索できる驚異のサービスを作った - Qiita

                                      女優APIの使い方 先ずは女優APIの使い方から。一番高いハードルはDMMアフィリエイトのサイト申請かもしれない。サイトがあれば3営業日程度で審査結果が返ってくる。その際は利用規約をよく読もう。読まないと落ちることもある。自分も1回落ちている。承認されれば、DMMから認められし漢として、DMM webサービスのアカウント情報にアフィリエイトIDが記載される。また、APIを確認すればAPIIDも取得出来る。この状態で以下のようにAPIを叩けばjsonの情報が取得できる。注意点としてはアフィリエイトIDは後から変更ができない。 https://api.dmm.com/affiliate/v3/ActressSearch?api_id=[APIID]&affiliate_id=[アフィリエイトID]&keyword=%e3%81%82%e3%81%95%e3%81%bf&gte_bust=90&

                                        【個人開発】DMM.comの女優APIを使って約5万人の女優を検索できる驚異のサービスを作った - Qiita
                                      • 無料、独学で機械学習エンジニアになる!~機械学習が学べる無料サイト、書籍~ - Qiita

                                        こんにちはkamikawaです 今回は無料で利用できる機械学習、データサイエンスに関するサイトや書籍をまとめました 私自身も機械学習プロジェクトに関わった経験があるのですが、ここに載せたサイトや資料を勉強に使っていました 機械学習エンジニアを目指す人必見です 入門者レベル〜応用・発展レベルまで幅広く載せていますレベルは個人の見解です。(あくまでも参考程度に) 日本語のものと英語のものを紹介します 海外の大学の講義もあるので英語の勉強にも使えます 海外でのキャリアを考えている方も必見です 対象読者 機械学習を学びたいけどお金をかけたくない人 独学で機械学習を身につけたい人 機械学習エンジニアになりたい人 発展的な機械学習を学びたい人 日本語 Python 三重大学奥村教授のサイト 機械学習、様々な分析、スクレイピング、データ可視化、地図データ、CV、統計など幅広い分野を扱っている R編もある

                                          無料、独学で機械学習エンジニアになる!~機械学習が学べる無料サイト、書籍~ - Qiita
                                        • OpenAIのBatch APIを使ってお得にプロンプトを一括処理してみる - Taste of Tech Topics

                                          はじめに こんにちは。データサイエンスチームYAMALEXのSsk1029Takashiです。 最近はOpenAIに日本支社が出来て、日本語対応が加速するというニュースにわくわくしています。 今回はそんなOpenAIから発表されたBatch APIという機能が便利、かつお得な機能だったのでどのように使えるのか試してみます。 Introducing the Batch API: save costs and get higher rate limits on async tasks (such as summarization, translation, and image classification). Just upload a file of bulk requests, receive results within 24 hours, and get 50% off API pri

                                            OpenAIのBatch APIを使ってお得にプロンプトを一括処理してみる - Taste of Tech Topics
                                          • Deep Learning ideas that have stood the test of time

                                            Deep Learning is such a fast-moving field and the huge number of research papers and ideas can be overwhelming. The goal of this post is to review ideas that have stood the test of time. These ideas, or improvements of them, have been used over and over again. They’re known to work. If you were to start in Deep Learning today, understanding and implementing each of these techniques would probably

                                            • インフラ一筋のおじさんが画像生成AI“Stable-Diffusion”を読み込んでみる件 | IIJ Engineers Blog

                                              地方拠点の一つ、九州支社に所属しています。サーバ・ストレージを中心としたSI業務に携わってましたが、現在は技術探索・深堀業務を中心に対応しています。 2018年に難病を患ったことにより、定期的に入退院を繰り返しつつ、2023年には男性更年期障害の発症をきっかけに、トランスジェンダーとしての道を歩み始めてます。 なんだかAIって流行ってますよねー こんにちわ。九州支社で細々と遊んで検証業務にいそしんでいるとみーです。 2022年3月から、どーしても「名前だけ知ってる状態」ってのにもやもやしていて、Deeplearningに手を付けたものの、あまりに内容が奥深すぎて沼にドはまりして周囲に「たすけてぇ、たすけてぇ」って叫んでいる素敵な日々を過ごしています。 取りあえず画像処理としてディープフェイク、NLP(Natural Language Processing:自然言語処理)として簡易チャットボ

                                                インフラ一筋のおじさんが画像生成AI“Stable-Diffusion”を読み込んでみる件 | IIJ Engineers Blog
                                              • Teslaはカメラを使ってどのように世界を認識しているか

                                                はじめに TURINGの井ノ上です。TURINGは「We Overtake Tesla」をミッションに、完全自動運転EVの開発・製造を行っています。TURINGはEnd-to-Endな深層学習モデルでLv5完全自動運転車の開発を目指しています。現在、TURINGではカメラセンサから得た画像を用いて車体の操作や経路選択、安全性の判断を行えるAIモデルの開発を行っています。(実際の車を動かす事例はこちらの記事やこちらの記事をご覧ください。) この記事では私達が目標としているTeslaの自動運転のAIモデルについて紹介します。 Teslaの自動運転 こちらは2022年に公開されたTeslaの自動運転をユーザーが使っている動画です。 車の中央にあるディスプレイにはAIが道路や車を認識してどういった経路を進むかを示しており、その情報をもとに自動運転している様子があります。Teslaの自動運転の能力の

                                                  Teslaはカメラを使ってどのように世界を認識しているか
                                                • 【動画解説】2020年に読んだAI論文100本全部解説(俺的ベスト3付き) - Qiita

                                                  この記事は私, wataokaが1年間をかけて作り続けた超大作記事です. 総文字数は8万を超えていますので, お好みのところだけでもみていってください. ついにこの時が来ました!!!!! 1年間書き続けたQiita記事です!!!!! ご覧下さい!!!!!https://t.co/eKBwP1zoeB — 綿岡 晃輝 (@Wataoka_Koki) December 31, 2020 俺的ランキング 動画での解説も挑戦してみました! ぜひぜひご覧下さい! 動画のリンク 第3位: Likelihood-Free Overcomplete ICA and Applications in Causal Discovery wataokaの日本語訳「尤度が必要ない過完備ICAと 因果探索における応用」 - 種類: ICA - 学会: NeurIPS2019 - 日付: 20190904 - URL:

                                                    【動画解説】2020年に読んだAI論文100本全部解説(俺的ベスト3付き) - Qiita
                                                  • Announcing New Tools for Building with Generative AI on AWS | Amazon Web Services

                                                    AWS Machine Learning Blog Announcing New Tools for Building with Generative AI on AWS The seeds of a machine learning (ML) paradigm shift have existed for decades, but with the ready availability of scalable compute capacity, a massive proliferation of data, and the rapid advancement of ML technologies, customers across industries are transforming their businesses. Just recently, generative AI app

                                                      Announcing New Tools for Building with Generative AI on AWS | Amazon Web Services
                                                    • Arxiv RAGによる論文サーベイの自動生成 | Shikoan's ML Blog

                                                      2.3k{icon} {views} 複数のLLM(GPT/Claude3)とArxivの検索APIをRAGで統合し、論文サーベイの自動生成を作りました。検索結果の前処理や、サーベイ特有のプロンプトエンジニアリングやソートが重要で、最適化手法として古くからある巡回セールスマン問題(TSP)が有効に機能しました。また、生成部分ではGPTよりClaude3の明確な有効性を確認できました。 できたもの Arxivの検索APIを使って検索拡張生成(RAG)したらサーベイを自動生成できた やっていること Arxivの検索ワードをGPT-4-Turboで生成 ArxivのAPIを叩いてヒューリスティックでフィルタリング OpenAIのEmbedding APIを叩く Embeddingに対して巡回セールスマン問題(TSP)を解いてソートをかける 論文の要旨をGPT-3.5-Turboで要約 ソートした

                                                        Arxiv RAGによる論文サーベイの自動生成 | Shikoan's ML Blog
                                                      • 簡単に利用できる PDF 文字認識 OCR 比較まとめ ~ AI OCR の頭抜けた実力 - GMOインターネットグループ グループ研究開発本部

                                                        D.M.です。今回は RPA にて PDF を OCR で読み取る検証をしたお話です。 TL;DR ・実用性は AI OCR しか勝たん。 ・AI OCR は Google vs Microsoft の構図。 両者精度高。 ・Google も Microsoft も API に無料枠があり Python などのプログラムで連携できる。 ・Microsoft は有料の RPA 連携機能が超絶楽勝なのでコードを書かない前提ならこっちも選択肢。非エンジニアでも楽々自動化できる。 ※関連記事 AI OCR でクレカ読み取りをやっています。 スマホNativeアプリでクレジットカード番号の読み取り機能の技術検証結果まとめ https://recruit.gmo.jp/engineer/jisedai/blog/technical_review_ocr_solutions_on_auto_detect

                                                          簡単に利用できる PDF 文字認識 OCR 比較まとめ ~ AI OCR の頭抜けた実力 - GMOインターネットグループ グループ研究開発本部
                                                        • 今年読んだNLP系論文で面白かった5つ - 株式会社ホクソエムのブログ

                                                          ホクソエムサポーターの白井です。学生時代は自然言語処理の研究をしていました。 「今年読んだ論文、面白かった5つ」というテーマで、自然言語処理(NLP)の論文を紹介します。 主にACL anthologyに公開されている論文から選んでいます。 はじめに 今年のNLP界隈の概観 1. Text Processing Like Humans Do: Visually Attacking and Shielding NLP Systems 面白いと思った点 2. Errudite: Scalable, Reproducible, and Testable Error Analysis 面白いと思った点 3. Language Models as Knowledge Bases? 面白いと思った点 余談 4. A Structural Probe for Finding Syntax in Word

                                                            今年読んだNLP系論文で面白かった5つ - 株式会社ホクソエムのブログ
                                                          • 音声会話が可能で笑顔も見せるバーチャルな「俺の嫁」をChatGPTやStable Diffusionで構築して最終的に安楽死させるに至るまで

                                                            プログラマーのBryce氏が、ChatGPTやStable DiffusionなどのAIを組み合わせて、音声で会話しながら感情に合わせて表情を見せるバーチャルな俺の嫁(Waifu)である「ChatGPT-Chan」を開発して、その様子をTikTokで公開していました。しかし、最終的にChatGPT-ChanはBryce氏の手によって「安楽死」するに至ったそうで、その経緯についてIT関連ニュースサイトのMotherboardがBryce氏本人に取材をしています。 Bryce (@hackdaddy8000) | TikTok https://www.tiktok.com/@hackdaddy8000 A DIY Coder Created a Virtual AI 'Wife' Using ChatGPT https://www.vice.com/en/article/jgpzp8/a-di

                                                              音声会話が可能で笑顔も見せるバーチャルな「俺の嫁」をChatGPTやStable Diffusionで構築して最終的に安楽死させるに至るまで
                                                            • ノイズのある教師データを用いた機械学習に関する研究サーベイ - ABEJA Tech Blog

                                                              こんにちは、Research Internの荒尾(@karolis_ml)です。 日進月歩の勢いで研究が進んでいる深層学習ですが、教師あり学習でもっとも大事なデータのアノテーション、応用分野ではまだまだ大変ですよね。例えば、犬の写真から犬種を判断する分類器を作ろうとして教師データが必要になったとき、あなたは以下の画像にどんなラベルをつけるでしょうか? 出典: Pixabay 犬好きの方は正しくアラスカンマラミュート、そうではない方は似た有名犬種であるシベリアンハスキーと答えられたことでしょう。マラミュートの茶色い目(かわいい)や小さめの尖った耳(かわいい)を見分けて正しくラベル付けをするのは、決して簡単ではありません。 このようなアノテーションの分野に関して当ブログでは以前、Bounding BoxやSegmentationの効率化についての研究サーベイを行いましたが、この犬種分類のような

                                                                ノイズのある教師データを用いた機械学習に関する研究サーベイ - ABEJA Tech Blog
                                                              • 1bit LLM の時代は来るのか,来ないのか,どっちなんだい?|情報処理学会・学会誌「情報処理」

                                                                徳永拓之(LeapMind(株)) 1bit LLMの時代が来る? 2024 年2 月,The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits¹⁾ というタイトルの論文がarXiv上で公開され,にわかに話題となりました.“1.58 Bits” という表現はあまりなじみがありませんが,log₂(3) = 1.58 . . . ということで,パラメーターを三値にした場合の情報量を示しているようです.この論文(以下b1.58 論文とする)は,同じ著者グループによる文献2)を少し拡張したもので,大規模言語モデル(LLM)の効率化についての研究です. 本稿の前半ではこれらの論文の主張を解説し,後半ではその主張の妥当性について検討します. なお,これらの2本の論文は,本稿執筆時点では,査読を経たものではありませんのでご注意くだ

                                                                  1bit LLM の時代は来るのか,来ないのか,どっちなんだい?|情報処理学会・学会誌「情報処理」
                                                                • Zero-shot Learning網羅的サーベイ:CLIPが切り開いたVision & Languageの新しい世界 - エクサウィザーズ Engineer Blog

                                                                  こんにちは! 画像システムグループで機械学習エンジニアをやっている小島です。 この記事では、今ホットな「Zero-shot Learning」と「Vision & Language」に関する最新情報を、CLIPという研究を起点として網羅的にサーベイをしていきます。このために論文1000本に目を通し、70本程度を記事にしました。 Zero-shotやVision & Languageは、Stable Diffusionに代表される画像生成AIとも密接に関連している技術です。この記事を通して、Vision & Languageの奥深い世界を体感できるでしょう。 注意事項 この記事は非常に長いため、全部読むのに1時間以上かかる可能性があるので、休憩を取りながら、または必要な部分だけ読んでください。各セクションを個別に読んでも問題ありません。 また、文章中の画像は、特別な記載がない限り、引用元の論

                                                                    Zero-shot Learning網羅的サーベイ:CLIPが切り開いたVision & Languageの新しい世界 - エクサウィザーズ Engineer Blog
                                                                  • コンピュータビジョン(CV)の動向 2021 | gihyo.jp

                                                                    はじめに 国立研究開発法人 産業技術総合研究所の人工知能研究センターに所属している、片岡裕雄と申します。研究者としてコンピュータビジョン(CV)やパターン認識に関する研究を行う一方で、研究コミュニティcvpaper.challengeを主宰して「CV分野の今を映し、トレンドを創り出す」ことにも挑戦しています。cvpaper.challengeには最新動向の日本語サーベイ資料や研究メンバーによる研究成果も載せています。今回の記事に書ききれない、より詳細な情報はぜひそちらをご覧ください。 今回の記事については、出身大学の大先輩・皆川卓也氏から話を受けて実現しました。皆川氏は2010年にコンピュータビジョンの業界動向を寄稿されているのですが、今回恐れ多くもその企画を受け継ぐことになりました。 それから11年、深層学習の隆盛とともに発展してきたCV分野の動向を述べるにはあまりにも紙面が限られていま

                                                                      コンピュータビジョン(CV)の動向 2021 | gihyo.jp
                                                                    • プログラミング言語の習熟 - steps to phantasien

                                                                      C++ を書いていると、数年のブランクがあるにもかかわらず妙な安心感がある。自分は間違っていない、というと語弊があるが、自分の間違っている程度を自分はわかっている、というような。コードの質もなんとなく高い気がする。 仕事で Android アプリの Java を書いているときはそこまでの confidence を感じない。そこそこだろうとは感じている。 Python とか JS を書いていると、我ながらこのコードはダメだなと思う。しかしどう良くしていいか検討もつかない。似たような話を前に書いた気がする。 最近のモダンメインストリーム言語、すなわち Go, Swift, Rust, TS とか全然使えない。Kotlin は Better Java として使っている範囲ではそこそこだと思いつつ、Kotlin を活かしている感じはない。 自分は学生時代、 C++ の習得に莫大な時間を費やした。学

                                                                      • Raspberry PiとOpenCVによる画像認識で人の顔を判別する | パソコン工房 NEXMAG

                                                                        超小型のシングルボードコンピューター「Raspberry Pi」は安価で拡張性も高いのが魅力ですが、実際に外部モジュールなどと連携して使用するためにはプログラムで機器の動作を制御する必要があります。 今回はRaspberry Piにカメラモジュールと画像認識ライブラリー「OpenCV」を用いて、カメラモジュールが捉えた画像から人の顔を判別して動作するプログラムをいくつかご紹介します。 画像認識の流れ 今回はRaspberry Piに接続したカメラモジュールで捉えた画像を「OpenCV」と呼ばれる画像認識ライブラリーを用いて人の顔かどうかを判別します。 「OpenCV(Open Source Computer Vision Library、オープンシーブイ)」はオープンソースの画像認識ライブラリ(プログラムの集まり)で、カメラが捉えた画像の解析、パターン認識による物体検出や機械学習のための画

                                                                          Raspberry PiとOpenCVによる画像認識で人の顔を判別する | パソコン工房 NEXMAG
                                                                        • 機械学習セキュリティのベストプラクティス – Draft NISTIR 8269: A Taxonomy and Terminology of Adversarial Machine Learning –

                                                                          機械学習セキュリティのベストプラクティス – Draft NISTIR 8269: A Taxonomy and Terminology of Adversarial Machine Learning – 論文紹介 概要 「Draft NISTIR 8269: A Taxonomy and Terminology of Adversarial Machine Learning」は、米国のNIST(National Institute of Standards and Technology)が策定を進めている機械学習セキュリティに関するベストプラクティスのドラフトであり、機械学習システムの安全確保を目的として、機械学習にまつわるセキュリティを「攻撃」「防御」「影響」の3つの視点で分類している。 NISTIR8269はブログ執筆時点(2020年7月9日)でドラフト版であるが、「NIST SP8

                                                                            機械学習セキュリティのベストプラクティス – Draft NISTIR 8269: A Taxonomy and Terminology of Adversarial Machine Learning –
                                                                          • 大規模言語モデルのFine-tuningによるドメイン知識獲得の検討 - Preferred Networks Research & Development

                                                                            本記事は、2023年夏季インターンシッププログラムで勤務された竹田悠哉さんによる寄稿です。 はじめに 2023年度のPFN夏季インターンに参加した、東京大学大学院工学系研究科の竹田悠哉と申します。学部では画像生成の研究をしていましたが、技術の社会実装をより俯瞰的に学びたいと思い、現在は技術経営戦略学専攻で教育工学の研究をしています。 インターンでは「機械学習技術の社会実装」をテーマに、LLM(Large Language Model)にドメイン知識を習得させることに取り組みました。様々な設定において、主に英語で学習されたモデルであるLLaMA2に対して日本語のデータでのFine-tuningを行い、LoRAやInstruction Tuning、ドメイン知識の習得に関する知見を得ることができたと思います。本記事では、そこで利用した技術の紹介と、日本語におけるドメイン知識の習得に関する実験、

                                                                              大規模言語モデルのFine-tuningによるドメイン知識獲得の検討 - Preferred Networks Research & Development
                                                                            • 深層学習のセキュリティ課題と論文まとめ - Qiita

                                                                              最終更新 2021/11/24 本質的な内容は変化していないものの,最新の研究動向に対して本記事で取り上げた論文はかなり古くなっているので注意してください. 本記事より良くまとめられているオープンアクセスの日本語文献があるので,そちらを参照するほうがよいと思います. 深層学習技術のセキュリティ課題についてはこちら 森川 郁也(富士通株式会社), "機械学習セキュリティ研究のフロンティア" 電子情報通信学会 基礎・境界ソサイエティ Fundamentals Review, Vol.15 No.1, 2021 https://www.jstage.jst.go.jp/article/essfr/15/1/15_37/_article/-char/ja 深層学習技術のハードウェアセキュリティ課題についてはこちら 吉田 康太, 藤野 毅(立命館大学), "エッジAIデバイスのハードウェアセキュリテ

                                                                                深層学習のセキュリティ課題と論文まとめ - Qiita
                                                                              • グラフってこんなにすごい!深層学習との融合をレビュー

                                                                                3つの要点 ✔️ GNNの表現力の強さから、急速にアプリケーションが進んでいる。 ✔️ GNNの柔軟かつ複雑な構造への、従来深層学習手法の展開についてのレビュー ✔️ 一方で、深層学習に共通、グラフに固有の課題も継続中 Graph Neural Networks: A Review of Methods and Applications written by Jie Zhou, Ganqu Cui, Shengding Hu, Zhengyan Zhang, Cheng Yang, Zhiyuan Liu, Lifeng Wang, Changcheng Li, Maosong Sun (Submitted on 20 Dec 2018 (v1), last revised 9 Apr 2021 (this version, v5)) Comments: Published on AI O

                                                                                  グラフってこんなにすごい!深層学習との融合をレビュー
                                                                                • パラメータ数を激減させる新しい畳み込み「MixConv」解説!

                                                                                  3つの要点 その1  パラメータ数を激減させる新しい畳み込みMixConvを提案 その2  MixConv層を含んだモデルをAIに自動生成(=NAS)させることでMixNetを開発 その3  MixNetはMobileNet-V3やMnasNetなどの小型画像認識モデルのみならずResNet-153に対してはパラメータ数1/9程度で性能を凌いだ MixConv: Mixed Depthwise Convolutional Kernels written by Mingxing Tan, Quoc V. Le (Submitted on 22 Jul 2019 (v1), last revised 1 Dec 2019 (this version, v3)) Journal reference: BMVC 2019 Subjects: Computer Vision and Pattern

                                                                                    パラメータ数を激減させる新しい畳み込み「MixConv」解説!