タグ

satojkovicのブックマーク (28,166)

  • StableRep: Synthetic Images from Text-to-Image Models Make Strong Visual Representation Learners

    タイトル:StableRep: Synthetic Images from Text-to-Image Models Make Strong Visual Representation Learners 著者:Yonglong Tian, Lijie Fan, Phillip Isola, Huiwen Chang, Dilip Krishnan 論文URL:https://arxiv.org/abs/2306.00984 ざっくりいうと Stable Diffusionの生成画像を使って、自己教師あり学習(SSL)をする研究 Guidance Scaleをコントロールし、1対多の生成画像でSSLするためのStableRepというフレームワークを構築 実画像で訓練するより実画像のほうが、下流タスクの転移効率は高いが、ゼロショットでは課題 はじめに 画像データの集め方=理想は世界中にカメラを

    StableRep: Synthetic Images from Text-to-Image Models Make Strong Visual Representation Learners
  • SSII2024 [OS2] 画像、その先へ 〜モーション解析への誘い〜

    �� ಈ࡞ͷදݱํ๏ ֶश༻ʹ౷Ұදݱʹม׵͢Δඞཁੑ • ,*5εέϧτϯ�<1MBQQFSU ����> • 4.1-εέϧτϯ�<-PQFS ����> • ࠊɺؔઅͷؔઅճసɾ଎౓౳ΛؚΉߴ࣍ݩදݱʹม׵͢Δ͜ͱ΋ • σʔλ���ϑϨʔϜ਺�Y� ؔઅ਺�Y�දݱ࣍ݩ 0 1 2 3 5 4 6 9 8 7 11 10 14 13 12 15 17 16 18 19 20 21 0 11 2 5 8 Frame i Frame i+1 Frame i+(N-1) … … SMPL Skeleton Motion Sequence of Right Leg Extract Interpolate 0 1 2 3 4 8 9 10 5 6 7 16 17 18 19 20 11 12 13 14 15 Frame i Frame i+1 Frame i+(N-1) … … … N F

    SSII2024 [OS2] 画像、その先へ 〜モーション解析への誘い〜
  • 矢谷流研究アイデアチェックリスト / Research Reality Check | IIS Lab / 東大矢谷研究室

    このページでは,IIS Labで研究プロジェクトを始める段階で利用しているチェックリストを公開しています.このReality Checkは矢谷が学生さんと一緒に仕事する中で,まとめたものになります.特に,「Think radically. Execute logically.」というコンセプトを言語化するために作ったチェックリストです.チェックリストの項目がHCIの研究に偏っている部分もありますが,他の研究分野でも役に立つことがあるかもしれない,と思い,公開するに至りました.皆さんなりにぜひ色々と改良していただければと存じます.またその際にはぜひ矢谷に改良版を教えてください! This page presents a check list which we use when we start a new project. This Reality Check was produced th

  • 一人称視点映像解析の基礎と応用(CVIMチュートリアル)

    CVIM2024年5月研究会 チュートリアル講演

    一人称視点映像解析の基礎と応用(CVIMチュートリアル)
  • ビジョン技術の実利用ワークショップ「ViEW2023」参加報告 - NTT Communications Engineers' Blog

    この記事は、NTTコミュニケーションズ Advent Calendar 2023 25日目の記事です。 はじめに こんにちは、イノベーションセンター テクノロジー部門 メディアAI PJ所属の和田、小林です。 普段は画像/映像/言語/音声 等メディアを入力としたAI技術(メディアAI技術)を用いて、事業部/関連部支援や最新技術の調査/研究開発を行なっています。 今回は技術調査の一環として参加した「ViEW2023」について、ワークショップの概要や発表された論文について紹介したいと思います。 ViEW20232023年12月7日~8日にパシフィコ横浜で開催されました。詳細は下記サイトをご覧ください。 ViEW2023 公式Webサイト https://view.tc-iaip.org/view/2023/index.html . 目次 はじめに 目次 ViEWについて 流行りのテーマ 小田

    ビジョン技術の実利用ワークショップ「ViEW2023」参加報告 - NTT Communications Engineers' Blog
  • ビジョン技術の実利用ワークショップ「ViEW2023」参加報告 - NTT Communications Engineers' Blog

    この記事は、NTTコミュニケーションズ Advent Calendar 2023 25日目の記事です。 はじめに こんにちは、イノベーションセンター テクノロジー部門 メディアAI PJ所属の和田、小林です。 普段は画像/映像/言語/音声 等メディアを入力としたAI技術(メディアAI技術)を用いて、事業部/関連部支援や最新技術の調査/研究開発を行なっています。 今回は技術調査の一環として参加した「ViEW2023」について、ワークショップの概要や発表された論文について紹介したいと思います。 ViEW20232023年12月7日~8日にパシフィコ横浜で開催されました。詳細は下記サイトをご覧ください。 ViEW2023 公式Webサイト https://view.tc-iaip.org/view/2023/index.html . 目次 はじめに 目次 ViEWについて 流行りのテーマ 小田

    ビジョン技術の実利用ワークショップ「ViEW2023」参加報告 - NTT Communications Engineers' Blog
    satojkovic
    satojkovic 2024/06/14
    “Language Models are Few-Shot Learners”
  • BERT以降の事前学習済みモデルのトレンドと主要モデルを紹介! Part 1 学習方法編 - ELYZA Tech Blog

    はじめまして,インターン生の三澤遼です。記事では,BERT以降の事前学習済みモデルを体系化し,主要なモデルについて解説します。TransformerやBERTについて事前知識があると理解しやすいと思います。 BERT以降のNLP分野の発展 学習方法の改良について 事前学習 Masked Language Modeling 改良版Masked Language Modeling RoBERTa (2019-07) Translation Language Modeling XLM (2019-01) Sequence-to-Sequence Masked Language Modeling T5 (2020-07) Permuted Language Modeling XLNet (2020-01) Denoising Auto Encoder BART (2019-10) Contras

    BERT以降の事前学習済みモデルのトレンドと主要モデルを紹介! Part 1 学習方法編 - ELYZA Tech Blog
  • 博士論文とは「構造を書くこと」である!? | 立教大学 経営学部 中原淳研究室 - 大人の学びを科学する | NAKAHARA-LAB.net

    中原研究室も開設5年。ようやく、研究室所属の大学院生も業績がそろい、ここ1年以内に博士論文を執筆できそうな人が、ボチボチ、でてくるようになりました。 そうなれば、誠にめでたいことであり、指導教員として、気が引き締まることであります。 博士論文というのは、指導学生と教員がタッグを組みながら、各種の段階の審査を通過していく「通過儀礼」のようなものです。「これから1年間は、忙しくなるべな」と思いながら、パンツのゴムをきつくしめなおしております。血しない程度にさ。 ▼ (下記は、あくまで中原の専門分野、状況による記述とお考え下さい。博士論文のあり方は学問分野によってもことなりますし、その作法は千差万別でしょう。下記は、あくまで、中原の指導方針であるとお考え下さい) ところで、博士論文を書いたことのある人ならおわかりだと思いますが、博士論文でもっとも難しいのは、「文章を書くこと」ではありません、、

    博士論文とは「構造を書くこと」である!? | 立教大学 経営学部 中原淳研究室 - 大人の学びを科学する | NAKAHARA-LAB.net
  • arXivを用いた研究プレイヤーの調査手法 - LLM関連論文を例に|hayataka

    はじめに arXivに登録されているLLM関連論文を調査した論文が公開されました(Topics, Authors, and Networks in Large Language Model Research: Trends from a Survey of 17K arXiv Papers)。調査内容・結果の詳細は、下記のAIDBの記事が参考になります。 話を戻します。この調査論文は内容もさることながら、arXivを用いた調査手法も参考になります。データやコードも公開されているので、実際に触ってみると良いでしょう。このnoteでは、その手法に着目して紹介したいと思います。 ちなみに、この論文で収集したLLM関連論文は、下記のキーワードがタイトル・アブストラクトに含むものです。2018年以降のもので、16,979件ヒットするようです。 "language model" OR "foundat

    arXivを用いた研究プレイヤーの調査手法 - LLM関連論文を例に|hayataka
  • Aman's AI Journal • Gradient Accumulation and Checkpointing

  • GitHub Trending を定期投稿する Bluesky ボットを作った

    🤖 作ったもの 最新の GitHub Trending Repository を定期的に投稿する Bluesky ボットを作りました。 全体のトレンドと、JS/TSのフロントエンドのトレンドを投稿する2つのBotがあります。 GitHub Trending GitHub Trending JS/TS 細かい仕様はこちらです。 毎日最新のトレンドを取得 30 分から 1 時間おきに GitHub Trending に掲載されているリポジトリをツイート 一度投稿したリポジトリは再度掲載されていても 4 日間は投稿しない コードはすべて以下リポジトリで公開しています。 💘 モチベーション こちらの記事 で紹介したGitHub Trending を流すTwitter Botを作った時と同様です。 複数のつよい人から GitHub Trending を定期的に見て最新の情報をキャッチアップしてい

    GitHub Trending を定期投稿する Bluesky ボットを作った
  • 読み手も楽しい論文を作るには?|cvpaper.challenge

    自己紹介はじめまして, 筑波大学 画像情報研究室 博士1年の上田樹と申します. SLAMまわりのロボットビジョンと深層学習の中間領域あたりの研究を好物にしています. 今回はアドベントカレンダーの記事として, MIRU/cvpaper.challengeのメンターシッププログラムで取り組んだ研究が世に出るまでのストーリの詳解として, ECCV2022で発表したNeural Density Distance Field(NeDDF)という研究がどのように生まれたかについて書いていきたいと思います. この研究は私にとって初めて国際会議として採択された論文なのですが, 採択までには実に2回の研究テーマ変更, 6回のリジェクトがありました. 採択のために変えた点は色々ありますが,自分ならどんな論文を読みたいか, という視点を持ってテーマ設定から俯瞰することの重要性に集約されるのかなと思います. この

    読み手も楽しい論文を作るには?|cvpaper.challenge
  • グーグルが「Astra」発表、AIアシスタントからエージェントへ

    グーグルAIエージェント「Astra(アストラ)」を発表した。今年後半にリリースされる予定で、AIアシスタントはユーザーの日常生活をサポートするエージェントに進歩する。 by Melissa Heikkilä2024.05.15 1 11 グーグルは今年後半、「Astra(アストラ)」と呼ばれる新システムを投入する予定だ。これまでに発表された人工知能AI)アシスタントのうち、もっとも強力かつ先進的なものになると同社は約束する。 ChatGPT(チャットGPT)のような現世代のAIアシスタントは、情報を取得して回答を提供することはできるが、ただそれだけだ。だが、グーグルは今年、AIアシスタントをさらに高度な「エージェント」としてリブランディングする。推論、計画、記憶のスキルを示したり、タスク実行のために複数のステップを実行できるという。 グーグル・ディープマインドの研究担当副社長であるオ

    グーグルが「Astra」発表、AIアシスタントからエージェントへ
  • 株式会社一休に入社しました - 貳佰伍拾陸夜日記

    転職のお知らせ、あるいは個人の日記です。 6月から以下のように所属変更となっています。 From 株式会社はてな To 株式会社一休 マネージャではなく、とくに役職のないソフトウェアエンジニアとして働きます。いわゆるIC (individual contributor)というやつです。 きっかけ はてなには新卒として入社して以来11年も勤めて、インターンやアルバイトとして関わった時期から数えると16年になります。出入りの激しいこの業界でずっと1社しか知らずに過ごすのは負い目に感じていました。また、年齢的にも今年で40歳になることもあって、そろそろ転職を経験しておかないとまずいという焦りもありました。 そんなときに、大学の同期でプライベートでも仲良くさせてもらっているid:suzakから声をかけてもらい、ちょっと真剣に転職を考えたのがきっかけでした。 できることではなくやりたいこと はてな

    株式会社一休に入社しました - 貳佰伍拾陸夜日記
  • Universal Sentence Encoderをチューニングして多言語のテキスト分類 - Ahogrammer

    Googleが開発した多言語の埋め込みモデル「LaBSE」を使って多言語のテキスト分類」と題した記事を書いたところ、「Universal Sentence Encoder(以下、USE)と比べてどうなのか?」というコメントを見かけました。そこで、記事では、多言語の埋め込み表現を作ることのできる「Multilingual USE(m-USE)」を使って、テキスト分類をしてみます。設定としては前回と同様、学習には英語、評価には日語とフランス語のデータセットを使います。 記事では要点だけを紹介するので、コードについては以下のノートブックを参照してください。 Text Classification with Multilingual USE 文類似度 LaBSEの場合と同様に、TensorFlow Hubで公開されているモデルを使って、多言語の文類似度を計算してみます。m-USEには、Tra

    Universal Sentence Encoderをチューニングして多言語のテキスト分類 - Ahogrammer
  • Googleが開発した多言語の埋め込みモデル「LaBSE」を使って多言語のテキスト分類 - Ahogrammer

    自然言語処理において、テキストをその意味を考慮しつつ固定長のベクトルに変換する埋め込みモデルは重要です。文の意味をよく表現したベクトルを作ることができれば、テキスト分類や情報検索、文類似度など、さまざまなタスクで役立ちます。記事では、Googleが開発した多言語の埋め込みモデル「LaBSE」を使って、テキスト分類をする方法を紹介します。単なるテキスト分類では面白くないため、学習には英語のデータセットを使い、評価には日語とフランス語のデータセットを使います。 記事では要点だけを紹介するので、コードについては以下のノートブックを参照してください。 Text Classification with LaBSE LaBSE LaBSEは、Googleが「Language-agnostic BERT Sentence Embedding」という論文で提案したモデルです。109の言語に対応しており

    Googleが開発した多言語の埋め込みモデル「LaBSE」を使って多言語のテキスト分類 - Ahogrammer
  • Inverse Kinematics(IK)について - SEGA TECH Blog

    はじめに 株式会社セガ 第3事業部 オンライン研究開発プログラム2部の松と申します。 今回はInverse Kinematics(IK)に関する基的な考え方や手法についての記事となります。 ゲーム制作の仕事に携わっているとIKの名前くらいは聞いたことがあるのではないかと思いますが、実際の中身については何をやってるのか良く分からない謎の技術だと感じている人も多いのではないでしょうか。この記事を読んでInverse Kinematicsについての理解を深めたり、あるいは改めて学び直すための良い機会になればと思います。 特にゲーム制作者ではない方にとっては、前提知識が不足していて分かり辛い所もあるかも知れませんが、題であるIKそのものの概念や処理内容については、高校数学課程の知識 *1 があれば十分に理解できそうな内容になっているので、そうした視点で数学の復習がてら読んでみるのも良いかと思

    Inverse Kinematics(IK)について - SEGA TECH Blog
  • ICLR2024から見るLLMエージェントの研究動向 - AITC - ISID | AI トランスフォーメンションセンター コラム

    こんにちは、AIソリューショングループの太田です。 この記事ではLLMを用いた自律型エージェントの研究動向をご紹介します。 研究動向は、AI系で難関な国際会議ICLR2024と同時開催のICLR2024 LLMエージェントワークショップの論文を中心にまとめました。 llmagents.github.io 企業の皆様も学生の皆さんもぜひ、最先端の技術を知ってもらい業務で活かせないか考えてみてください。(協力が必要な場合は、AITCにもご相談いただければと思います) その前に電通総研AITCがなぜ今回技術動向を調査したのかなどその辺りを紹介します。 なぜ技術動向を調査するの? 論文を執筆・発表する研究機関でなくても、最新の技術動向を追う必要があります。 私たちのような顧客や業務に特化したソリューションを作るチームが特にそうです。 シーズベースでできることを発信せず、ニーズベースの受け身の姿勢で

    ICLR2024から見るLLMエージェントの研究動向 - AITC - ISID | AI トランスフォーメンションセンター コラム
  • VS Codeでpylanceがクラッシュする場合の対策

    事象 VS Codeでpythonを実行すると以下のエラーが発生するようになった。 Pylance has crashed. Would you like to try using a Node.js executable to run the language server? 調べたところ以下のissueがヒットした。 上記例ではディレクトリ内に巨大なデータセットが存在する場合にこのエラーが発生するよう。 私の環境では100GB以上のデータセットが存在する外部SSDdockerコンテナ内でマウントして扱っていたので同様の理由と思われる。 対策 issue内にあるように対策としては以下のどちらかを実行すると良いらしい。 pyright[1]の設定で解析対象のフォルダを限定する pylanceのメモリ制限を緩和するためのNode.jsを指定する 試しに前者のpyrightの設定をしたところ

    VS Codeでpylanceがクラッシュする場合の対策
  • RAGの性能を改善するための8つの戦略 | Fintan

    近年、OpenAIのGPT-4やGoogleのGemini、MetaのLLaMAをはじめとする大規模言語モデル(Large Language Model:LLM)の能力が大幅に向上し、自然言語処理において優れた結果を収めています[1][2][3]。これらのLLMは、膨大な量のテキストデータで学習されており、さまざまな自然言語処理タスクにおいて、タスクに固有なデータを用いてモデルをファインチューニングすることなく、より正確で自然なテキスト生成や、複雑な質問への回答が可能となっています。 LLM-jp-eval[4]およびMT-bench-jp[5]を用いた日語LLMの評価結果。Nejumi LLMリーダーボード Neoより取得。 大規模言語モデルは近年急速な進歩を遂げていますが、これらの進歩にもかかわらず、裏付けのない情報や矛盾した内容を生成する点においては依然として課題があります。たとえ

    RAGの性能を改善するための8つの戦略 | Fintan