並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 8 件 / 8件

新着順 人気順

recognitionの検索結果1 - 8 件 / 8件

  • 【AI動画生成】Sora 要素技術解説

    もう全部OpenAIでいいんじゃないかな はじめに 月間技術革新です。 ということで、昨日OpenAIから発表された新しい動画生成AI「Sora」が非常に話題となっていますね。 圧倒的な一貫性の保持と1分間に及ぶ長時間動画が生成可能という事で、現状の動画生成技術を圧倒的に凌駕する性能を持っているようです。 在野エンジニアの小手先テクニックなど一笑に付すような圧倒的性能を Soraの凄さは色んなエンジニアやインフルエンサーがたくさん語っているのでそちらを見てもらうとして、この記事ではSoraを構成する各技術について簡単に解説していければと思います。 Soraの技術構成 論文が公開されているわけではないですが、OpenAIが要素技術の解説ページを公開してくれているため、そのページを参考にしていきます。 原文を見たい方はこちらからどうぞ 全体構成 Soraは以下の技術要素で構成されているとのこと

      【AI動画生成】Sora 要素技術解説
    • OpenAIのBatch APIを使ってお得にプロンプトを一括処理してみる - Taste of Tech Topics

      はじめに こんにちは。データサイエンスチームYAMALEXのSsk1029Takashiです。 最近はOpenAIに日本支社が出来て、日本語対応が加速するというニュースにわくわくしています。 今回はそんなOpenAIから発表されたBatch APIという機能が便利、かつお得な機能だったのでどのように使えるのか試してみます。 Introducing the Batch API: save costs and get higher rate limits on async tasks (such as summarization, translation, and image classification). Just upload a file of bulk requests, receive results within 24 hours, and get 50% off API pri

        OpenAIのBatch APIを使ってお得にプロンプトを一括処理してみる - Taste of Tech Topics
      • Pythonの高速なスーパーセット「Mojo」がAppleシリコン搭載のMacにまもなく対応

        Modular社はPythonの高速なスーパーセットだと同社が位置づけている開発中の新言語「Mojo」が、今月(2023年10月)中にAppleシリコンを搭載したMacに対応予定であることを明らかにしました。 Mojo is coming to Apple Silicon before the end of October! Here’s a sneak-peak using Infermo - https://t.co/7KEV3G5xj7 - created by @fe_tilli to train a model for digit recognition pic.twitter.com/q350IS2oDl — Modular (@Modular_AI) October 11, 2023 MojoはPython互換として既存のTensorFlowやPyTorchなどをそのまま実行

          Pythonの高速なスーパーセット「Mojo」がAppleシリコン搭載のMacにまもなく対応
        • Arxiv RAGによる論文サーベイの自動生成 | Shikoan's ML Blog

          2.3k{icon} {views} 複数のLLM(GPT/Claude3)とArxivの検索APIをRAGで統合し、論文サーベイの自動生成を作りました。検索結果の前処理や、サーベイ特有のプロンプトエンジニアリングやソートが重要で、最適化手法として古くからある巡回セールスマン問題(TSP)が有効に機能しました。また、生成部分ではGPTよりClaude3の明確な有効性を確認できました。 できたもの Arxivの検索APIを使って検索拡張生成(RAG)したらサーベイを自動生成できた やっていること Arxivの検索ワードをGPT-4-Turboで生成 ArxivのAPIを叩いてヒューリスティックでフィルタリング OpenAIのEmbedding APIを叩く Embeddingに対して巡回セールスマン問題(TSP)を解いてソートをかける 論文の要旨をGPT-3.5-Turboで要約 ソートした

            Arxiv RAGによる論文サーベイの自動生成 | Shikoan's ML Blog
          • 隣の防音部屋をミリ波で盗聴、瞬時にテキスト化する技術 中国の研究者らが開発

            このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」(シームレス)を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 Twitter: @shiropen2 香港大学や清華大学に所属する研究者らが発表した論文「Radio2Text: Streaming Speech Recognition Using mmWave Radio Signals」は、ミリ波(mmWave)信号から音声を認識するストリーミング自動音声認識(ASR)システムを提案した研究報告である。このシステムは、周囲のノイズに強く、防音対策した部屋の外からでも取得でき、これまでと異なり長い文章をリアルタイムに認識する能力を提供する。 無線センシングの進展に伴い、特にミリ波信号の注目が高まっている。なぜなら、音源のミリメートルレベルの

              隣の防音部屋をミリ波で盗聴、瞬時にテキスト化する技術 中国の研究者らが開発
            • 1bit LLM の時代は来るのか,来ないのか,どっちなんだい?|情報処理学会・学会誌「情報処理」

              徳永拓之(LeapMind(株)) 1bit LLMの時代が来る? 2024 年2 月,The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits¹⁾ というタイトルの論文がarXiv上で公開され,にわかに話題となりました.“1.58 Bits” という表現はあまりなじみがありませんが,log₂(3) = 1.58 . . . ということで,パラメーターを三値にした場合の情報量を示しているようです.この論文(以下b1.58 論文とする)は,同じ著者グループによる文献2)を少し拡張したもので,大規模言語モデル(LLM)の効率化についての研究です. 本稿の前半ではこれらの論文の主張を解説し,後半ではその主張の妥当性について検討します. なお,これらの2本の論文は,本稿執筆時点では,査読を経たものではありませんのでご注意くだ

                1bit LLM の時代は来るのか,来ないのか,どっちなんだい?|情報処理学会・学会誌「情報処理」
              • 画像grepツールを作ってみた - Qiita

                経緯 ごく稀に、プロダクト内に書かれた文言の修正をすることってありますよね。 htmlやテンプレートファイルに文字列が記載されていれば、普通にgrepするなり、sedで一括置換できたりします。 問題は画像です・・・! 画像の中に置き換えなければいけない文字があることもあると思いますが、画像を目視で見ないと分からないですよね。 過去の経験的にも、あとから置き換えなければいけない文字を含む画像が見つかって、修正する・・・みたいなことを何度か経験したことがあります。 (本来は、画像内にあまり文字を書くのは良くないと思うのだけど・・・説明ページとかだと仕方ない場合もありますよね。) 画像内をgrepできたらいいのに、と思ったのでOCRを活用して画像内の文字列をテキスト化し、その中に調べたい文字列があるかをチェックするツールを作ってみたので紹介します。 OCRとは OCR(Optical Chara

                  画像grepツールを作ってみた - Qiita
                • 生成AIと音声認識を組み合わせて会議アシスタントツールを作ったら生産性が大幅に向上した話

                  株式会社クラウドネイティブは、Azure OpenAIで自組織専用のChatGPTの構築を支援するサービスを展開しています。ChatGPTとAzure AD OpenAI Serviceの取り組みや事例、支援… IDチームの前田です。今日は生成AI(ChatGPT)と音声認識モデル(Whisper)を利用した会議アシスタントツールに関する投稿になります。 (追記) 作ったツールはGitHub上で公開しており、Dockerを利用してすぐに試せるようになってます。 https://github.com/cloudnative-co/mtg-ai-assistant 2023年8月30日現在Azure OpenAIにてWhisperが利用出来ていないため、OpenAI Whisper APIを利用した試験段階のものになります。近日中にAzure OpenAIにてWhisperが利用出来るとアナウ

                    生成AIと音声認識を組み合わせて会議アシスタントツールを作ったら生産性が大幅に向上した話
                  1