タグ

ブックマーク / ai-data-base.com (3)

  • 数式や文章がぐにゃぐにゃに曲がった論文PDFでもくっきり認識する画期的なOCR『Nougat』 | AIDB

    科学的知識は主に書籍や科学誌に保存されていますが、PDF形式が一般的です。しかし、この形式は特に数学的表現においてセマンティック情報の損失を引き起こします。この問題に対処するために、Meta AIの研究チームは『Nougat(Neural Optical Understanding for Academic Documents)』という新しいOCR(光学式文字認識)技術を開発しました。 Nougatは、数式や文章が複雑に配置された画像であっても、それをマークアップ言語に高品質で変換する能力を持っています。この技術は、新しい論文だけでなく、電子データが存在しない古い書類などの解析にも非常に有用です。 参照論文情報 タイトル:Nougat: Neural Optical Understanding for Academic Documents 著者:Lukas Blecher, Guillem

    数式や文章がぐにゃぐにゃに曲がった論文PDFでもくっきり認識する画期的なOCR『Nougat』 | AIDB
    Unimmo
    Unimmo 2023/09/06
  • “脳波”から映像を生成する技術「DreamDiffusion」登場 | AIDB

    Tencentなどの研究者チームが開発した「DreamDiffusion」は、脳の視ている光景を脳波から視覚化する、まるでSF映画のような技術です。記事では、この画期的な技術について紹介します。 参照論文情報 タイトル:DreamDiffusion: Generating High-Quality Images from Brain EEG Signals 著者:Yunpeng Bai, Xintao Wang, Yanpei Cao, Yixiao Ge, Chun Yuan, Ying Shan 所属:Tencent AI Labなど URL:https://doi.org/10.48550/arXiv.2306.16934 DreamDiffusionは、脳波(EEG)から映像を生成する技術です。具体的には、頭の外側に付ける非侵襲型の電極からEEG信号を読み取り、その信号を元に拡散

    “脳波”から映像を生成する技術「DreamDiffusion」登場 | AIDB
    Unimmo
    Unimmo 2023/07/01
  • OpenAI、大規模言語モデルの数学能力を大きく向上させることに成功 | AIDB

    OpenAIは新しいフレームワーク「PRM」を発表しました。これは、大規模言語モデル(LLM)の数学能力を向上させるためのもので、AIが問題を解く際の誤りをプロセスベースで特定・修正する能力を強化します。このフレームワークで訓練した大規模言語モデルは、DeepMind社の作成した数学問題集(MTAHデータセット)において他のモデルを凌駕し最も優れたパフォーマンスを見せました。 また、この手法は数学だけでなく推論能力を必要とする広範な問題の解決にも応用できる可能性があり、注目を集めています。 参照論文情報 タイトル:Let’s Verify Step by Step 著者:Hunter Lightman, Vineet Kosaraju, Yura Burda, Harri Edwards, Bowen Baker, Teddy Lee, Jan Leike, John Schulman,

    OpenAI、大規模言語モデルの数学能力を大きく向上させることに成功 | AIDB
    Unimmo
    Unimmo 2023/06/03
  • 1