タグ

2024年6月1日のブックマーク (2件)

  • Llama 3-V: Matching GPT4-V with a 100x smaller model and 500 dollars

    Edit (June 3 )— From TwitterFirst of all, we want to sincerely apologize to the original authors of MiniCPM. We wanted Mustafa to make the original statement but have been unable to contact him since yesterday. @siddrrsh and I posted Llama3-v with @mustafaaljadery. Mustafa wrote the entirety of the code for the project. Sid and I were both really excited about multimodal models and liked the archi

    Llama 3-V: Matching GPT4-V with a 100x smaller model and 500 dollars
  • Dot MatrixでGPT-4oによる物体検出の精度が上がるか試してみる

    はじめに GPT-4oがリリースされ、様々な取り組みに活用されています。 例えば、物体検出の分野でも、画像を入力してBounding Boxを出力するような試みが行われています。 しかし、大規模なマルチモーダルモデル(LMMs)であっても、画像内の細かな位置情報を用いるようなタスクは比較的不得意な分野です。 この問題への対策として、画像中にDot Matrixを付与するアプローチが提案されています。 この記事では、Dot Matrixを付与した画像をgpt-4oに入力することで、物体検出能力が向上するかを試してみたいと思います。 対象画像 来は大規模なデータセットにおいて、統計的に精度検証すべきですが、今回はお試しということで、MS COCOデータセットから、次の画像1枚を対象に実験をしてみます。 また、今回はBoundingBoxの位置精度についての検証が主目的のため、画像中に存在し得

    Dot MatrixでGPT-4oによる物体検出の精度が上がるか試してみる