並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 7 件 / 7件

新着順 人気順

OCRの検索結果1 - 7 件 / 7件

  • GPT-4oはどのように画像をエンコードしてトークンに分解しているのか?

    AIチャットサービス「ChatGPT」のモデルの1つ、GPT-4oは、人間から受け取ったテキストをまず「トークン」に処理した後、AIが扱いやすい数値ベクトルに変換して計算を行います。画像でも同様の処理を行いますが、その際にどのような処理をしているのか、プログラマーのオラン・ルーニー氏が推測しました。 A Picture is Worth 170 Tokens: How Does GPT-4o Encode Images? - OranLooney.com https://www.oranlooney.com/post/gpt-cnn/ GPT-4oが高解像度の画像を処理する際は、画像を512x512ピクセルのタイルに切り分けて処理し、1タイル当たり170トークンを消費します。この「170トークン」という数字に着目したルーニー氏は、「OpenAIが使う数字にしては中途半端すぎる」と指摘し、な

      GPT-4oはどのように画像をエンコードしてトークンに分解しているのか?
    • スマホの写真に映ったテキストをPCにコピーできたら便利! 実はWindows 11標準で可能/「スマートフォン連携」の簡易OCRを試す【やじうまの杜】

        スマホの写真に映ったテキストをPCにコピーできたら便利! 実はWindows 11標準で可能/「スマートフォン連携」の簡易OCRを試す【やじうまの杜】
      • Claude 3.5 Sonnet の評価に関する備忘録 - Algomatic Tech Blog

        こんにちは。Algomatic NEO(x) の宮脇(@catshun_)です。 本記事では弊社 podcast の「Algomaticで話題になった生成AIニュースまとめ」という回で用意している会話ネタの一つとして "Claude 3.5 Sonnet Model Card Addendum" を読んだので、その備忘を共有いたします。 なお概要については npaka 氏の以下の note 記事が参考になりますので、本記事の前にこちらを参照いただくことをおすすめします。 note.com おことわり 解釈や引用に誤りがありましたらご指摘いただけると幸いです。 本記事では詳細な解説を含みません。詳細な調査等は必ず参照元の論文等をご確認ください。 引用時の名称や図は原則として引用先の媒体で記述されているものに従っています。 プロダクト等の利用時は 必ずライセンスや利用規約を参照して下さい。 本

          Claude 3.5 Sonnet の評価に関する備忘録 - Algomatic Tech Blog
        • Claude3.5の新機能!Artifacts:Claudeとの新しい対話方法 – 完全ガイド - Sun wood AI labs.2

          はじめに みなさん、こんにちは!今日は、AI技術の世界に革命を起こす新機能「Artifacts(アーティファクツ)」について、わかりやすくお話ししていきます。Claudeという人工知能と、より効果的に協力して作業ができるようになる、とてもワクワクする機能なんです。 Artifactsとは何か? 簡単な説明 Artifactsは、Claude.aiで導入された新機能です。ユーザーがClaudeに何かを作ってもらう時、その成果物を会話とは別の専用ウィンドウで見ることができます。つまり、会話しながら同時に作品を見て編集できる、そんな魔法のようなツールなんです。 Artifactsの主な特徴 リアルタイムの表示: Claudeが作った内容をすぐに見ることができます。 編集可能: 表示された内容を自由に編集できます。 作業の継続性: 一度作ったものを基に、さらに改良を加えていけます。 Artifac

            Claude3.5の新機能!Artifacts:Claudeとの新しい対話方法 – 完全ガイド - Sun wood AI labs.2
          • チェック・ポイント、ASCIIコードをベースとする新たなQRコードフィッシングの手法を発見

            チェック・ポイント、ASCIIコードをベースとする新たなQRコードフィッシングの手法を発見OCRエンジンによる検知を回避する、HTMLで作成されたQRコードの登場に警鐘。時代はQRコードフィッシング3.0へ AIを活用したクラウド型サイバーセキュリティプラットフォームのプロバイダーであるチェック・ポイント・ソフトウェア・テクノロジーズ(Check Point® Software Technologies Ltd.、 NASDAQ:CHKP、以下チェック・ポイント)は、ASCIIコードをベースとしてHTMLによって作成されたQRコードを用いる新たなQRコードフィッシング(通称クイッシング、Quishing)の手法を発見しました。このQRコードは従来の画像によるQRコードと異なり、ASCIIコードをベースとしたHTMLで作成され、OCRによる検知を免れることから、さらなる注意が必要です。 急速

              チェック・ポイント、ASCIIコードをベースとする新たなQRコードフィッシングの手法を発見
            • スクリーンショットを使ってRAGの精度向上。「DSE」を解説

              はじめまして。ナレッジセンスの門脇です。生成AIやRAGシステムを活用したサービスを開発しています。本記事では、RAGの性能を高める手法である「Document Screenshot Embedding(DSE)」について、ざっくり理解します。 この記事は何 この記事は、RAGの文書検索精度を高めるための論文「Document Screenshot Embedding(DSE)」[1]について、日本語で簡単にまとめたものです。 「そもそもRAGとは?」については、知っている前提で進みます。確認する場合は以下の記事もご参考下さい。 本題 ざっくりサマリー Document Screenshot Embedding(DSE)は、RAGシステムの一部分を効率化する手法です。具体的には、「ユーザーの質問に対して最適な文書を検索をする」部分の性能を高めます。ウォータールー大学の研究者らによって202

                スクリーンショットを使ってRAGの精度向上。「DSE」を解説
              • TensorRTとTriton Inference Serverで推論サーバの性能を劇的に改善し本番導入した話 - LayerX エンジニアブログ

                機械学習エンジニアの吉田です。前回は NVIDIA Triton Inference Server の性能を検証した話を書きましたが今回はその続編となります。 tech.layerx.co.jp 前回の記事以降も継続してTriton Inference Serverの検証を重ねた結果、推論サーバの性能を大幅に改善することができ、無事本番に導入することができました。 この記事では本番導入までにどのような改善や検証を行ったのか書きたいと思います。 はじめに 背景 バクラクでは請求書OCRなどの機械学習モデルを開発しており、リアルタイムで推論結果を返す必要があります。 推論APIはNginx、Gunicorn w/ Uvicorn、FastAPIで実装され、PyTorchモデルをGPUで推論、SageMaker Endpointでサービングしており、 リリース以降問題なく稼働してきましたが、お客

                  TensorRTとTriton Inference Serverで推論サーバの性能を劇的に改善し本番導入した話 - LayerX エンジニアブログ
                1