素人でもプロ並みの研ぎを実現! 手軽にスパッと切れる包丁を復活できるローラー式シャープナー「EDGBLACK Knife Sharpener Flex」が登場
OpenAIからChatGPT-4oが発表されましたが、皆さんガンガンつかっていますでしょうか? さて、このChatGPT-4oですが、テキスト以外のデータも使用できるようになっているという特徴があります。 普通にテキストでのやり取りをしつつも画像データを扱えるということで、「実はこれいい感じのOCRとして使えるんじゃね?」って思っちゃったわけです。 ということで、今回はChatGPT-4oを使ってOCRを使うとどんなもんなのかやってみたいと思います。 やりたいこと やってみる とりあえずやってみる 請求書 名刺 参考文献 感想 やりたいこと 今回やりたいことはOCRです。早い話が画像ファイルを突っ込んでテキストを読み取りたいって感じです。 ただ、当たり前のようにOCRって言葉を使用していますがOCRって結構奥が深いです。 mediadrive.jp 単純に画像から文字を見つけて対応するテ
2024年5月に入ってすぐ、AI研究者の間ではOpenAIにまつわる複数の噂が流れていました。いわく「OpenAIが近日中に生成AIを使った検索サービスをするらしい」、「OpenAIが新型のGPTを発表するらしい」などといったものです。 それに先立ち、4月の後半からは、生成AIの性能を比較するサイトで、正体不明のモデル「gpt2-chatbot」なるものが出現し、制作者が不明である中、当時最高の性能を誇っていたGPT-4を上回る性能を見せつけていました(もちろんOpenAIはすでに「GPT-2」を数年前に発表済みです)。では今更このような名前をつけて暴れ回っているこれは何なのか。OpenAI製なのか、それとも別の機関が開発したのか。 この話は後々答えがわかるのですが、このようにAI研究者たちが落ち着かず、あれこれと噂してOpenAIの動向に注意している中、OpenAIは日本時間の5月11日
OpenAIが開発する大規模言語モデル(LLM)の「GPT-4」は、道徳テストで人間の大学生より優れたスコアをたたき出したり、セキュリティ勧告を読むことで実際の脆弱性を悪用できたりと、すでに一部の分野で人間の能力を超えることが示されています。そんなGPT-4が、プロのアナリストに匹敵する精度の財務諸表分析を行えることが実証されました。 Financial Statement Analysis with Large Language Models by Alex Kim, Maximilian Muhn, Valeri V. Nikolaev :: SSRN https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4835311 The future of financial analysis: How GPT-4 is disrupting
画像認識が可能なオープンソースモデルの「Llama 3-V」が公開されました。Llama 3-Vは、OpenAIのマルチモーダルモデル「GPT4-V」よりも格段に小型で、事前トレーニングにかかる費用は500ドル(約78000円)程度なのにもかかわらず、ほとんどの指標で同等のパフォーマンスを示しています。 Llama 3-V: Matching GPT4-V with a 100x smaller model and 500 dollars | by Aksh Garg | May, 2024 | Medium https://aksh-garg.medium.com/llama-3v-building-an-open-source-gpt-4v-competitor-in-under-500-7dd8f1f6c9ee 今回発表されたLlama 3-Vは、 Metaが公開した言語モデルの「L
デジタルプロダクション「factory4」でアプリやさまざまなIoTプロジェクトのUIUXデザインを手がける新谷友樹さんが、UIやUXにまつわるトピックについて解説する本連載。今回のテーマは「GPT4oを活用したウェブサイトづくり」です。 こんにちは!株式会社Cosmowayが組織するデジタルプロダクション「factory4」のUIUXデザイナー新谷です。 今回は先日OpenAIが発表した新たなAIモデル「GPT-4o」を使ってウェブサイト(LP)を作成してみました。GPT-4oのパフォーマンスを知ること、そしてデザイナーが生成AIとどう関わっていくべきかを探るきっかけにすることが、今回の目的です。 前提として「GPT-4o」がゼロベースでウェブページを作成することに向いているツールではないと思いますが、チュートリアルの要素と今後の可能性を知るためにあえて取り組んでみました。 GPT-4o
こんにちは。Gunosy R&D チームの森田です。 GPT-4o が発表されたこのタイミングで!?という向きもあるかとおもいますが、LLMの世界は一ヶ月もすればまったく違う状況になっているのが常なので、いずれは GPT-4o を超えるモデルが発表される時も来るでしょう。 Claude 3 Opus は一時期 GPT-4 のスコアを超え、 Claude 3 Haiku では GPT-3.5-Turbo のトークン当たりで約半額とコストパフォーマンスに優れていますし、 AWS Bedrock 経由で安定して利用できることもあり、Claude 3 は乗り換え先の候補の一つです。 Claude 3 への乗り換えには、点々とつまづくポイントがあるので、引っかかった所と回避方法をご紹介します。 今回紹介する内容はClaude 3に限らないものもありますので、ローカルLLM や他のLLM への乗り換え
GPT-4などの大規模言語モデルは非常に高い性能を有していますが、各モデルがどのような思考を経て応答を出力しているのかは開発者ですら把握できていません。新たに、OpenAIが大規模言語モデルの思考を読み取る手法を開発し、GPT-4の思考を1600万個の解釈可能なパターンに分解できたことを発表しました。 Extracting Concepts from GPT-4 | OpenAI https://openai.com/index/extracting-concepts-from-gpt-4/ Scaling and evaluating sparse autoencoders https://cdn.openai.com/papers/sparse-autoencoders.pdf 一般的なソフトウェアは人間の設計に基づいて開発されているため、各機能の仕組みを理解した上で機能を修正したり安
AI研究者のライアン・グリーンブラット氏が、AIの一般的な推論能力を評価する指標の「ARC-AGI」において、GPT-4oを工夫して使用することで50%という正答率を達成できたと発表しました。 Getting 50% (SoTA) on ARC-AGI with GPT-4o https://redwoodresearch.substack.com/p/getting-50-sota-on-arc-agi-with-gpt ARC-AGIでは下図のようにいくつかの例と問題が用意されます。例からルールを推測して正しく問題の図に対応する結果を出力できればOK。人間がこのタスクを行うと子どもであっても85%から100%のスコアを出すことができますが、これまでAIが出したARC-AGIの最高スコアは34%であり、数多くのベンチマークの中でも特に人間との差が顕著でした。 上記の問題はシンプルなため特
こんにちは、横須賀市生成AI推進チームのM田です。 横須賀市がChatGPTを全庁利用を始めて1年経ちましたが、現在、いよいよ市民向けのAIサービスの実現に向けて相談AIチャットボットの実証実験をはじめたところです。 既に多くの人から話しかけてもらっていて、想定したよりも多くのアクセスがあったため一時停止するトラブルもありました…。 (現在は動いています) 今回は、この「ニャンぺい」を公開するにあたって、内部で行うテストをChatGPT(GPT-4o)とPythonプログラムを使って超効率化したよ、という話です。 AIチャットボットのテストAIチャットボットを作るにあたって、チャットボットの挙動(望んだ返答をしているか)のチェックをするテストは欠かせません。 テストは、まず複数のシナリオを作り、チャットボットへ質問し、回答を採点します。そして、採点結果をもとにチャットボットを修正して、再度
gpt-4o はじめに こんにちは、ACS事業部の佐竹です。 今回のMicrosoft Buildで発表されたGPT-4oについて、どの程度レスポンスが良くなったか是非触ってみたく、今回の記事を書くことにしました。 1.1.5.Azure OpenAI Serviceの主なAIの進化 news.microsoft.com 以前、Azure Communication ServiceとAzure OpenAI Serviceを使って、コールセンターを作ってみたのですが、そこにGPT-4oを組み込む形でGPT-4-32kとの速度比較を行いました。 techblog.ap-com.co.jp 上記の記事はハンズオン形式で記載しておりますので、お手隙の際に是非手を動かしていただけますと幸いです。 概要 全体アーキテクチャは以下のようになります。 アーキテクチャ図 全体の流れは以下の通りです。 ユー
2019年に公開されるやいなや「危険すぎる」と話題になったOpenAIの「GPT-2」を、ゼロから作成したレポートが公開されました。作成にかかった時間は、1時間14ドル(約2200円)のクラウドコンピューティングサービスで1時間半だったため、総コストは約20ドル(約3100円)に収まっています。 Reproducing GPT-2 (124M) in llm.c in 90 minutes for $20 · karpathy/llm.c · Discussion #481 · GitHub https://github.com/karpathy/llm.c/discussions/481 # Reproduce GPT-2 (124M) in llm.c in 90 minutes for $20 ✨ The GPT-2 (124M) is the smallest model in t
2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless(シームレス)を運営し、執筆しています。 1週間分の生成AI関連論文の中から重要なものをピックアップし、解説をする連載です。第48回目は、生成AI最新論文の概要5つを紹介します。 生成AI論文ピックアップ “文学作品”を翻訳する、実際の出版社を真似たAI会社「TransAgents」 任意のアスペクト比と高解像度の画像を効率的に認識できる大規模マルチモーダルモデル「LLaVA-UHD」 GPT-4は投資先選びに活用できるのか? 企業の財務諸表を分析し将来の利益を予測 「Claude 3.0 Sonnet」が内部でどう考えているかをAnthropicが公開 LoRAより効率的な高いランクでファインチューニングする新しい手法「MoRA」 “文学作品”を翻訳する、実際の出版社を真似たAI会社「T
導入 こんにちは、株式会社ナレッジセンスの須藤英寿です。普段はエンジニアとして、LLMを使用したチャットのサービスを提供しており、とりわけRAGシステムの改善は日々の課題になっています。 RAGのシステムでは一般的に、断片化されたテキストをEmbeddingによってベクトル化し、関連する情報を検索、そして質問に回答するという形式が採用されるかと思います。 しかし本来、RAGのデータソースは断片化されたテキストに限定はされていません。その一つとして、Knowledge Graph(知識グラフ)というものが存在します。 本記事では、そんなKnowledge Graphを利用した新しいRAGのシステム、GNN-RAGについて紹介します。 サマリー GNN-RAGは、Knowledge Graphから関連するデータの取得にGNNを使用します。この手法を利用することで、既存のKnowledge Gr
Appleが、Apple製デバイス向けのパーソナルAI「Apple Intelligence」のベンチマーク結果を公開しました。 Introducing Apple’s On-Device and Server Foundation Models - Apple Machine Learning Research https://machinelearning.apple.com/research/introducing-apple-foundation-models Apple Intelligenceは2024年6月11日2時からAppleが開催している年次開発者会議「WWDC24」の基調講演にて発表されました。基調講演のうち、Apple Intelligenceに関する内容は下記の記事で確認できます。 Appleが新たなパーソナルAIの「Apple Intelligence」を発表、
Microsoftは2024年3月に、Copilotに搭載されたAIチャット機能「Copilot GPT」をカスタマイズできるサービス「GPT Builder」の提供を、Copilot Proユーザー向けに開始しました。しかし、リリースからわずか3カ月後の6月10日に、Microsoftが個人向けのGPT Builderの提供を打ち切ることを発表しました。 GPT Builder is being retired - Microsoft Support https://support.microsoft.com/en-us/topic/gpt-builder-is-being-retired-d1de6c3a-4c7a-4bcd-98ff-2f65f3d23cd1 Microsoft makes Copilot Pro less appealing, ditches ChatGPT's G
GPT-4oに搭載された合成音声「Sky」が自分の声にそっくりだと抗議声明を出したハリウッド俳優のスカーレット・ヨハンソン=2023年5月24日、フランス・カンヌ、ロイター 5月13日に披露された新たなAI技術GPT-4o(フォー・オー)のデモンストレーションは印象的だった。GPT-4oは人の言葉を聞き取り、しゃべって応答した。人の声のニュアンス、笑い声のような非言語コミュニケーションも受け止めて口調を変え、時には笑い、歌った。AIの学習に用いるデータとコンピューターの両方の大規模化がこのようなAIを可能にした。その背後には巨額の開発投資がある。 GPT-4oの同時通訳のデモ動画=OpenAI公式YouTubeチャンネルより 女優スカーレッット・ヨハンソンは、このGPT-4oの声のモデルへの出演交渉を受けたが辞退していた。それにもかかわらず、発表の場で披露されたGPT-4oの声は、映画「h
スライド概要 ■ タイトル: すごすぎ!GPT-4oをPower Apps、Power Automateで楽しんでみよう! - 日付: 2024年5月25日 - スピーカー: 出戻りガツオ(De’modori Gatsuo) - 主催: ビリビリ☆Power Apps 同好会 ### スピーカープロフィール - 名前: 出戻りガツオ(De’modori Gatsuo) - 役職: Microsoft 365 コンサルタント、インドの青鬼 語り隊 隊長 - スキル: Power Apps、Power Automate、Python、Excel VBA、Google Apps Script、RPA、Power BI、SharePoint #### セッション内容 1. テーマ紹介 - GPT-4o(オムニ)について - Azure OpenAI APIの使用方法とその事前準備 - 利用コストと
チャットボットAI「Claude」を開発するAnthropicが新モデルとなる「Claude 3.5 Sonnet」を2024年6月21日に発表しました。これは今後リリースされるClaude 3.5ファミリーの最初となるモデルで、ベンチマーク結果はOpenAIのGPT-4oに匹敵するとのことです。 Introducing Claude 3.5 Sonnet \ Anthropic https://www.anthropic.com/news/claude-3-5-sonnet Anthropicによると、Claude 3.5 Sonnetは大学院レベルの推論力、大学学部レベルの知識とコーディング能力を持つとのこと。Claude 3 Opusなど従来のClaudeモデルと比較し、ニュアンスやユーモア、複雑な指示を理解する能力が著しく向上し、自然で親しみやすい口調で高品質のコンテンツを書く能力
2024年5月13日にOpenAIが新しいAI(人工知能)モデル「GPT-4o(oはOmniの意味)」の提供を開始した。同時に、OpenAIが提供しているチャットAI(人工知能)である「ChatGPT」にもGPT-4oが適用されている。 GPT-4oは、テキストだけでなく、音声や画像などによる入力が可能で、テキストや画像などの出力に対応している。また、音声入力に対する遅延も短くなっており、人間が応答するのと同等のレスポンスを実現しているという。 実際に使ったところ、回答までの時間が短く、GPT-3.5に比べて、格段に回答が正確になっているようだ。 このように魅了的なGPT-4oをChatGPTで使うにはどうすればいいのだろうか? 本Tech TIPSでは、GPT-4oを使う方法などについて解説する。 無料ユーザーがGPT-4oを使う方法 ChatGPTは無料でも利用できるが、従来、その場合
OpenAIがAppleとのパートナーシップを発表し、2024年年内にもChatGPTがiOSやiPadOS、macOSに提供されると発表しています。詳細は以下から。 Appleは現地時間2024年06月10日に開催した世界開発者会議WWDC24の基調講演の中で、多くの時間を割いてAppleのパーソナル(AI)人工知能システム「Apple Intelligence」を発表し、次期macOS 15 SequoiaやiOS/iPadOS 18では、このApple Intelligenceが全てのアプリに統合/利用できるようになると発表しましたが、 同時に、より特定の分野や専門知識を利用したいユーザー向けに、米OpenAIとパートナーシップを結び、GPT-4oベースモデルのChatGPTが年内(年末頃)にSiriに組み込まれることが発表されました。 GPT-4oベースのChatGPTは、まずSi
Prompt Tokensはテキストの15%になっています。 計算しやすいようにCompletion Tokensをどちらも1,000とすると、 画像として処理した場合は0.022595ドル=3.55円 テキスト抽出して処理した場合は0.065995ドル=10.38 円 と約3倍もの開きがあります。 一方で処理時間は1.5倍に増加しています。 実装紹介: 論文から解説生成 落合陽一さんが紹介したサーベイの方法論を使い、論文解説を生成します。 処理手順 arXiv URLからプレプリントをダウンロード base64形式に変換後 GPT-4oに渡して解説を生成 実装 def download_paper(arxiv_url: str, save_dir: str) -> str: """ arXivから論文をダウンロードする関数 Args: arxiv_url (str): ダウンロードする論
判定者が使った戦略を分析すると、36%が雑談を通じて相手の人となりを探ろうとした。また、25%が感情や経験、ユーモアのセンスを尋ねるなど、社会的・感情的なアプローチを取っていた。論理的思考や一般知識を問うたのは13%にとどまった。 判定理由を分析した結果、43%が言語的スタイル(スペル、文法、語調など)に関するもので、24%が社会的・感情的要因(ユーモアのセンス、人格など)に関するものであった。知識や論理的思考に関する理由(知りすぎている、知らなさすぎているなど)は10%にとどまった。 AIだと判定した理由として「わざとらしい人格を演じている」「過度にくだけすぎている」「個性に欠けている」ことが挙げられた。逆に人間だと判定された主な理由は「人間らしく、くだけた言葉遣い」「もっともらしい受け答え」「スペルや文法の間違いを含むこと」などであった。以上の結果から、判定者は知性よりも言語的・社会的
はじめまして、ますみです! 株式会社Galirage(ガリレージ)という「生成AIのシステム開発会社」で、代表をしております^^ この記事では「Microsoft Build 2024」における発表内容を解説します! 私自身、実際に現地のシアトルから聴いていたのですが、感動する発表がいくつかありました😢 1. CopilotにおけるGPT-4oの利用 Copilot上で、GPT-4oが使えるようになります! (正確には、利用イメージがデモされました!) 発表内では、マインクラフトの例が取り上げられました。 画面内で、どのようなことが起きているかをAIが理解して、どのように剣を作れるかなどを教えてくれたりしました。 ここでは、先日のOpenAIによるGPT-4oのデモのように、音声によるインタラクションがされていました。 2. Azure AIにおけるGPT-4oのGA化 Azure Op
新型AIモデル「GPT-4o」が発表されたものの、実は多くの謎が残されており、研究者たちからもさまざまな疑問が投げかけられています。特に、旧GPT-4に比べて驚異的に高速化された出力スピードは、単なるハードウェアの改善だけでは説明できないレベルのものです。一方、性能の一部が低下しているという報告もあり、今後の詳細な検証が求められそうです。GPT-4oは汎用人工知能(AGI)に近づく一歩とされており、次世代の「GPT-5」への期待も高まっています。この記事では、『生成AIで世界はこう変わる』の著者で、東大 松尾研究室の今井翔太氏が、研究者の視点でGPT-4oの性能と次世代のGPT-5への可能性について解説します。
先日、大阪で人工知能(AI)について講演する機会があった。米OpenAI(オープンAI)が次世代のAIモデル「GPT-4o」を発表したばかりということもあり、講演の最中にこのモデルの動作をデモしてみることにした。 GPT-4oの特徴の1つは反応の早さだ。そこでデモでは、スマートフォンの「ChatGPT」アプリでGPT-4oのモデルを選択し、音声で会話することにした。ChatGPTアプリの音声会話で従来のGPT-4を選択した場合、回答が返ってくるまでの時間が長すぎてスムーズな会話は難しい。GPT-4oであれば会話として成り立つくらいのテンポで回答が返ってくる。 講演の途中でスマホのChatGPTアプリを起動し、「こんにちは。あなたは誰ですか」と尋ねてみた。すると、「こんにちは。私はChatGPTです。何かお手伝いできることがあれば教えてください」とすぐに返ってきた。「今日は大阪に来ています」
今日は少し趣向を変えて、AIのレビューをご紹介します。 といっても、もうこのブログを読んでくださっている方は、 ネットやパソコンに強い方が多いと思うので、 わざわざ書くまでもなく、すでにAIを活用されている方は多いかもしれません。 それに比べれば、僕はまだ、対してAIを使っているわけではありません。 しかし一応、それなりの期間使ってきて、 一応今のところ毎日活用しています。 その上で、 「これからAIを使おう」 と思っている方も、もしかしたらいるかも知れないので、 その方向けに少しレビューを書いていきます。 これから、AIを使っていこうと考えている方は参考にしてください。 はじめに断っておくと、僕がこれまで試したことのあるAIは、 「GPT」とclaude.aiの無料版です。 gpt3 使えなかった まずは言わずとしれたAIの走りGPT3。 最初はこの、チャットGPTの無料版である、GPT
2024年5月13日、OpenAIが新しいモデルであるGPT-4oをリリースしました。 GPT-4oは、音声、視覚、テキストのリアルタイム処理が可能で、従来のモデルを大きく上回る性能を備えているとのこと。 発表したその日からChatGPT(有料版)で使えるようになっているということなので、早速自作の漫画やイラストのレビューをしてもらいました。 GPT-4oによる漫画のレビューそもそも漫画が読めるのかそもそも、GPT-4oは漫画が読めるのでしょうか。 試してみました。 拙著「光射すへや」よりこれはなんですか?GPT-4oの回答 この画像は漫画の一コマです。登場人物の会話が描かれています。以下にセリフを日本語で書き出します: 1. **最初のコマ** - 「たいしたもてなしができなくてごめんなさい」 - 「わたしこの街に出稼ぎに来ているの。ここは工場が用意してくれた部屋なのよ」 2. **二つ
加熱するLLM開発競争に冷や水、オープンモデルの組み合わせだけでGPT-4o越えの事実 2024.06.21 Updated by Ryo Shimizu on June 21, 2024, 18:19 pm JST 世界中の企業や政府が狂ったようにNVIDIAのGPUを買い漁る流れはそろそろ潮時かもしれない。 いくつかの興味深い事象が起きているからだ。 昨日発表されたKarakuri社のLLM、「KARAKURI LM 8x7B Instruct v0.1」は、非常に高性能な日本語LLMだ。Karakuri社は今年の一月にも非常に高性能な70Bモデルを引っ提げて業界に旋風を巻き起こした。この最新のLLNは、日本語向けオープンLLMとしては初の「命令実行」チューニングを施されている。それだけでなく、RAGと呼ばれる、複数の知識を組み合わせてより正解に近い答えを導く技術や、Function
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く