サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
衆院選
recruit.gmo.jp
TL;DR OpenAIは2024年10月1日に公開した新しいAPIの1つがVision Fine-tuningです。これはGPT-4oの画像認識能力を追加学習(ファインチューニング)できる新機能です。Vision Fine-tuning APIは、最低10枚の画像と期待する返答の学習データを準備するだけで、Web上で手軽に実行と検証が可能です。 今回、実験として美雲このはの画像を使ってキャラクターを認識させたり、問題のあるグラフの可視化を指摘させるなどの学習をさせて、期待通りの回答を得ることができました。なお、人物や顔、CAPTCHAなど利用規約に違反する画像は学習できない点に注意が必要です。 はじめに こんにちは、グループ研究開発本部・AI研究室のT.I.です。OpenAIでは、2024年10月1日に、いくつかの新しいAPIをリリースしました。今回のBlogでは、その1つであるvisi
こんにちは,S.T.です。MySQLの文字コード周りの紹介記事です。MySQLの実装や,ちょっと変わった化け方を解説しています。実際に何か問題が起きていて,理由を調べている方が検索から辿り着いた場合は,まずは「5.文字コードを間違えたときの挙動」を見るのが良いと思います。 1.符号化文字集合と符号化方式 MySQLの話をする前に,文字コードの話をしましょう。 多くの人がコンピュータで「文字」を扱う際に意識するのは「文字コード」です。この記事を読んでいる方の多くは「UTF-8」や「Shift-JIS」というキーワードと,ソフトウェアでそれらを取り違えるとうまく表示できない,ということをご存知でしょう。 このことからもわかる通り,文字コードの正体は「文字をコンピュータの内部で扱うために0/1で表現したもの」というわけですが,文字コードの裏側には「符号化文字集合」と「符号化方式」という2つの概念
2024.01.12 ローカル環境でコード生成を使いたい 〜Continue+Llama.cpp+ELYZA-japanese-CodeLlamaを試してみた〜 ご覧頂きありがとうございます。グループ研究開発本部 AI 研究開発室の N.M.と申します。 ChatGPTをはじめAIに関する大きなムーブメントの起きた激動の2023年が終わり、2024年が始まりました。我々AI研究開発室も日々AI技術を追いかけています。昨年から話題になることの多いGitHub Copilotもその一つであり、特にコードの補完は非常に使い勝手もよく開発や解析のサポートに使うことができます。今回はなるべくローカルに閉じた状態で近しい環境が作れないか試してみたことを紹介します。最後までご覧いただければ幸いです。 TL;DR VSCodeのExtensionであるContinueとELYZA-japanese-Cod
TL;DR Geminiの有料プランGemini Advancedでは、5/14から100万トークンもの入力に対応したGemini 1.5 Proを提供開始、更に5/21からスプレッドシートをアップロードしてのデータ分析や可視化が可能になりました。これはPythonのコードを生成して実行するする機能です。 データ分析の性能としてはGemini AdvancedはChatGPT-4oとほぼ同等の性能でどんぐりの背比べ甲乙が付け難いです。Geminiの場合、Google Sheetsなどと連携でき、データの取り込みやエクスポートが容易です。一方のChatGPTは、可視化したグラフがより見やすい印象です。 しかし、Gemini AdvancedもChatGPT-4oも指示が曖昧では適切な集計ができないなど、データサイエンティストの視点から見ると、生成AIに任せきりでは不安な点が多く見受けられます
TL;DR OpenAIは、2024/05/13にGPT-4oをリリースしました。GPT-4oは、画像とテキスト、音声などを同時に処理することができるモデルで、従来よりも高速な実行が可能です。 GPT-4 Turbo with visionで行ったように、GPT-4oのAPIを利用してグラフの解説を試したところ、ある程度はもっともらしい解説は可能ですが、やはり正確な数値の読み取りなどには課題が残る結果となりました。 特にChatGPTでは、入力した画像だけではなく、既に学習済みの知識をカンニングしている可能性があります。ペンギンの性別や種のラベル、体重の数値を入れ替えた場合、これらの事前知識に影響されたと思われる回答が得られました。 はじめに こんにちは、グループ研究開発本部・AI研究室のT.I.です。先日5/13に、OpenAIは新しいGPT-4o(omni)をリリースしました。GPT-
D.M. です。 AI 搭載で話題の IDE である Cursor について、 GitHub Copilot と比べた場合の利点を掘り下げてみます。 結論ファースト ・現段階では一長一短。Cursor にしかない機能もあれば、 GitHub Copilotにしかない機能もある。 → 特に Cursor の Docs は独自機能(GitHub Cipolotにはない) ・両方併用できる。 ・Cursor のAI自動プログラミングスキルは既存の「GPT-4」と同等(ただ、モデルを変更できる) 簡単な単発バッチ処理は高速で実装できる。 複雑化すると100点は難しい。 現段階では、AIに全部書かせるのではなく、補助ツールとしてとらえるほうが効果的。 導入編:Cursorとは AI がプログラミングしてくれる時代 2022年11月にChatGPTが発表されて以降、 LLM は簡単なプログラミングが可
2023.10.05 請求書OCR自動化: Document AI + ChatGPT API で非構造化データを JSON で出力させる はじめに こんにちは。グループ研究開発本部 次世代システム研究室のT.D.Qです。 2023年10月よりインボイス制度が開始されます。この制度に対応するため、請求書のOCR自動化はますます重要となっています。今回は、ChatGPTとDocumentAIの力を結集し、インボイス制度への対応を加速する請求書OCR自動化の方法について探ってみたいと思います。 1.やりたいこと 目的: 非構造化データを OCR で取得して、指定の JSON 形式で出力させたい 使用する技術: OpenAIのChatGPT及びGoogleのDocumentAI 実現手段: DocumentAIで請求書(PDF形式)を読み取り ChatGPTでDocumentAIのレスポンスから
こんにちは、T.Y.です。並列分散処理のフレームワークであるSpark上で自然言語処理(Natural Language Processing, NLP)の様々なタスクを行いたい、特に、BERTやGPTなどのTransformerモデルの学習や推論を試したいという動機のもとでSpark NLPについて調べた内容をこちらのブログで解説します。環境構築の過程でSparkからGPUを使用するための手順や、SparkとGPUを利用する他の機械学習フレームワークについても紹介したいと思います。 目次 Summary クラスタ構成 Spark Rapids XGBoost4j-Spark-GPU Spark NLP ChatGPTとテストしてみる Fine-tuningについて Sample Model Spark NLP Displayによる可視化 Synapse ML 最後に 1. Summary
みなさんこんにちは、グループ研究開発本部 AI研究開発室のK.Fです。 これまで、Intel MacでVirtualBox + Vagrantを利用してCentOS 7の仮想(VM)環境を利用していたのですが、Apple Silicon MacにPCを乗り換えたので、代替方法がないか調査してみました。 結論 Ubuntu 22.04/aarch64 on multipass -> CentOS 7/x86_64 on vagrant + libvirt が最もよい 動作は少し遅いと感じることがあるが、x86_64をエミュレートしているので本番との環境差分が少なくなってうれしい 1. はじめに 筆者の環境 MacBook Pro 14 inch, M2 Pro, 32GB RAM MacOS Ventura 13.4.1 なるべくこれまで使ってきたVagrantfileを変更したくないので、
D.Mです。 ChatGPT を開発の現場で活かしていくためにベクターストア活用の方法を検証しました。 結論ファースト A. ベクターストアに入れる元ネタドキュメントの抽出 ⇒ unstructured が使えるかも B. ベクターストアに入れる元ネタドキュメントのチャンク分け ⇒ タイトル。キーワードをメタデータで付加 C. ベクターストアに投げる質問プロンプトの最適化 ⇒ 形態素またはキーワード抽出でプロンプトを精査 D. ベクターストア検索結果の精査 ⇒ ContextualCompressionRetriever による検索結果要約とDocumentCompressorPipeline による検索結果絞り込みがよさげ 「検索結果が質問に沿ったものか精査させる」タスクをChatGPTに担当してもらうことが私の業務課題には適しているのではという気付きがありました。 E. (おまけ)ベク
導入 こんにちは。グループ研究開発本部 次世代システム研究室のH.Oです。前回の記事ではフロントエンドの領域で大きく注目を浴びている二つの次世代バンドルツール、TurbopackとViteを紹介しました。今回はその続編として、前半で、この3ヶ月で最も大きい動きだったと言っていいVite4.3のリリースについて、後半では実際に自分の環境で実践したTurbopack、新旧Viteの比較検証結果を紹介し、さらに詳細に立ち入って考察していきたいと思います。 結論ファースト 2023年4月23日にVite v4.3がリリースされた。これによってViteのパフォーマンスの改善が実現し、TurbopackとViteの性能差はほぼなく、プロジェクトで導入するのであればViteを導入するのが自然な選択となっている。 Turbopack側では特にめぼしい動きが見られていない。 React×TypeScript
2023.05.29 推論し、行動するChatGPT(OpenAI API) Agentを作る – langchain ReAct Custom Agent基礎 – 次世代システム研究室のT.Sです。ここ数ヶ月の生成AIの進歩の凄まじさは皆感じていることとは思います。その中で私はReActというPromptingが気に入っており、これを実装しているlangchainを使って色々試しているところであります。 そこで今回はこの推論、行動しながら外部ツールと連携する手法であるReActについて簡単に紹介し、その上でこれを実装しているlangchainを使ったCustom Agentの簡単な実装方法についてご紹介したいと思います ReActとは? ReAct(Yao et al., 2022)とは、Prompting Engineeringの手法の一つで、LLMに推論と行動を提示させ、その行動を元
2023.03.31 Is Attention All You Need? Part 1 Transformer を超える(?)新モデルS4 Is Attention All You Need? こんにちは、グループ研究開発本部・AI研究室のT.I.です。“Attention Is All You Need”といって発表されたTransformer(とAttention Layer)は、驚異的なAIの性能改善をもたらしました。以来、自然言語処理(NLP)などの分野では、従来のRecurrent Neural Network(RNN)ではなく、Transformer-based modelがデファクトスタンダードとなり、その延長線上に今日のChat-GPTなどの高性能AIが生まれました。 Transformer とその改良版については、これまでのBlogで何度も紹介してきました(Reform
こんにちは。グループ研究開発本部 次世代システム研究室のH.Oです。 生産的なアプリケーション開発において欠かせないものの一つにフロントエンドのJavaScriptバンドルツールがあります。 これまで、長年に渡ってJavaScriptのバンドルツールはwebpackがデファクトスタンダードとなり、Next.jsやNuxt.jsなどフレームワークにもデフォルトで組み込まれていました。その高機能性と安定性から現在も多くのWebサービスで利用されています。 一方で近年、webpackに続く次世代バンドルツールの開発競争が大きな注目を集めています。その中で特にwebpackに取って代わる勢いを見せているものにViteとTurbopackがあります。これらは、開発するアプリケーションの肥大化に伴って処理が遅くなってしまうwebpackの問題点を解決することが主要目的となっています。 今回はViteと
OpenAI Chat completions APIを用いて,PingCAP社が提供する「Chat2Query」ライクな,AIによるSQL生成機能を持つMySQL Shellプラグインを実装するお話です。そこそこ良い感じのSQLを生成してくれるものができましたが,トークンが多くなりがちなので,その点は工夫が必要です。 こんにちは,S.T.です。巷で盛り上がっているChatGPTですが,OpenAIが提供するChat completions APIで同様の機能をアプリケーションから利用することが可能です。Pythonをはじめとするプログラミング言語のSDKから簡単にAPIを呼び出すことができるので,MySQL Shellに組み込んでみました。 1.Chat2Queryとは 実装をする前に,今回作成する機能と類似の機能を提供しているChat2Queryを軽く見ておきましょう。Chat2Que
D.M.です。Llamaindex で ChatGPT と連携した社内文書の QA ツールを構築した際にハマったことを書いていきます。 ChatGPT に追加でデータを与える課題へのアプローチ 今回やりたいこと つくったもの システム構成 ユースケース はじめに書いたソースコードLlamaindex 処理フロー Llamaindex チューニング課題 元ネタのテキストファイルをベクター検索のチャンクに収まるように意味の塊にする 課題1 ベクター検索の2番目のドキュメントが正解だったりする問題 課題2 複数のドキュメントを読ませると間違える確率が上がる問題 課題3 失敗している理由がよくわからない問題 課題4 ときおり英語で返してくる問題 課題5 OpenAI API がタイムアウトする問題 Tips1 ローカルファイルを小さくしたい Tips2 回答をもっと厳密にしたい ChatGPT に
こんにちは、T.Iです。最近、担当プロジェクトで少しずつクリーンアーキテクチャ化を行っています。今回はその設計についてお話しさせてください。 概要 設計について、ここではロジックの実装を行う部分とデータの保持を行うEntityに分けて説明します。 まずはロジックの実装を行う部分は以下のようにレイヤー分けて行います。構成は以下のようになっています。 レイヤーは大きく分けて「Repository」、「Service」、「Controller」の大きく3つに分かれます。これらの役割は以下のようになっています。 Repository 外部のデータの操作を行います。ここにデータベースや外部のAPIへのアクセスの実装を行います。 Service ここにビジネスロジックを実装します。しかし、外部データへのアクセスはここからは行わず、全てRepositoryを通して行うようにします。 Controller
はじめに こんにちは。次世代システム研究室のT.Tです。 GitHubからGPT-4ベースになったGitHub Copilot Xが発表されました。まだ機能リストやデモ画像しか確認できていないですが、コードのサジェスト機能はもちろん、プルリクエストの説明文を生成したりドキュメント内容に基づいて質問への回答を生成する機能等があるようで、開発者の業務をサポートする強力なツールになりそうです。GitHub Copilot Xではシステムを自然言語で表現する機能周りが充実しそうな印象があるので、開発したプログラムをどの程度自然言語で表現できるかを検証してみます。執筆時点でGitHub Copilot Xが入手できていないので、GPT-4をブラウザから利用できるChatGPT Plusを使って擬似的に体験した内容を紹介したいと思います。 1.AIによる開発現場での課題解決アプローチ The Futu
はじめに こんにちは。グループ研究開発本部 次世代システム研究室のT.D.Qです。 議事録作成に手間がかかるため、コア業務に集中できないと感じている方は多いでしょう。このような方におすすめなのがAIを活用した議事録の自動作成です。今回のブログでは、OpenAI社が開発したChatGPT APIとWhisperを使った音声ファイルの要約システムの構築を紹介したいと思います。 1.やりたいこと 目的: 音声ファイルの要約を自動化すること 使用する技術: OpenAIのChatGPTとWhisper 実現手段: Dockerで音声自動要約専用サーバーを構築 Flaskを利用して音声ファイルを処理するAPIを作成 Whisperで音声ファイルをテキストに変換 ChatGPT APIで要約を生成 要約テキストをユーザーに返却 2.環境構築 2-1.Whisperサーバー構築 Whisperとは、Op
2023.02.10 Seaborn Objects ~ グラフィックの文法で強化された Python 可視化ライブラリの新形態 ~ お久しぶりです。グループ研究開発本部・AI研究開発質の T.I. です。色々あって久しぶりの Blog となりました。今回は、趣向を変え、最近大幅に改良された Python のデータ可視化ライブラリである Seaborn の新しい機能を紹介します。昨年9月にリリースされたばかりということもあるのか、本邦どころか英語で検索しても解説資料は公式サイト以外はほぼ皆無(当方調べ)というレアな情報となります。 はじめに データ分析・機械学習などにおいて、データの様々な特徴を可視化しながらの調査・探索(Exploratory Data Analysis (EDA))は、対象の正確で深い理解には不可欠なアプローチと言えます。Python のデータ可視化ライブラリとしては、
こちらは【【ノーベル賞×実務】pythonで簡単配属分け【ゲーム理論】の続編シリーズとなっています。 次世代システム研究室のT.Sです。皆さん経済学って好きですか???エンジニアは理系卒の方も多く、文系科目である経済学にあまり馴染みがない方も多いのではないかと思います。ですので、好きか嫌いかと問われても「そもそも知らないよ・・・」という方も多いのではないでしょうか。しかし我々の周りでは経済学の知識を元に構築された仕組みなどが数多く存在しています。そこで今回はその一つであるオークション理論を紹介したいと思います オークション理論とは オークションというと何を思い浮かべますか?いわゆるクリスティーズ様のような美術品を扱う格式高いオークションハウスを想像される方もいらっしゃるかと思います。ただエンジニアという視点で考えるとそれ以外にも多くのオークションが存在しています。毎日目にするオークションと
2023.01.12 ChatGPTの学習データと学習方法が知りたい! 〜Q.埼玉県沖で採れるウニはいくらですか? A.ウニはいくらではない。〜 ウニはいくらですか? ウニはいくらじゃありません!!! みなさん、こんにちは。グループ研究開発本部、AI研究開発室のY.Tです。 先程の画像は、1ヶ月ほど前に公開され話題となっているChatGPTとお話ししてみた時の画像です。 文章としては、文法が崩壊しておらず、意味も通るとても自然な文章が生成されていますね。 しかし、単純な質問に見えて「埼玉県に海はない」「ウニはイクラではない」「”イクラ”か”幾ら”かで意味が変わる」などのバックグラウンド知識や文脈の高度な判断が、適切な解答のためには要求される質問に見事に引っ掛かっています。 これは、あくまで入力に対して尤もらしい出力を返すモデルであり、知識から論理的な回答をするモデルではないためです。 一方
はじめに こんにちは、グループ研究開発本部 AI研究開発室のC.Wです。去年の2022年は知識グラフに愛があり、あちこちにある非構造化データから知識グラフを構築できればさぞかし美しいのではないかと思い色々と試しました。 前回の記事では、Open Information Extraction(OIE)のNLP技術を利用してニュースデータの非構造テキストから知識グラフを構築することを試していて、それ以前ではCoreference Resolution + Named Entity Recognition(NER) + Relation Extraction(RE)等のハイブリッドなやり方で試していました。今日は一年の集約として、Hand onの内容ではなくこれまでの私の学びと問題と感じたところを整理して、これからこの道に挑戦する皆様の糧になれればと思います。 改めて知識グラフとは 知識グラフと
D.M.です。 AI とともにプログラミングをしてみた体験記です。 モチベーション 2022年11月、 ChatGPT が登場したことにより、今の学生は AI にレポートを書かせるというような話が普通に出るご時世になりました。 ChatGPT は例えばプログラミングのお題を投げると AI がかなり高精度なプログラムを書いてレスポンスしてくれたりします。この技術は将来的に Google 検索を脅かす存在になるのではというほどの注目を集めています。 ペアプログラマー Github Copilot よりプログラミングに特化した AI サービスとして、 GitHub Copilot があります(ギットハブ コパイロットと読む)。 2022年6月に正式リリースされています。 このツールには以下のような特徴があります。 ・ソースの流れやコメントに合わせて次に書くべきコードをサジェストしてくれる。 ・V
2023.01.11 Amazon Aurora MySQLでテーブル再構築を伴う操作をするとテーブルが見えなくなるっぽい Amazon Aurora MySQLでテーブルの再構築を伴う操作を行うと,Readerインスタンスで瞬間的に対象のテーブルが見えなくなる場合があるので,オペレーションの実行タイミングに気をけましょう,というお話です。再構築を伴う操作には,一部のALTER TABLEやOPTIMIZE TABLEが含まれます。 こんにちは,S.T.です。Amazon Aurora MySQLで少し気になる現象を見かけたので紹介します。この現象を知っていれば回避できるので,クリティカルな影響があるということではないですが,将来直ってくれると嬉しいですね。 1.Amazon Aurora MySQLとは Amazon Aurora MySQLはAWSで利用できるマネージドのRDBです。コ
こんにちは。次世代システム研究室のA.Z.です。 今回は最近話題になっている、確率モデル+深層ニューラルネットワーク(統合モデル)の一つのdiffusionモデルについて紹介したいと思います。 はじめに すでに、ご存知の方が多いかもしれませんが、最近話題になっている生成用の機械学習モデル、Stable DiffusionやDall-Eなど、性能が高い生成アルゴリズムやシステムにDiffusionモデルというコンセプトが採用されています。生成モデルとモデルといえば、最初に一番良く知られているのはGAN(Generative Adversarial Network)ですが、その後、他の有名な手法Variational Auto Encoder(VAE)も出てきました。Diffusion modelはVAEと同じく、確率グラフィカルモデル(Probabilistic Graphical Mode
はじめに 最近円安の進行で値動きが激しいですね。特に9月に円相場は、24年ぶりの円安水準となる1ドル=140円台前半まで下落しましたので、この状況で為替損益を常に監視したい方々が多くなるでしょう。今回はUSDJPYの為替レートを継続的にInfluxDBに格納し、Grafanaで為替損益を可視化するシステムの構築方法を紹介したいと思います。 ちなみに、為替レートの変動により生じた利益を為替差益、生じた損失を為替差損といいます。たとえば、米ドルを1ドル=105円のときに購入した後、為替レートが円安方向に動いて1ドル=120円となった場合、購入していたドルを円に交換すれば1ドルにつき15円の利益を得ることになり、これが為替差益となります。逆に、為替レートが円高に進んで1ドル=100円となった場合は1ドルにつき5円の損失をこうむることになり、これが為替差損となります。 1.やりたいこと Docke
こんにちは,S.T.です。今回は,お手軽かつ実際のワークロードに近い形でMySQLの負荷検証をする方法を考えます。お手軽にMySQLに負荷をかけるツールとしてmysqlslapがありますが,mysqlが実行するSQLはアプリケーションから実行するSQLとは性質が異なります。JOINなども絡めてアプリケーションが実行するSQLに近いSQLで負荷をかけられ,しかも簡単に実行できる,というものがあれば便利そうです。 1.mysqlslapとは mysqlslapは,MySQLの負荷をエミュレーションできるクライアントアプリケーションです。MySQLに接続して複数のクエリを実行し,その実行時間を計測することができるツールです。インストールも簡単で,たいていはLinuxディストリビューションのパッケージマネージャ経由でMySQLをインストールすると,一緒に入ってきます。実行も簡単で,いくつかのオプシ
こんにちは。次世代システム研究室のL.W.です。 今回はイーサリアムのL2ソリューションArbitrumを調査し、触ってみましたので、ここで共有します。 1.The Merge後のL2ソリューションについて 日本時間9月15日15:43頃、イーサリアムの大型アップグレードThe Mergeが実施されましたが、ブロックチェーンのコンセンサスアルゴリズムがPoWからPoSへ無事に移行しました。 出典:https://members.delphidigital.io/reports/the-complete-guide-to-rollups マージにより、イーサリアムのエネルギー消費が最大99.95%削減されました。 一方、気になるgas fee(ガス代、手数料)、tps (トランザクションスループット)、transaction finality(トランザクションの最終性、一度承認されたトランザ
次のページ
このページを最初にブックマークしてみませんか?
『GMOインターネットグループ株式会社採用TOP』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く