サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
参議院選挙2025
recruit.gmo.jp
1. はじめに 従来のコードレビューは、ファイル単位での個別分析に留まることが多く、Pull Request全体の包括的な理解が困難でした。GitHub Copilot Agent Mode は、この課題を根本的に解決する革新的なアプローチを提供します。 2. GitHub Copilot Agent Mode の革新性 GitHub Copilotは、開発者のコーディング作業を支援するAIペアプログラマーとして広く知られています。その中でも「Agent Mode」的な機能は、従来のCopilot Chatとは一線を画す革新的な能力を提供します。Agent Modeの最大の特徴は、複数のファイルを横断的に分析し、Pull Request全体を包括的にレビューできることです。単一ファイルの個別分析ではなく、プロジェクト全体のコンテキストを理解した上で、変更点の影響範囲や関連性を体系的に評価し
D.M.です。AIエージェント選定時の基準について解説します。 結論ファースト ・モデル+エージェントの性能評価 SWE-Bench Verified が妥当な指標なのではないでしょうか。 ・単純評価が難しい箇所1 UI・UXの違い IDE, Teminal, Cloud (Webブラウザ)の3種がある。 ・単純評価が難しい箇所2 コードベースの把握手法 インデックス型と構文解析型がある。 イントロダクション: AIエージェントの理解に障害となる課題 現状エージェントの数が多すぎる課題があると思います。 ざっと思いつくものを書いてみました。 GitHub Copilot Coding Agent Cursor Agent Mode Cline Windsurf Claude Code Codex Agent Devin Lovable … これら乱立する開発用AIエージェントツールをどのよ
1. はじめに こんにちは、次世代システム研究室のT.D.Qです。 デザインとコーディングの間にあるギャップを埋める新しいアプローチとして、FigmaでデザインされたウェブUIを自動的にHTML/CSSコードに変換する方法が注目されています。特に、オープンソースのFigma Context MCP(GLipsが公開)と、Visual Studio Code用AIエージェント拡張のRoo Codeを組み合わせることで、デザインからコーディングへのプロセスを大幅に効率化できます。 本記事では、FigmaでデザインされたウェブUIを、GLipsが提供する「Figma Context MCP」とVisual Studio Code拡張「Roo Code」を用いて、効率的かつ正確にHTML/CSSコードに変換・取り込む方法を解説します。 2. MCPとRoo Codeの概要 2-1. Roo Cod
TL;DR DeepSeekは、OpenAI-o1級の推論能力を持つ「DeepSeek-R1」を公開しました。DeepSeek-R1は、DeepSeek-V3-Baseを基に、複数回の教師あり学習と強化学習を組み合わせて学習したモデルで、パラメータ数は6710億にも及ぶオープンウェイトモデルです。さらに、知識蒸留した小型軽量モデルも6種類公開されています。 DeepSeek-R1の基盤となった「DeepSeek-V3-Base」はMixture-of-Expert構造とMulti-Head Latent Attentionを採用したモデルです。効率的な学習方法を導入したことで、2048基のH800 GPUを用いて、約2ヶ月弱という短期間で学習しました。これをファインチューニングした「DeepSeek-V3」は、GPT-4o級の性能を発揮しています。(このGPU利用費用は約560万ドルと試算
まとめ 大規模言語モデルを用いて将棋の棋譜解説を行うソースコード(デモ版)をgithubに公開しています 「①指し手と将棋エンジンの読み筋の差異を解説」「②これから最適手がどういうものかを述べる」という2つの観点で解説を行うことができます 今後の開発でより性能や汎用性を向上させていく見込みです。 はじめに AI研究開発室のM.S.です。今回は私の趣味である将棋(アマ二段程度の実力です。)とllmを組み合わせて棋譜の解説を試みます。 近年の機械学習や自然言語処理の飛躍的な進歩の中でも、チャット型の大規模言語モデル(LLM)は特に注目を浴びています。文章生成能力が格段に向上したことで、テキストベースのタスク——たとえば対話システムや文書要約などが大きく発展しました。ここでは、そのLLMの技術発展を「将棋」の領域にも活かせないかを模索する取り組みについて紹介します。 本編 棋譜から解説を生成する
1. はじめに こんにちは、次世代システム研究室のT.D.Qです。ビジネスでは、PDFや画像形式の請求書からデータを抽出する作業が頻繁に発生します。本記事では、Microsoftの「MarkItDown」ライブラリとOpenAIの「GPT-4o API」を活用し、効率的かつ正確に請求書データを解析・抽出できないか検証を解説します。 2. なぜMarkdown形式を選んだのか Markdown形式は、シンプルで軽量なマークアップ言語であり、様々なシステムでの互換性が高いことが特徴です。MicrosoftとMITの研究では、Markdown形式のプロンプトを使用することで、LLM(大規模言語モデル)の性能が向上することが示されています。この特性を活かし、請求書データの解析精度を向上させることを目指しました。 2-1. MarkItDownについて MarkItDownは、Microsoftが開
2024.09.27 OpenAI APIを使ってgit commitメッセージやコードレビューをAIに任せましょう! 次世代システム研究室の Y.I です。 OpenAI API を活用してちょっと便利なコマンドを作成したのでご紹介します。作成したものは、「自動Git Commitメッセージ生成」と「コードレビュー」機能です。LangChainやVectorDBなどを利用しなくても、発想次第で便利な機能を作れますので1例としてご覧ください。 機能紹介 Pythonで以下の機能を実現しています。 Git commitメッセージの自動生成 Gitの変更履歴に基づき、適切な日本語のcommitメッセージを生成します。 コードレビューの自動化 Gitの変更履歴に基づき、コードに問題がないかやパフォーマンス改善の提案を行います。 openai apiのtokenを環境変数から取り込み 簡易的ですが
2024.10.02 AWS Lambda で Headless Chromium と Puppeteer を用いた日本語対応 PDF 生成の実践ガイド はじめに グループ研究開発本部 次世代システム研究室のL.C.A(海外の出身)です。 最近、会社の業務でユーザー向けの PDF 文書を動的に作成する必要が出てきました。このようなニーズは、請求書やレポート、証明書などでもよく見られます。手作業を自動化することで多くの時間を節約することが可能です。 インターネット上には Headless Chromium を使用した PDF 作成に関する記事が数多くありますが、実際に実装する際には多くの課題がありました。この記事では、AWS Lambda 上で Headless Chromium と Puppeteer を用いて日本語対応の PDF 文書を生成する方法を詳しく解説し、実際に手順を示します。
TL;DR OpenAIは2024年10月1日に公開した新しいAPIの1つがVision Fine-tuningです。これはGPT-4oの画像認識能力を追加学習(ファインチューニング)できる新機能です。Vision Fine-tuning APIは、最低10枚の画像と期待する返答の学習データを準備するだけで、Web上で手軽に実行と検証が可能です。 今回、実験として美雲このはの画像を使ってキャラクターを認識させたり、問題のあるグラフの可視化を指摘させるなどの学習をさせて、期待通りの回答を得ることができました。なお、人物や顔、CAPTCHAなど利用規約に違反する画像は学習できない点に注意が必要です。 はじめに こんにちは、グループ研究開発本部・AI研究室のT.I.です。OpenAIでは、2024年10月1日に、いくつかの新しいAPIをリリースしました。今回のBlogでは、その1つであるvisi
2024.10.07 LangGraphでSelf RAGを構築し、RAGの回答精度をアップデートしよう。 導入 こんにちは。グループ研究開発本部 次世代システム研究室のH.Oです。今回もAIアプリケーション開発の話題をお届けしたいと思います。これまで数回にわたってLangChainを用いてLLMを組み込んだアプリケーション開発について発表してきました。今回は、RAG(検索拡張生成)の精度をさらに高める手法としてSelf RAGを取り上げ、Self RAGをLangChain ecosystemを用いて実装する方法について紹介します。グループ研究開発本部は、2024年9月26日に、「AI・LLM・ML基盤 – GMO次世代勉強会 2024秋【Online】」を開催させていただきましたが、今回の記事の内容は、私が当勉強会で発表させていただいた内容を元に、特にSelf RAGに関して、より詳し
こんにちは,S.T.です。MySQLの文字コード周りの紹介記事です。MySQLの実装や,ちょっと変わった化け方を解説しています。実際に何か問題が起きていて,理由を調べている方が検索から辿り着いた場合は,まずは「5.文字コードを間違えたときの挙動」を見るのが良いと思います。 1.符号化文字集合と符号化方式 MySQLの話をする前に,文字コードの話をしましょう。 多くの人がコンピュータで「文字」を扱う際に意識するのは「文字コード」です。この記事を読んでいる方の多くは「UTF-8」や「Shift-JIS」というキーワードと,ソフトウェアでそれらを取り違えるとうまく表示できない,ということをご存知でしょう。 このことからもわかる通り,文字コードの正体は「文字をコンピュータの内部で扱うために0/1で表現したもの」というわけですが,文字コードの裏側には「符号化文字集合」と「符号化方式」という2つの概念
釣り気味のタイトルですが,なかなか速いと思います。 少なくともLocal環境でちょっとしたアプリケーションで使うのには十分です。また,ベクトルと一緒に諸々のデータも格納できるので,ユースケースによっては「ドキュメントIDに紐づけて別のDBでデータの実体を管理する」ということをやらなくて良い,というのもメリットです。 1.Redisのベクトル類似度検索 高速なKVSとしてお馴染みのRedisですが,実はベクトル類似度検索も扱うことができます。といっても,Redisの本体でベクトル検索を行うわけではなく,拡張モジュールを使用します。 ベクトル検索をはじめとする拡張モジュールは,RedisStackに含まれていますので,これを使うと手軽に試すことが可能です。 昨今,ベクトルの類似度検索の需要がかなり高まっていると感じます。手元で実験的なアプリケーションを作るのにも,内々で使うちょっとしたツールを
1. はじめに こんにちは、グループ研究開発本部 次世代システム研究室のT.D.Qです。今回は、DeepSeek-Coder-V2とContinue.devを使用して、無料でGitHub Copilotのようなコーディング支援環境を構築する方法をご紹介します。GitHub Copilotは有料サービスですが、オープンソースのDeepSeek-Coder-V2とContinue.devを利用することで、同様の機能を無料で実現できます。 1. DeepSeek-Coder-V2の概要 DeepSeek-Coder-V2はコードインテリジェンスの限界を押し広げる強力なオープンソース言語モデルであり、一般的な言語スキルも強力に維持しています。その性能は、多くのコーディングおよび数学ベンチマークにおいて、GPT-4 Turboなどのクローズドソースモデルに匹敵するか、あるいはそれを上回ります。 De
2024.01.12 ローカル環境でコード生成を使いたい 〜Continue+Llama.cpp+ELYZA-japanese-CodeLlamaを試してみた〜 ご覧頂きありがとうございます。グループ研究開発本部 AI 研究開発室の N.M.と申します。 ChatGPTをはじめAIに関する大きなムーブメントの起きた激動の2023年が終わり、2024年が始まりました。我々AI研究開発室も日々AI技術を追いかけています。昨年から話題になることの多いGitHub Copilotもその一つであり、特にコードの補完は非常に使い勝手もよく開発や解析のサポートに使うことができます。今回はなるべくローカルに閉じた状態で近しい環境が作れないか試してみたことを紹介します。最後までご覧いただければ幸いです。 TL;DR VSCodeのExtensionであるContinueとELYZA-japanese-Cod
TL;DR Geminiの有料プランGemini Advancedでは、5/14から100万トークンもの入力に対応したGemini 1.5 Proを提供開始、更に5/21からスプレッドシートをアップロードしてのデータ分析や可視化が可能になりました。これはPythonのコードを生成して実行するする機能です。 データ分析の性能としてはGemini AdvancedはChatGPT-4oとほぼ同等の性能でどんぐりの背比べ甲乙が付け難いです。Geminiの場合、Google Sheetsなどと連携でき、データの取り込みやエクスポートが容易です。一方のChatGPTは、可視化したグラフがより見やすい印象です。 しかし、Gemini AdvancedもChatGPT-4oも指示が曖昧では適切な集計ができないなど、データサイエンティストの視点から見ると、生成AIに任せきりでは不安な点が多く見受けられます
TL;DR OpenAIは、2024/05/13にGPT-4oをリリースしました。GPT-4oは、画像とテキスト、音声などを同時に処理することができるモデルで、従来よりも高速な実行が可能です。 GPT-4 Turbo with visionで行ったように、GPT-4oのAPIを利用してグラフの解説を試したところ、ある程度はもっともらしい解説は可能ですが、やはり正確な数値の読み取りなどには課題が残る結果となりました。 特にChatGPTでは、入力した画像だけではなく、既に学習済みの知識をカンニングしている可能性があります。ペンギンの性別や種のラベル、体重の数値を入れ替えた場合、これらの事前知識に影響されたと思われる回答が得られました。 はじめに こんにちは、グループ研究開発本部・AI研究室のT.I.です。先日5/13に、OpenAIは新しいGPT-4o(omni)をリリースしました。GPT-
2024.03.11 Stable Diffusion 3: Stability AIの最新生成AIの技術解説 Multimodal Diffusion Transformer & Rectified Flow TL;DR Stability AIが2024/02/22に、新たなStable Diffusion 3のリリースを発表しましたが、early preview版で一般では利用できず、技術詳細も概要のみで詳細は不明でした。2024/03/05にStability AIは、ついにStable Diffusion 3のResearch Paperを公開しました。なお、Stable Diffusion 3のモデル自体は未公開のためまだ利用できません。 Stable Diffusion 3は、Multimodal Diffusion Transformer (MMDiT)とRectified
D.M. です。 AI 搭載で話題の IDE である Cursor について、 GitHub Copilot と比べた場合の利点を掘り下げてみます。 結論ファースト ・現段階では一長一短。Cursor にしかない機能もあれば、 GitHub Copilotにしかない機能もある。 → 特に Cursor の Docs は独自機能(GitHub Cipolotにはない) ・両方併用できる。 ・Cursor のAI自動プログラミングスキルは既存の「GPT-4」と同等(ただ、モデルを変更できる) 簡単な単発バッチ処理は高速で実装できる。 複雑化すると100点は難しい。 現段階では、AIに全部書かせるのではなく、補助ツールとしてとらえるほうが効果的。 導入編:Cursorとは AI がプログラミングしてくれる時代 2022年11月にChatGPTが発表されて以降、 LLM は簡単なプログラミングが可
社内勉強会では、弊社グループ会社の方が CodeRabbit の方を使っているよという共有を受けています。 現段階でそこまで大きな差はないようなので、私は GitHub Stars の数が多い PR Agent のほうに注目して説明していこうと思います。 Copilot Pull Request GitHub Copilot も同様の機能を開発・公開しています。 https://githubnext.com/projects/copilot-for-pull-requests すでにGitHub Copilot Enterprise ベータ にて提供が始まっています。 https://docs.github.com/ja/enterprise-cloud@latest/copilot/github-copilot-enterprise/copilot-pull-request-summar
2023.10.05 請求書OCR自動化: Document AI + ChatGPT API で非構造化データを JSON で出力させる はじめに こんにちは。グループ研究開発本部 次世代システム研究室のT.D.Qです。 2023年10月よりインボイス制度が開始されます。この制度に対応するため、請求書のOCR自動化はますます重要となっています。今回は、ChatGPTとDocumentAIの力を結集し、インボイス制度への対応を加速する請求書OCR自動化の方法について探ってみたいと思います。 1.やりたいこと 目的: 非構造化データを OCR で取得して、指定の JSON 形式で出力させたい 使用する技術: OpenAIのChatGPT及びGoogleのDocumentAI 実現手段: DocumentAIで請求書(PDF形式)を読み取り ChatGPTでDocumentAIのレスポンスから
こんにちは、T.Y.です。並列分散処理のフレームワークであるSpark上で自然言語処理(Natural Language Processing, NLP)の様々なタスクを行いたい、特に、BERTやGPTなどのTransformerモデルの学習や推論を試したいという動機のもとでSpark NLPについて調べた内容をこちらのブログで解説します。環境構築の過程でSparkからGPUを使用するための手順や、SparkとGPUを利用する他の機械学習フレームワークについても紹介したいと思います。 目次 Summary クラスタ構成 Spark Rapids XGBoost4j-Spark-GPU Spark NLP ChatGPTとテストしてみる Fine-tuningについて Sample Model Spark NLP Displayによる可視化 Synapse ML 最後に 1. Summary
2023.07.10 【LLMもStable Diffusionも】生成AI時代を生き抜く!格安クラウドGPU Vast.ai【すぐ動く】 どうも、PCパーツ好きなY.C.です。好きなんですがケチなので極力調べないようにして物欲を抱かないようにしていました。が、ここ最近ローカルでLLMを動かすロマンに耐えきれず、いっぱい調べてしまいました。今時の強いGPUってメモリ16GBとか24GBとかあるんですが、10万20万するんですよね。パーツ1個で20万て、節子、正気の沙汰やない。でも欲しい。そこで、クラウドGPUがお安く使えることに感動して、GPU欲を鎮めたいと思います。 例えば、A100というメモリ80GBで価格が200万円以上するすんごいGPUがあるんですが そんなA100 80GBを8台積んだインスタンスを借りてSSH接続した様子がこれです。いったいいくらするんだ… ええ…やっす……個人
みなさんこんにちは、グループ研究開発本部 AI研究開発室のK.Fです。 これまで、Intel MacでVirtualBox + Vagrantを利用してCentOS 7の仮想(VM)環境を利用していたのですが、Apple Silicon MacにPCを乗り換えたので、代替方法がないか調査してみました。 結論 Ubuntu 22.04/aarch64 on multipass -> CentOS 7/x86_64 on vagrant + libvirt が最もよい 動作は少し遅いと感じることがあるが、x86_64をエミュレートしているので本番との環境差分が少なくなってうれしい 1. はじめに 筆者の環境 MacBook Pro 14 inch, M2 Pro, 32GB RAM MacOS Ventura 13.4.1 なるべくこれまで使ってきたVagrantfileを変更したくないので、
D.Mです。 ChatGPT を開発の現場で活かしていくためにベクターストア活用の方法を検証しました。 結論ファースト A. ベクターストアに入れる元ネタドキュメントの抽出 ⇒ unstructured が使えるかも B. ベクターストアに入れる元ネタドキュメントのチャンク分け ⇒ タイトル。キーワードをメタデータで付加 C. ベクターストアに投げる質問プロンプトの最適化 ⇒ 形態素またはキーワード抽出でプロンプトを精査 D. ベクターストア検索結果の精査 ⇒ ContextualCompressionRetriever による検索結果要約とDocumentCompressorPipeline による検索結果絞り込みがよさげ 「検索結果が質問に沿ったものか精査させる」タスクをChatGPTに担当してもらうことが私の業務課題には適しているのではという気付きがありました。 E. (おまけ)ベク
導入 こんにちは。グループ研究開発本部 次世代システム研究室のH.Oです。前回の記事ではフロントエンドの領域で大きく注目を浴びている二つの次世代バンドルツール、TurbopackとViteを紹介しました。今回はその続編として、前半で、この3ヶ月で最も大きい動きだったと言っていいVite4.3のリリースについて、後半では実際に自分の環境で実践したTurbopack、新旧Viteの比較検証結果を紹介し、さらに詳細に立ち入って考察していきたいと思います。 結論ファースト 2023年4月23日にVite v4.3がリリースされた。これによってViteのパフォーマンスの改善が実現し、TurbopackとViteの性能差はほぼなく、プロジェクトで導入するのであればViteを導入するのが自然な選択となっている。 Turbopack側では特にめぼしい動きが見られていない。 React×TypeScript
2023.05.29 推論し、行動するChatGPT(OpenAI API) Agentを作る – langchain ReAct Custom Agent基礎 – 次世代システム研究室のT.Sです。ここ数ヶ月の生成AIの進歩の凄まじさは皆感じていることとは思います。その中で私はReActというPromptingが気に入っており、これを実装しているlangchainを使って色々試しているところであります。 そこで今回はこの推論、行動しながら外部ツールと連携する手法であるReActについて簡単に紹介し、その上でこれを実装しているlangchainを使ったCustom Agentの簡単な実装方法についてご紹介したいと思います ReActとは? ReAct(Yao et al., 2022)とは、Prompting Engineeringの手法の一つで、LLMに推論と行動を提示させ、その行動を元
2023.03.31 Is Attention All You Need? Part 1 Transformer を超える(?)新モデルS4 Is Attention All You Need? こんにちは、グループ研究開発本部・AI研究室のT.I.です。“Attention Is All You Need”といって発表されたTransformer(とAttention Layer)は、驚異的なAIの性能改善をもたらしました。以来、自然言語処理(NLP)などの分野では、従来のRecurrent Neural Network(RNN)ではなく、Transformer-based modelがデファクトスタンダードとなり、その延長線上に今日のChat-GPTなどの高性能AIが生まれました。 Transformer とその改良版については、これまでのBlogで何度も紹介してきました(Reform
こんにちは。グループ研究開発本部 次世代システム研究室のH.Oです。 生産的なアプリケーション開発において欠かせないものの一つにフロントエンドのJavaScriptバンドルツールがあります。 これまで、長年に渡ってJavaScriptのバンドルツールはwebpackがデファクトスタンダードとなり、Next.jsやNuxt.jsなどフレームワークにもデフォルトで組み込まれていました。その高機能性と安定性から現在も多くのWebサービスで利用されています。 一方で近年、webpackに続く次世代バンドルツールの開発競争が大きな注目を集めています。その中で特にwebpackに取って代わる勢いを見せているものにViteとTurbopackがあります。これらは、開発するアプリケーションの肥大化に伴って処理が遅くなってしまうwebpackの問題点を解決することが主要目的となっています。 今回はViteと
OpenAI Chat completions APIを用いて,PingCAP社が提供する「Chat2Query」ライクな,AIによるSQL生成機能を持つMySQL Shellプラグインを実装するお話です。そこそこ良い感じのSQLを生成してくれるものができましたが,トークンが多くなりがちなので,その点は工夫が必要です。 こんにちは,S.T.です。巷で盛り上がっているChatGPTですが,OpenAIが提供するChat completions APIで同様の機能をアプリケーションから利用することが可能です。Pythonをはじめとするプログラミング言語のSDKから簡単にAPIを呼び出すことができるので,MySQL Shellに組み込んでみました。 1.Chat2Queryとは 実装をする前に,今回作成する機能と類似の機能を提供しているChat2Queryを軽く見ておきましょう。Chat2Que
次のページ
このページを最初にブックマークしてみませんか?
『GMOインターネットグループ株式会社採用TOP』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く