並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 108件

新着順 人気順

computer use openai githubの検索結果1 - 40 件 / 108件

  • 2024年生成AIの進歩まとめ

    こんにちは!逆瀬川 ( https://x.com/gyakuse ) です! 生成AI Advent Calendar 2024の記事を書くの忘れていたので、現時点での生成等AIの進歩をまとめてみました!今日はAIがいまなにできんの?ってこと聞かれたときにこれできるよ!って教えるためのメモとして活用してください!また、生成AIプロダクト Advent Calendar 2024というのもソロでやっています。このカレンダーではLLMの基礎理論からModelのFine-Tuning、プロダクト開発等をまとめています。ぜひこちらも見てください! 未来を感じる技術の進歩 動画生成では、Veo2 や Sora が登場しました。 インタラクティブな動画生成では、Genie2 (WASDと方向キーで操作可能な世界モデル)が非常に革新的な進歩を遂げています (振り返っても一貫性を保つ長期性が本当にすごい

      2024年生成AIの進歩まとめ
    • ClineとAIコーディングツールの現状 - laiso

      はじめに 近年、AIを活用したコーディングツールが急速に発展し、プログラマーの生産性向上や開発プロセスの効率化に大きな影響を与えつつあります。これらのツールは、コード補完、チャットアシスタント、コーディングエージェントなど、様々な形態で提供されており、プログラマーの作業をサポートしています。 その中でも、オープンソースのコーディングエージェントである「Cline」は、独特のポジションと活発なコミュニティによって注目を集めています。 本記事では、Clineを中心に、現在のAIコーディングツールの動向を探ります。Clineの特徴や利点、そして他のツールとの比較を通じて、AIコーディングツールの現状について考察します。また、Clineのアーキテクチャや実用面、コミュニティの動向についても解説します。 AIコーディングツールは、特に個人のプログラミングの世界に大きな変革をもたらしつつあります。本記

        ClineとAIコーディングツールの現状 - laiso
      • 女子大生が100日連続で生成AIで100本のプログラムを書いたらどうなったか?

        ボードゲームやアクションゲーム、各種ツールやシミュレーションなどさまざまなソフトが100日間に作られた いままで数えきれないほどのプログラマーに会ってインタビューもさせてもらってきたが、久しぶりに若いプログラマーの話を聞いてきた。ここ1、2年では U22グランプリの男子中学生や全国小中学生プログラミング大会の受賞者たちだが、今回は、ChatGPTを使ってプログラムを書きまくった女子大生である。 彼女は X(Twitter)の自分のアカウントで1日1本のソフトを100日間連続で作るというイベントをやっていて「おっ、頑張っているな!」と思って応援していた。「こんなゲームを作ってほしい」などとリクエストを出したりもしていたのだが、どうも私が想像していたものと内容もやり方も違っていたようである。 目下、ソフトウェア産業の最大のテーマは「我々は人間の言葉でプログラムを書くようになるだろうか」というこ

          女子大生が100日連続で生成AIで100本のプログラムを書いたらどうなったか?
        • AI駆動開発ツール:コーディングエージェントとTextToAppまとめ(2025年9月版)

          アプリケーション開発の生産性向上において、AIによるプログラミング支援ツールやサービスは欠かせないものになろうとしていますが、一方でこの分野にはさまざまなベンダから新製品やサービスが続々と投入され続けており、その全体像を把握するのが難しくなっています。 そこで、この記事では現時点でAIを活用したプログラミング支援ツールやサービス、いわゆる「AI駆動開発ツール」の主なものを一覧にまとめました。 本記事は「コーディングアシスタントツールまとめ」編と「コーディングエージェント/TextToAppまとめ」編の2つに分かれています。いまお読みの記事は「コーディングエージェントとTextToAppまとめ」です。 コーディングエージェントとは 人間が自然言語で設定したタスクを基に、AIが主導してコーディングを行うサービスやツールを、ここではコーディングエージェントに分類しています。 多くのツールは、コー

            AI駆動開発ツール:コーディングエージェントとTextToAppまとめ(2025年9月版)
          • GPT-5-Codex Prompting Guide | OpenAI Cookbook

            This guide can also be used for GPT-5.1-Codex and GPT-5.1-Codex-Mini, we recommend to keep the same prompts and harness for GPT-5.1-Codex and GPT-5.1-Codex-Mini as GPT-5-Codex Important details about GPT-5-Codex and this guide: This model is not a drop-in replacement for GPT-5, as it requires significantly different prompting. This model is only supported with the Responses API and does not suppor

              GPT-5-Codex Prompting Guide | OpenAI Cookbook
            • OpenAIのBatch APIを使ってお得にプロンプトを一括処理してみる - Taste of Tech Topics

              はじめに こんにちは。データサイエンスチームYAMALEXのSsk1029Takashiです。 最近はOpenAIに日本支社が出来て、日本語対応が加速するというニュースにわくわくしています。 今回はそんなOpenAIから発表されたBatch APIという機能が便利、かつお得な機能だったのでどのように使えるのか試してみます。 Introducing the Batch API: save costs and get higher rate limits on async tasks (such as summarization, translation, and image classification). Just upload a file of bulk requests, receive results within 24 hours, and get 50% off API pri

                OpenAIのBatch APIを使ってお得にプロンプトを一括処理してみる - Taste of Tech Topics
              • Microsoft Build 2025の新発表まとめ【30選】

                はじめまして、ますみです! 株式会社Galirage(ガリレージ)という「生成AIに特化して、システム開発・アドバイザリー支援・研修支援をしているIT企業」で、代表をしております^^ この記事では、Microsoft Build 2025の発表内容をまとめていきたいと思います🎉 もしも現地で参加している方は、ぜひ会場で見かけたらお声がけいただけたら嬉しいです^^ ちなみに、現地のKeynoteの会場の雰囲気はこんな感じでした!!! イントロダクション まず、CEOのサティア・ナデラさんは、Building the open agentic web という世界観を発表しました! このフレーズは、Build 2025の重要なテーマであり、この後の最新発表につながっています! さらに、以下のDeveloper tools と 次の4段階のレイヤーに分類をして、これ以降の発表をしていきます。 A

                  Microsoft Build 2025の新発表まとめ【30選】
                • Code Interpreter API

                  Editor's Note: This is another installation of our guest blog posts highlighting interesting and novel use cases. This blog is written by Shroominic who built an open source implementation of the ChatGPT Code Interpreter. Important Links: GitHub RepoIn the world of open-source software, there are always exciting developments. Today, I am thrilled to announce a new project that I have been working

                    Code Interpreter API
                  • 2024年生成AIエージェントのおすすめ論文 16選 - 襖からキリン

                    こんにちは! AIエージェントに一年を捧げた太田(https://x.com/ottamm_190)です。 年末のエージェント記事の第四弾です。 第一弾→ Weekly AI Agent News!から見えたAIエージェントの現在地 - 襖からキリン 第二弾→ AIエージェントビジネスの現状と今後の考察 - 襖からキリン 第三弾→ 生成AIエージェントが刺さる業務課題を探そう! - 襖からキリン 今年のWeekly AI Agents News!を更新し続けて個人的に学びがあった論文を紹介します。 特に研究者よりかはビジネス層やエンジニア層に読んで学びがありそうなのを満遍なく16本紹介します。 キリ良く15本には削れなかったですね。はい。 読者層は真ん中 ぜひ、年末にお手元の生成AIを使って読んでみてください。 質問例も載せておきます。(生成結果は確認していませんが、当時聞いたような記憶も

                      2024年生成AIエージェントのおすすめ論文 16選 - 襖からキリン
                    • GitHub - modelcontextprotocol/servers: Model Context Protocol Servers

                      Official integrations are maintained by companies building production ready MCP servers for their platforms. 21st.dev Magic - Create crafted UI components inspired by the best 21st.dev design engineers. 2slides - An MCP server that provides tools to convert content into slides/PPT/presentation or generate slides/PPT/presentation with user intention. ActionKit by Paragon - Connect to 130+ SaaS inte

                        GitHub - modelcontextprotocol/servers: Model Context Protocol Servers
                      • AI破産を防ぐために - LLM API利用におけるEconomic DoSのリスクと対策 - GMO Flatt Security Blog

                        はじめに こんにちは、GMO Flatt Security株式会社セキュリティエンジニアの松井(@ryotaromosao)です。 近年、LLM(大規模言語モデル)が目覚ましい進化を遂げており、それを利用したLLMアプリケーションが急速に増加しています。特に、AIチャット機能やエージェント機能が既存のサービスに搭載されるのを目にする機会も多いと思います。 しかしながら、LLM APIを用いたアプリケーションを提供する事業者にとって、「高額なAPIの利用料金を請求されたらどうしよう」という不安は大きいのではないでしょうか。 私も自社開発のセキュリティ診断AIエージェントのTakumiを使って脆弱性診断やリサーチ活動をしていますが、そのLLM APIの利用料金にはいつもビクビクしています。 まだ最適化が為されていなかった、Takumiの開発中の話ではありますが、脆弱性のリサーチ中に「このリポジ

                          AI破産を防ぐために - LLM API利用におけるEconomic DoSのリスクと対策 - GMO Flatt Security Blog
                        • GPT-5.4が来た: Codexで1Mコンテキストを有効にする方法と他モデルとの比較

                          こんにちは!逆瀬川 (@gyakuse) ちゃんです 今日はOpenAIから本日リリースされたGPT-5.4について、Codexリポジトリのソースコードから読み取れるinstructionsの進化、1Mコンテキストウィンドウの有効化方法、そして他モデルとのベンチマーク比較をまとめていきたいと思います。 GPT-5.4の概要 GPT-5.4は2026年3月6日(日本時間)にリリースされたOpenAIの最新フロンティアモデルです。ChatGPT(GPT-5.4 Thinking として)、API、Codexの3つのプラットフォームで利用できます。 ポジショニングとしてはGPT-5.3-Codexのコーディング能力をベースに、知識ワーク・コンピュータ操作・ツール利用を大幅に強化した統合モデルです。公式ブログでは「our most capable and efficient frontier mo

                            GPT-5.4が来た: Codexで1Mコンテキストを有効にする方法と他モデルとの比較
                          • コマンド不要でLLMのダウンロードから会話までを実行できる無料チャットAIアプリ「Jan」を使ってみた

                            「Jan」は、大規模言語モデル(LLM)のダウンロードからローカルで動作させて実際にチャットするまでの流れをすべてGUIで実行できるアプリです。便利そうだったので、実際にPCにJanをインストールしてLLMとチャットするまでの手順を確かめてみました。 Jan | Rethink the Computer https://jan.ai/ JanはLLMをダウンロードしてローカルで実行するアプリです。LLMとサクサク会話するには、NVIDIA製GPUを搭載マシンかAppleシリコン搭載Macの使用が推奨されています。今回はGeForce RTX 3090を搭載したWindowsマシンで動作させてみます。 まずは以下のリンクをクリックしてJanのダウンロードページにアクセスします。 Download | Jan | Rethink the Computer https://jan.ai/down

                              コマンド不要でLLMのダウンロードから会話までを実行できる無料チャットAIアプリ「Jan」を使ってみた
                            • ChatGPTのセキュリティへの影響 | Cloud Security Alliance Japan

                              © Copyright 2023, Cloud Security Alliance.All rights reserved. 1 Acknowledgements Authors: Kurt Seifried Sean Heide Bogdan Filip Vishwa Manral Lars Ruddigkeit Walter Dula Eric E. Cohen Billy Toney Supro Ghose Marina Bregkou Additional Staff: Stephen Lumpe (Cover illustration, with assistance from Midjourney) This is a Release Candidate version and is subject to change. © 2023 Cloud Security Allian

                              • Computer-Using Agent の概要|npaka

                                以下の記事が面白かったので、簡単にまとめました。 ・Computer-Using Agent 1. Computer-Using Agent「Computer-Using Agent」(CUA) は、「GPT-4o」の視覚機能と強化学習による高度な推論機能を組み合わせたモデルです。人間と同じように、画面に表示されるボタン、メニュー、テキスト フィールドなどのグラフィカル ユーザー インターフェイス (GUI) を操作するように学習されています。これにより、OSやWeb固有のAPIを使用せずにデジタルタスクを柔軟に実行できます。 「CUA」は、マルチモーダル理解と推論の交差点における長年の基礎研究を基に構築されています。高度なGUI認識と構造化された問題解決を組み合わせることで、タスクを複数のステップの計画に分割し、問題が発生した場合に適応的に自己修正することができます。この機能はAI開発の

                                  Computer-Using Agent の概要|npaka
                                • What We Learned from a Year of Building with LLMs (Part I)

                                  It’s an exciting time to build with large language models (LLMs). Over the past year, LLMs have become “good enough” for real-world applications. The pace of improvements in LLMs, coupled with a parade of demos on social media, will fuel an estimated $200B investment in AI by 2025. LLMs are also broadly accessible, allowing everyone, not just ML engineers and scientists, to build intelligence into

                                    What We Learned from a Year of Building with LLMs (Part I)
                                  • Announcing a free GitHub Copilot for VS Code

                                    December 18, 2024 by Burke Holland, @burkeholland We're excited to announce an all new free plan for GitHub Copilot, available for everyone today in VS Code. All you need is a GitHub account. No trial. No subscription. No credit card required. Enable GitHub Copilot Free You can click on the link above or just enable GitHub Copilot right from within VS Code like so... With GitHub Copilot Free you g

                                      Announcing a free GitHub Copilot for VS Code
                                    • 投資家IPランドスケープ・スタートアップ支援IPランドスケープ・大学支援用に改良中 更新中)tfidf etc embeddings cluster reconstructing vis: 特許など長文の、動的な文章間類似俯瞰図可視化・迅速閲覧・解析・探索手段。および第三の特許検索手法、動的な知識抽出管理手法、特許自動生成 (類似度ベクトルと小規模言語モデル及びChatGPTを用いた空白領域における特許生成追加) - Qiita

                                      Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? 投資家IPランドスケープ・スタートアップ支援IPランドスケープ・大学支援用に改良中 更新中)tfidf etc embeddings cluster reconstructing vis: 特許など長文の、動的な文章間類似俯瞰図可視化・迅速閲覧・解析・探索手段。および第三の特許検索手法、動的な知識抽出管理手法、特許自動生成 (類似度ベクトルと小規模言語モデル及びChatGPTを用いた空白領域における特許生成追加)自然言語処理NLP可視化Visualization特許 これは何 複数の特許等の文章を「特定の母集団における互いの類似度」を元

                                        投資家IPランドスケープ・スタートアップ支援IPランドスケープ・大学支援用に改良中 更新中)tfidf etc embeddings cluster reconstructing vis: 特許など長文の、動的な文章間類似俯瞰図可視化・迅速閲覧・解析・探索手段。および第三の特許検索手法、動的な知識抽出管理手法、特許自動生成 (類似度ベクトルと小規模言語モデル及びChatGPTを用いた空白領域における特許生成追加) - Qiita
                                      • 2025: The year in LLMs

                                        31st December 2025 This is the third in my annual series reviewing everything that happened in the LLM space over the past 12 months. For previous years see Stuff we figured out about AI in 2023 and Things we learned about LLMs in 2024. It’s been a year filled with a lot of different trends. The year of “reasoning” The year of agents The year of coding agents and Claude Code The year of LLMs on th

                                          2025: The year in LLMs
                                        • Things we learned about LLMs in 2024

                                          31st December 2024 A lot has happened in the world of Large Language Models over the course of 2024. Here’s a review of things we figured out about the field in the past twelve months, plus my attempt at identifying key themes and pivotal moments. This is a sequel to my review of 2023. In this article: The GPT-4 barrier was comprehensively broken Some of those GPT-4 models run on my laptop LLM pri

                                            Things we learned about LLMs in 2024
                                          • Who needs GitHub Copilot when you roll your own

                                            Who needs GitHub Copilot when you can roll your own AI code assistant at home Hands on Code assistants have gained considerable attention as an early use case for generative AI – especially following the launch of Microsoft's GitHub Copilot. But, if you don't relish the idea of letting Microsoft loose on your code or paying $10/month for the privilege, you can always build your own. While Microsof

                                              Who needs GitHub Copilot when you roll your own
                                            • AIのOS操作能力を 評価するベンチマーク「OSWorld」

                                              昨年からAIによるコンピュータ操作が現実のものとなってきています。AnthropicのComputer UseやOpenAIのOperatorなど、AIが直接ブラウザやアプリケーションを操作する機能が登場し、注目を集めています。このような背景から、AIのOS操作能力を客観的に評価する方法として「OSWorld」がベンチマークの一つとなってきています。 OSWorldは、画像認識と言語理解を組み合わせたマルチモーダルAIの能力を測定するためのベンチマーク環境です。実際のパソコン環境でのファイル整理、アプリケーションの使用、データ入力といった基本的な作業をAIがどの程度自然に処理できるかを評価します。 詳細情報は公式サイトから確認できます。論文の情報はこちらで参照でき、概要を分かりやすく説明したスライドドキュメントはこちらで閲覧できます。スライドドキュメントは英語にはなりますが分かりやすい内容

                                              • Open challenges in LLM research

                                                [LinkedIn discussion, Twitter thread] Never before in my life had I seen so many smart people working on the same goal: making LLMs better. After talking to many people working in both industry and academia, I noticed the 10 major research directions that emerged. The first two directions, hallucinations and context learning, are probably the most talked about today. I’m the most excited about num

                                                  Open challenges in LLM research
                                                • Wasm-agents: AI agents running in your browser

                                                  One of the main barriers to a wider adoption and experimentation with open-source agents is the dependency on extra tools and frameworks that need to be installed before the agents can be run. In this post, we introduce the Wasm agents blueprint, aimed at showing how to write agents as HTML files, which can just be opened and run in a browser, without the need for any extra dependencies. This is s

                                                    Wasm-agents: AI agents running in your browser
                                                  • AIエージェントビジネスの現状と今後の考察 - 襖からキリン

                                                    こんにちは!年末記事の第二弾、AIエージェントに関するビジネス記事になります。 現状のエージェントはどうなっているのか、今後エージェントを始める方が参考になるように説明します。 第一弾の記事は既に公開されています。 Weekly AI Agent News!から見えたAIエージェントの現在地 - 襖からキリン 私が公開しているWeekly AI Agent News!や論文のリポジトリはこちらです。 speakerdeck.com github.com AIエージェントに取り組む人材とは? 企業のAIエージェントの状況 現状の主力エージェント製品を解説 エージェントビルダー リサーチ、問い合わせ対応 データに基づく意思決定支援 様々なソースから資料作成 Agentic Process Automation これからのエージェントを考える 生成AIエージェントと業務ソフトウェアの結びつきが強

                                                      AIエージェントビジネスの現状と今後の考察 - 襖からキリン
                                                    • OpenAI、「Codex」刷新 PCの直接操作に対応し汎用作業エージェントへ

                                                      米OpenAIは4月16日(現地時間)、コーディングエージェント「Codex」の大幅アップデートを発表した。今回の更新では、従来のコード生成支援にとどまらず、PC操作や外部ツール連携などを含めた「汎用作業エージェント」としての機能強化が図られている。 最も大きな変更点は、ユーザーのPC上のアプリを直接操作できる「computer use」機能の導入だ。Codexは画面を認識し、自らカーソル操作や入力を行い、アプリの起動や操作を実行できるようになった。さらに複数のエージェントを並列で動作させることも可能で、ユーザーの作業を妨げずにバックグラウンドでタスクを進められる。これにより、APIが用意されていないアプリやフロントエンドのテスト作業などにも対応できるようになる。 Webや各種ツールとの連携も大幅に強化された。アプリ内ブラウザを備え、Webページ上に直接コメントして指示を与えられるほか、J

                                                        OpenAI、「Codex」刷新 PCの直接操作に対応し汎用作業エージェントへ
                                                      • 今話題のMCPを使って確定申告をラクにしてみた - Qiita

                                                        Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? 確定申告RTA 2025:税理くんの開発日記 あ、ナルほど!ナル先生です。 年が明けたら、また来ましたね確定申告の季節。毎年やってますが、この季節になるといつも「どうにかラクにできないか?」って考えてました。 というわけで今年は思い切って『確定申告RTA』に挑戦してみてますw 今年の申告期限は3月17日(月)。普段はギリギリで焦る派だけど、今回は珍しく余裕アリ!この余裕を活かして、AIを使った自動化を色々試してみました。 とりあえずChatGPTに聞いてみた まずは軽くChatGPTに質問を投げてみました。 ぶっちゃけ「適当な返事が返っ

                                                          今話題のMCPを使って確定申告をラクにしてみた - Qiita
                                                        • Patterns for Building LLM-based Systems & Products

                                                          Patterns for Building LLM-based Systems & Products [ llm engineering production 🔥 ] · 66 min read Discussions on HackerNews, Twitter, and LinkedIn “There is a large class of problems that are easy to imagine and build demos for, but extremely hard to make products out of. For example, self-driving: It’s easy to demo a car self-driving around a block, but making it into a product takes a decade.”

                                                            Patterns for Building LLM-based Systems & Products
                                                          • Claude Code is the Inflection Point

                                                            4% of GitHub public commits are being authored by Claude Code right now. At the current trajectory, we believe that Claude Code will be 20%+ of all daily commits by the end of 2026. While you blinked, AI consumed all of software development. Our sister publication Fabricated Knowledge described software like linear TV during the rise of the internet and thinks that the rise of Claude Code is going

                                                              Claude Code is the Inflection Point
                                                            • The economic potential of generative AI: The next productivity frontier

                                                              The economic potential of generative AI: The next productivity frontier Generative AI is poised to unleash the next wave of productivity. We take a first look at where business value could accrue and the potential impacts on the workforce. AI has permeated our lives incrementally, through everything from the tech powering our smartphones to autonomous-driving features on cars to the tools retailer

                                                                The economic potential of generative AI: The next productivity frontier
                                                              • Letter to Arc members 2025

                                                                Untitled (to a man, George McGovern) 2, Dan Flavin. Dia Beacon, 2024.Dear Arc members,You’re probably wondering what happened. One day we were all-in on Arc. Then, seemingly out of nowhere, we started building something new: Dia. From the outside, this pivot might look abrupt. Arc had real momentum. People loved it. But inside, the decision was slower and more deliberate than it may seem. So I wan

                                                                  Letter to Arc members 2025
                                                                • Glarity ChatGPT: Summary & Translate AnyPage - Chrome Web Store

                                                                  Summarize YouTube videos, web pages, and translate text with ChatGPT, helping you read and write in your mother tongue, all for free Glarity : an open-source ChatGPT Summary extension for YouTube, Google, Twitter, and any webpage. It provides cross-language summaries to effortlessly summarize videos, searches, PDFs, emails, and webpages. It supports free side-by-side translations, email writing as

                                                                    Glarity ChatGPT: Summary & Translate AnyPage - Chrome Web Store
                                                                  • 🎙️ MacWhisper

                                                                    Quickly and easily transcribe audio files into text with OpenAI's state-of-the-art transcription technology Whisper as well as Nvidia Parakeet. Whether you're recording a meeting, lecture, or other important audio, MacWhisper quickly and accurately transcribes your audio files into text. 📲 MacWhisper is now also available on iPhone and iPad, download it here. 🎁 Get 5 euros off in January by clic

                                                                      🎙️ MacWhisper
                                                                    • Anthropic Computer Useはどうやって実現されているのか? - laiso

                                                                      答え:スクショからシェルのコマンドに渡す値を生成する # 開発者が実装する! await asyncio.create_subprocess_shell("xdotool mousedown 1 mousemove --sync 750 738 mouseup 1") 🤖「ヨシ!」 さらに詳しく さらに詳しく Anthropic Computer Use の概要 実装例と使用方法 VNC サーバーと NoVNC を使用した接続 送受信フロー 送信 受信 computer_20241022 ツールの例: コード例: text_editor_20241022 ツールの例: bash_20241022 ツールの例: 結果の保存 スクリーンショットの base64: コード例: 処理とループ ループ内でのスクリーンショット取得 タスクを完了したと判断する基準 その後の処理 具体的な処理の流れの例

                                                                        Anthropic Computer Useはどうやって実現されているのか? - laiso
                                                                      • How Microsoft’s bet on Azure unlocked an AI revolution  - Source

                                                                        About five years ago, artificial intelligence research organization OpenAI pitched Microsoft on a bold idea that it could build AI systems that would forever change how people interact with computers. At the time, nobody knew it would mean AI systems that create pictures of whatever people describe in plain language or a chatbot to write rap lyrics, draft emails and plan entire menus based on a ha

                                                                          How Microsoft’s bet on Azure unlocked an AI revolution  - Source
                                                                        • cuTile Pythonで始めるGPUプログラミング & 倍精度行列積(DGEMM)エミュレーションを実装してみた。 - Insight Edge Tech Blog

                                                                          こんにちは、Insight Edgeでデータサイエンティストをしている新見です。 cuTile Pythonとは 背景 特徴 従来のCUDA(SIMT)との違い 文法 TileGymで行列積ベンチマーク 倍精度行列積エミュレーション Ozaki Schemeについて 分解(Split) 行列積の計算 素朴な実装と初回結果 最適化 Fast Mode(GEMMの削減) Fused Split Kernel(分割の融合) 最適化後の結果 dによる精度/速度トレードオフ まとめ 参考文献 今回はNVIDIAが発表したばかりの「cuTile Python」を試してみました。普段は、GPUカーネルを業務で書くことはありませんが、cuTileはPythonで書かれていて、文法もシンプルなようなので、GPUプログラミングの勉強の意味も含めて記事にしました。 cuTile Pythonとは cuTile

                                                                            cuTile Pythonで始めるGPUプログラミング & 倍精度行列積(DGEMM)エミュレーションを実装してみた。 - Insight Edge Tech Blog
                                                                          • Deploying Transformers on the Apple Neural Engine

                                                                            An increasing number of the machine learning (ML) models we build at Apple each year are either partly or fully adopting the Transformer architecture. This architecture helps enable experiences such as , , , , and many others. This year at WWDC 2022, Apple is making available an open-source reference PyTorch implementation of the Transformer architecture, giving developers worldwide a way to seaml

                                                                              Deploying Transformers on the Apple Neural Engine
                                                                            • Generative AI: A Creative New World

                                                                              A powerful new class of large language models is making it possible for machines to write, code, draw and create with credible and sometimes superhuman results. Humans are good at analyzing things. Machines are even better. Machines can analyze a set of data and find patterns in it for a multitude of use cases, whether it’s fraud or spam detection, forecasting the ETA of your delivery or predictin

                                                                                Generative AI: A Creative New World
                                                                              • The Illustrated Stable Diffusion

                                                                                Translations: Chinese, Vietnamese. (V2 Nov 2022: Updated images for more precise description of forward diffusion. A few more images in this version) AI image generation is the most recent AI capability blowing people’s minds (mine included). The ability to create striking visuals from text descriptions has a magical quality to it and points clearly to a shift in how humans create art. The release

                                                                                • AI Canon | Andreessen Horowitz

                                                                                  Research in artificial intelligence is increasing at an exponential rate. It’s difficult for AI experts to keep up with everything new being published, and even harder for beginners to know where to start. So, in this post, we’re sharing a curated list of resources we’ve relied on to get smarter about modern AI. We call it the “AI Canon” because these papers, blog posts, courses, and guides have h

                                                                                    AI Canon | Andreessen Horowitz