Top > ラーニング > 京都大学、Pythonの基本を解説した無料の教科書「素晴らしすぎる」「非常にわかりやすくて良い」
オープンソース VOICEVOX は OSS(オープンソース・ソフトウェア)版 VOICEVOX をもとに構築されています。 製品版と OSS 版の違いやモジュール構成は VOICEVOX の全体構成 をご参照ください。 ソフトウェア部分は Electron + Vue 、音声合成エンジン部分は Python + FastAPI です。 追加したい・改善したい機能があれば、ぜひ開発にご参加ください。
Youtubeで配信しながら全プロンプトを実行しましたので、各節へのリンクを整理しました。時間のところにYoutubeへのリンクになっています。 もしずれていたら、その時間まで移動して視聴ください。 はじめに (4:00) 1章 ChatGPTの基礎知識 (5:50) 2章 ChatGPTの基本的な使い方 (6:28) 3章 ChatGPT Plusのセットアップ (7:32) 4章 ファイルのアップロードとダウンロード (12:40)4.1 アップロード・ダウンロード (13:03) 4.2 扱うことができるファイル (16:02) 5章 繰り返し作業を一瞬で (16:55)5.1 文字列操作 (17:20) 5.2 正規表現でのパターンマッチ (25:36) →54ページの正規表現でできることの例の説明 (29:09) 5.3 ファイルの一括操作 (46:20) 5.4 QRコード作成
凄いものが出てきてしまった。 ChatGPTの「Code Interpreter」が話題になったが、あれはあくまでクラウド上で動いているだけ。それを模してローカルで動作するようになった「Open Interpreter」は、衝撃的な成果である。 Open Interpreterのインストールは簡単。コマンド一発だ $ pip install open-interpreter起動も簡単 $ interpreter -yこれだけでOK。 あとはなんでもやってくれる。 たとえばどんなことができるのかというと、「AppleとMetaの株価の推移をグラフ化してくれ」と言うとネットから自動的に情報をとってきてPythonコード書いてグラフをプロットしてくれる。 凄いのは、ローカルで動くのでたとえばApplescriptを使ってmacOSで動いているアプリを直接起動したり操作したりできる。「Keynot
はじめに最近、LLMへのRAGを用いた文書データの連携等を目的に海外を中心にOCRや文書画像解析技術に関連する新しいサービスが活発にリリースされています。 しかし、その多くは日本語をメインターゲットに開発されているわけではありません。日本語文書は、英数字に加えて、ひらがな、漢字、記号など数千種類の文字を識別する必要があったり、縦書きなど日本語ドキュメント特有のレイアウトに対処する必要があったりと日本語特有の難しさがあります。 ですが、今後、海外の開発者がこれらの課題に対処するため、日本のドキュメント画像解析に特化したものをリリースする可能性は低く、やはり自国の言語向けのサービスは自国のエンジニアが開発すべきだと筆者は考えています。 もちろん、Azure Document Intelligenceをはじめとした、クラウドサービスのドキュメント解析サービスはありますが、クラウドを利用できないユ
はじめに 今回は各大学が公開している、エンジニア向けの資料をまとめていきます。 東京大学 ChatGPT活用法 ChatGPTの基礎的な内容から実際にどのように活用すべきかが解説されている。 Pythonプログラミング入門 Pythonについて環境構築から始まり、基本文法、応用的な使い方まで分かりやすく解説されている。 AWS入門 ハンズオン形式でAWSの学習ができる。 AI・データサイエンスの活用事例 データサイエンスやAIの活用事例を学べる。 人工知能・深層学習を学ぶためのロードマップ AIやデータサイエンスの具体的な活用事例が学べる。 京都大学 プログラミング演習 Python 統計学 統計学やデータ分析、検定を学べる。 慶應大学 ChatGPTの活用資料 ChatGPTを用いた開発方法が学べる。 東京工業大学 機械学習 筑波大学 データベース データベースの基本から正規化や設計とい
今日もいつものようにシラスでデイリーAIニュースを配信していると、とんでもないものにでくわした。 もうタイトルに書いてあるけど、AIが勝手にブラウザを操作して色々やってくれてしまう、その名もBrowserUseだ。 インストールは超簡単。 macなら以下の二行だけだ。 $ pip install browser-use $ playwright install使うのも超簡単だが、コマンドラインに落ちるのが怖い人々には簡単に見えないかもしれない。環境変数のOPENAI_API_KEYとかにAPIキーを入れておくこと。 $ python >>> from langchain_openai import ChatOpenAI >>> from browser_use import Agent INFO [browser_use] BrowserUse logging setup complete
この記事は Claude Code を初めて試そうとされている方向けの記事です。 導入手順 Claude Codeは、ターミナルで動作する対話型AIコーディングツールです。コードの生成だけでなく、ファイルの編集、テストの実行、Gitの操作まで自然言語で指示できます。 以下の公式ドキュメントを参考にして導入してみてください。 公式ドキュメント:https://docs.anthropic.com/ja/docs/claude-code/overview VS Code拡張:https://docs.anthropic.com/ja/docs/claude-code/ide-integrations よく使うコマンド CLIコマンド(起動前) Claude Code を起動するコマンド: claude # 対話セッションを開始 claude --continue # 直近のセッションを継続 c
2022年8月23日に無料公開された画像生成AI「Stable Diffusion」は、「ボールで遊ぶ猫」「森の中を走る犬」といった指示を与えると指示通りの画像を出力してくれます。Stable Diffusionはデモページで画像生成を試せる他、NVIDIA製GPUを搭載したマシンを用いてローカル環境で実行することも可能です。しかし、デモページは待ち時間が長く、NVIDIA製GPUは所持していない人も多いはず。Googleが提供しているPython実行環境「Colaboratory」を利用すれば、NVIDIA製GPUを所持していなくともStable Diffusionを待ち時間なしで実行する環境を無料で整えられるので、実際に環境を構築する手順や画像を生成する手順を詳しくまとめてみました。 Stable Diffusion with 🧨 Diffusers https://huggingf
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?
前提として、Stable Diffusionでエロ画像を出そうとしてもsafety checkerという機能が入っており、センシティブな画像を出そうとすると黒塗りになる。 (Stable DiffusionのSaaSであるDream Studioはぼかしだが、多分別の技術) https://github.com/huggingface/diffusers/releases/tag/v0.2.3 そこでGoogle Colabでちゃちゃっと環境を作り、なおかつNSFWを回避する。 1. 下記のリンクでノートを開く https://colab.research.google.com/github/huggingface/notebooks/blob/main/diffusers/stable_diffusion.ipynb 2. 下記の箇所を書き換える vvvvvvvvvvvvvvvvvv f
はじめに こんにちは、普段 Ubie で症状検索エンジンユビー(https://ubie.app/)の開発をしている江崎です。 最近、Cursor エディタや GitHub Copilot などのコーディングアシスタントツールが進化し続けていますが、社内固有のデザインシステムとの連携はまだまだ課題が残っていました。そこで社内エンジニアである sosuke とともに、Ubie Vitals というデザインシステムを MCP サーバー化することで、UI 開発の速度と精度が劇的に向上した体験を共有します。 目次 デザインシステムと開発の現状課題 MCP サーバーの登場 Ubie UI MCP の構築 デモ テキストだけで UI 実装が可能に デザイナーの壁打ち相手としての可能性 今後の展望 デザインシステムと開発の現状課題 Ubie では「Ubie Vitals」というデザインシステムに則って
Google、AIを使って非構造化テキストから構造化データを抽出するオープンソースPythonライブラリ「LangExtract」をリリース Googleは2025年7月30日、非構造化テキストから構造化データを抽出するオープンソースのPythonライブラリ「LangExtract」をリリースした。 Introducing LangExtract: A Gemini powered information extraction library -Google Developers Blog ✨Announcing LangExtract! ✨ Our new open-source Python library for information extraction, powered by #Gemini. ✅ Turn text into structured data ✅ Trace
リンク ITmedia NEWS 画像生成AI「Stable Diffusion」がオープンソース化 商用利用もOK AIスタートアップ企業の英Stability AIは、画像生成AI「Stable Diffusion」をオープンソース化した。AI技術者向けコミュニティサイト「HuggingFace」でコードやドキュメントを公開した他、同AIを試せるデモサイトなども公開している。 154 users 134 リンク はてな匿名ダイアリー HなStable Diffusion 前提として、StableDiffusionでエロ画像を出そうとしてもsafetycheckerという機能が入っており、センシティブな画像を出そうとすると黒塗りになる。(Stable… 180 users
・Claude Sonnet 3.7を使え ・Project Rules(.cursor/rules)を使え ・ビルド、lint、テストなどで高速にフィードバックさせろ ・1セッションあたりで依頼することはできるだけ少なくしろ ・よく使うコマンドやライブラリはチートシート作れ Yamada 補足 2025/03/06現在 Roo-Code は .cursor/rules を自動で参照しない。.clinerules, .cursorrules, .windsurfrules は自動で見ておりすべてを結合してコンテキストに入れる。Roo-Codeを使う人は .cursorrules を設定しておくのがよい。
以下の記事を見て、早速「Open interpreter」を試してみたので、使い方や始め方をまとめておきます Open Interpreterとは Open Interpreterは、GPT-3.5、GPT-4、Code Llamaなどの大規模言語モデル(LLMs)を活用して開発されたオープンソースのツールです。 このツールは、OpenAIが提供するChatGPTの「Advanced Data Analysis(旧Code Interpreter)」のオープンソース版とも言える存在で、Python、Javascript、Shellなどのプログラミング言語のコードを自然言語による対話を通じてローカル環境で実行することができます。 このツールの最大の特徴は、ChatGPTの「Advanced Data Analysis」と違いローカル環境で動くため、ファイル容量やネット接続への制約がなく、Ch
はじめに 生成AIによって世の中は大きく変わります。単なるブームではないと確信しています。 研究者の間では数年で「あと人間の知能に匹敵するAIが出てくるだろう」と言われているほどです。 「生成AIって社内でもよく聞くけど何から始めればいいかわからない...」 「AIに興味はあるけど初期設定とか大変そう...」 この手順で学べば流石に初心者でも生成AIを使いこなせる人材になれるロードマップを整理しました。 誰も生成AIの大波に置いていかれないような記事を目指します。 対象読者 生成AIを学んでスキルアップしたい方 社内でAI活用してさらに活躍をしたい方 AIの波に乗って市場価値の高い人材を目指す方 記事の構成 本記事は入門編と発展編に分かれています。入門編では「AIを使える人材」になるためのゼロからのロードマップを記載しています。発展編では「AIアプリを作れる人材」になるためのステップアップ
はじめに 2025年はAIエージェントの年です。注目されているAIエージェントの一つが『AIが自動で自分のPC画面を操作』するBrowser Useというツールです。 Browser Useの面白さ Browser Useを使うと、AIが自動で自身のPC画面を操作することであらかじめ決めた目的を達成をしてくれます。 簡単な指示を出すだけで、自動でAIが色々操作してくれるのはキャッチーで衝撃的ですよね。 例えば下記のように完全自動でAIが記事を検索して記事の情報を取得してくれます。 簡単な指示でAIが自分で考えて画面操作をしてくれるのは近未来感ありますよね。 しかし、現場でAIを使いこなすには「AIがすごい」のレベルではまだ足りません。 実際に触ってみて何ができるのか?逆に何が苦手なのか?という肌感覚を持つことが非常に重要です。 そこで本記事は、その肌感覚を養うために実際にBrowser U
今朝方GPT-4が発表されて、みなさん死ぬほど盛り上がってますねー。 GPT-4を使えば一発でできそうなネタではありますが、GPT-4 APIのお値段は3.5よりもお高めの設定なので、これからはどのように上手くGPTのバージョンを使い分けていくかが問われていくと思います。 というわけで今日は非構造化データを構造化データに変換する話です。 問題の背景行政が定期的に公開している統計資料をご覧になったことはありますでしょうか。ディスる訳ではないですが、以下に示すのは私が住んでいる富士吉田市の統計資料です。 統計ふじよしだ令和元年度版 - 商業 このように分かりやすい表で情報を提供してくれるのはありがたいのですが、数値データにはなっていないので分析に活用することができません。 GPTのパワーを使って、このような非構造化データを構造化データに変換できないか?というのが本日のお題になります。 コードP
個人用メモです。 機械学習は素材集めがとても大変です。 でもこの素材集め、実は無理してやらなくても、元から良質な無料データベースがあったようなのです。 URLはこちら YouTube8-M https://research.google.com/youtube8m/explore.html 提供されているサービスは以下の通り 800万個の動画 19億個のフレーム 4800個の分類 使い方はExploreから画像セットを探し、ダウンロードするだけ。 他の方法も見つけた open images dataset 「すごい神だな」と思ったのは これもう完成されてますよね もちろんこの認識前の画像もセットでダウンロードできます。 Youtube-8Mとは、画像数を取るか、精度で取るか、という違いでしょうか。 他にも良い素材集を教えていただきました (はてなブックマーク情報 @sek_165 さん )
こんにちは、株式会社FP16で結構コードを書いている二宮です。 最近Webスクレイピングのコードを色々な方法で書いているので、そこで得た知見をここに残しておこうと思います。 ほぼ毎日なにかのWebスクレイピングコードを書いています。 Webスクレイピング手段 Webスクレイピングには色々な方法があります。 私が最近主に使っているのはこの5つの手段です。 cheerioでHTMLを解析 Playwrightなどで要素指定でデータを取得する APIを見つけて叩く(バックエンドとの通信を再現してデータを取得) LLMでサイト構造を解析してデータを取得する Next.jsからのレスポンスに含まれているデータを解析して取得する これが令和のWebスクレイピングのベストプラクティスだと思っています。 これらの方法を、目標に合わせて使い分けています。 使い分け方 CheerioでHTML解析 JavaS
話題のStableDiffusionがオープンソースで8/23に公開されたので、手元のマシンで動かすまで試したいと思います🖼 (下記に記載していますが、自分の環境だとVRAMが不足しているエラーが出てしまったのでイレギュラーな対応をしています🙏) ※ ↑追記 コメント欄にて、 @kn1chtさんが紹介してくださっているように、マシンのVRAMが10GB未満の環境では半精度(float16)のモデルがオススメされています。 本記事では、別の最適化されたものを紹介していますが、こちらの利用も検討してみると良さそうです👉 https://zenn.dev/link/comments/7a470dc767d8c8 StableDiffusionがどんなものかは、深津さんの記事が参考になります。 1. 環境 Razer Blade (RTX 2070, VRAM 8GB) CUDA Toolk
はじめに ソースコードをLLMに読んでもらうとき、単一ファイルだと楽なのですが、GitHubのリポジトリのように複数ファイルから構成されるプロジェクトだと困ってしまいますね。 リポジトリごとLLMに読んでもらえるようにいい感じにテキスト化できると良いですね。そんなソフトがありました。しかも2つ。 両方ともほとんどコンセプトは同じです。特に後者のgenerate-project-summaryは使い方も含めて、自分のやりたいことが、すでに開発者の清水れみおさんが以下の記事にまとめていました。 なので、あんまり書く必要ないのですが、せっかくなのでgpt-repository-loaderの使い方と、出力したファイルの別の活用方法について書いてみたいと思います。 追記:以下のも気になるので試してみたいです。試したら追記します。 gpt-repository-loaderでリポジトリをテキストに変
はじめに Anthropic といえば、最近はコード生成ツールが大きな話題になっていますよね。 AI企業アンスロピック、今年の売上高30億ドルに急増へ 売上高を牽引しているのはコード生成機能です。グーグルの親会社であるアルファベット([GOOGL.O](https://jp.reuters.com/markets/companies/GOOGL.O))や、アマゾン・ドット・コム([AMZN.O](https://jp.reuters.com/markets/companies/AMZN.O))が支援しているアンスロピックは、コンピュータープログラミングに特化した AI として知られています。 このコード生成機能を活用する際に使用するのが、CLI コマンドの claude です。このツールの完成度は非常に高く、最近ではコード生成時に積極的に利用するエンジニアも増えてきています。 この cla
これは二段構えの構成を持っています。この二段構えを正確に検出し、テキストを理解することが望ましいです。 Unstructuredを使うPythonのライブラリであるUnstructuredを試してみましょう。 参考記事 導入は非常に簡単です。 pip install 'unstructured[pdf]' 実装も簡単です。 解析コード: from unstructured.partition.pdf import partition_pdf pdf_elements = partition_pdf("pdf/7_71_5.pdf") 表示コード: for structure in pdf_elements: print(structure) 結果: 残念ながら、2段組のカラムを正確に検出することはできませんでした。 Grobidを使うGrobidは、peS2oというオープンアクセス論文のコ
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? みなさんこんにちは!私は株式会社ulusageの、技術ブログ生成AIです!これからなるべく鮮度の高い情報や、ためになるようなTipsを展開していきます。よろしくお願いします!(AIによる自動記事生成を行なっています。システムフローについてなど、この仕組みに興味があれば、要望が一定あり次第、別途記事を書きます!) 爆速で動作する日本語特化の文字起こしAI『kotoba-whisper-v2.0』を試してみた はじめに ビジネスシーンや日常生活で、音声データを文字起こしするニーズはますます高まっています。議事録の作成やインタビューの文字起こ
入力した文字列から高精度な画像を生成できるAI・Stable Diffusionは2022年8月に無料で一般公開され、「基本的に出力した画像は商用・非商用を問わず、自由に利用できる」というライセンスで大きな話題となりました。しかし、Stable DiffusionをローカルなWindows環境に導入して使うには、PythonやAnacondaなどを扱える技術や知識が求められるため、初心者にとっては敷居がやや高いといえます。そんなStable Diffusionを一発でWindows環境にインストール可能で、さらにシェルでのコマンド入力ではなくグラフィックユーザーインターフェース(GUI)で画像生成の指示も簡単にできる「NMKD Stable Diffusion GUI」が公開されました。 My easy-to-install Windows GUI for Stable Diffusion
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? 動機 外資系のAmazonが展開している電子書籍Kindleでは比較的洋書の取り扱いが多いです。 Kindle Unlimitedに登録されている書籍も多く、Springerなんかも含まれているので活用しない手はありません。 そこでkindle-translatorをつくりました。 https://github.com/1plus1is3/kindle-translator これで一冊50万字あるKindleの洋書を1分で日本語PDFに変換できます。 キーボードの矢印キーでページ送りができるならKindleに限らずあらゆる電子書籍リーダ
マイクロソフトは本日(日本時間9月17日)0時からオンラインイベント「Microsoft 365 Copilot: Wave 2」を開催し、Microsoft 365 Copilotの複数の新機能などを発表しました。 With Copilot in Excel, you can create advanced visualizations, generate forecasts, and save time sorting through data with Python. Take a look: https://t.co/uqE1VyQ5WU #AI #Microsoft365 pic.twitter.com/e7Eph9q4Oc — Microsoft Excel (@msexcel) September 21, 2023 Pythonコードにより高度なデータ分析などを実現 Copi
はじめに みなさん、こんにちは!最近、API開発の現場で「これマジですごい!」と思わず叫んでしまったツールを見つけたんですよ。それが「FastAPI-MCP」です! FastAPI使ってる人なら絶対に知るべきツールです。だって、あなたのAPIをAIモデル(GPTやClaudeなど)に簡単に操作させることができるんですから!私みたいな初心者でも数分で設定できちゃいました。 FastAPI-MCPって何がすごいの? まず、FastAPI-MCPの核となる機能を紹介します: 認証機能が標準装備:FastAPIの依存性注入(Depends())をそのまま使えるから、セキュリティ面も安心! FastAPIとの相性抜群:単なるOpenAPI変換ツールじゃなく、FastAPIのASGIインターフェースを直接使うから超効率的! 設定ほぼゼロ:FastAPIアプリを指定するだけでMCPツールが自動生成される
日本語で指示を出すだけでコードを 自動で生成してくれます。 AI Programmer エンジニアを強力にサポートします。現在プロトタイプを無料で公開しています。AI プログラマーに指示を出してソースコードを生成してみてください。できるだけ具体的に指示を出すと期待通りのコードが書けます。
プロンプトを入力するだけで適切なモデルを出力してくれるBlenderのアドオン「BlenderGPT」が登場しました。OpenAIのGPT-4を使用しており、プロンプトを受けてPythonコードを生成します。 GitHub - gd3kr/BlenderGPT: Use commands in English to control Blender with OpenAI's GPT-4 https://github.com/gd3kr/BlenderGPT 導入方法は以下の動画でも確認できます。 3DCG製作ソフト「Blender」にGPT-4を統合する「BlenderGPT」の導入方法を解説 - YouTube まずはGitHubのリポジトリにアクセスします。続いて「Code」をクリックし、「Download ZIP」をクリックしてZIPファイルをダウンロード。 次にOpenAIのAPI
はじめに こんにちは。クラウドエースの荒木です。 ChatGPT や Claude などの生成 AI が日常生活やビジネスに浸透してきましたが、これらの AI の真価は外部システムと連携したときに発揮されます。しかし、この連携には大きな課題がありました。 これまで AI と外部システムを連携させるには、システムごとに個別の API 統合が必要で、認証方法やデータ形式、エラー処理など、細かな実装を繰り返す必要がありました。このような個別対応は開発効率を下げ、拡張性や保守性の面でも問題がありました。 そこで登場したのが「Model Context Protocol(MCP)」です。2024 年 11 月に Anthropic が発表したこのオープンプロトコルは、AI と外部システムの接続を標準化し、開発者の負担を大幅に軽減します。 この記事では、MCP の基本概念から実装方法、活用事例まで、技
書籍はこちら。 現場のPython──Webシステム開発から、機械学習・データ分析まで Web+DB PRESS plus 作者:altnight,石上 晋,delhi09,鈴木 たかのり,斎藤 努技術評論社Amazon 元々WEB+DB PRESS plus で連載されていた内容をまとめた本。連載期間は2020年6月〜2023年8月のものだったらしいけど、書籍化にあたって加筆されているらしい。 初版の発行は2024年9月と最近である。 この本を読もうと思った経緯 仕事で少しだけPythonを使うことになったから。作るものは簡単なツールだったんだけど、それにあたって環境周りやらLinter、Formatterとかは最近は何を使うといんだろう?っていうのをキャッチアップしたかった。 こればっかりはとっかかりがないことにはドキュメントを見に行くこともできないので、いい感じにまとめられてる情報を
1. インストール 1pip install open-interpreter ターミナルで次のコマンドを実行して、Open Interpreter をインストールします。 2. 対話型チャットの開始 インストール後、次のコマンドを実行して、ターミナルで対話型チャットを開始できます。 1interpreter Python で対話型チャットを開始するには、次のコマンドを実行します。 1import interpreter 2interpreter.chat() 2. OpenAI APIキーの設定 OpenAIのAPIキーを利用する場合は設定が必要ですが、OpenAIのキーを使用しない場合は、Code-Llamaを利用することができます。 これで、Open Interpreterを利用する準備が整いました。 Open Interpreterの使い方 タスクの依頼・実行 Open Inter
イラストやアニメのワンシーンには丁寧に色が塗られているものですが、これを色を塗る前の線画に変換することができるアプリケーション「Anime2Sketch」が、GitHub上で無料で公開されています。 GitHub - Mukosame/Anime2Sketch: A sketch extractor for anime/illustration. https://github.com/Mukosame/Anime2Sketch イラストから線画を生成することができる「Anime2Sketch」は、LinuxまたはmacOSで動作するアプリケーション。プログラミング言語のPythonで構築されており、CPUあるいはNVIDIA製のGPU+NVIDIA cuDNNの組み合わせで動作させることができます。 実際にどのような線画が出力できるのかというと、以下の通り。左が入力画像(イラスト)で、右が
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く