サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
デスク環境を整える
zenn.dev/karaage0703
Obsidianに入門しました LLMとマークダウンの相性がよいということで話題になっているObsidianに入門しました。本も買って読みました。 Obsidianで“育てる”最強ノート術 そして、色々試行錯誤してみたのですが…結局自分の場合は、あんまり使い道がないことに気づきました。ノートはiPadでApple Pencilで手書きが好きなのと、デジタル的なまとめは、はてなブログやZennにブログとしてまとめているからです。Notionもメモとかノートというよりは、データ置き場って感じなんですよね。 ただ、Web Clipperは、PCでもiPhone/iPadでもクリック(タップ)一発で、ウェブサイトを保存できて便利で活用することにしたので、設定方法を残しておきます。 iCloudとの同期 iPhone/iPadとPCの同期のために、iCloudとの同期を設定しました。Windowsは
Kindleのリストを分析していたら、ふと自分の蔵書一覧を作って、生成AIにおすすめ本を教えてもらうと良さそうだなと思ったので試してみました。 Kindleの蔵書リスト作成 「Kindle bookshelf exporter」というChrome拡張を使うと手軽に一覧をcsvでダウンロードできます。 以下のリンクからChromeに「Kindle bookshelf exporter」を追加して、クリックするだけです。 数秒後、以下のように表示されたら「CSVをダウンロード」をクリックします。 簡単ですね。kindle.csvというファイルがダウンロードされます。中身は以下の通りです。 "title","authors","date","status" "プロジェクト・ヘイル・メアリー 下","アンディ ウィアー","2025年5月4日","UNKNOWN" "Obsidianで“育てる”最
MCPサーバーを作ってみる 松尾研究所テックブログのMCP入門記事で紹介されていた、以下の公式MCP Python SDKが、MCPサーバを作ることができるということで気になったので、実際に作ってみました。 同じようなことをしている先人の記事が沢山あったので、本記事の参考リンクにも掲載します。より詳しい解説などが知りたい人は参照してみてください。 MCPサーバの作成 仮想環境構築 MCPサーバーでは、ホストの環境から分離するために、仮想環境を使うのがベターです(使わなくても作成はできます)。PythonだとuvかDockerが良いと思います。今回は手軽に使用できるuvを使用します。uvのセットアップや基本的な使い方に関しては以下記事を参照してください。 uvでは、以下のコマンドで仮想環境を構築できます。 # server.py from mcp.server.fastmcp import
ふと、マインドマップを作りたくなったので調べてみました。なるべく長く使えそうな汎用的な手法を書いておきます。 Markmapを使う ChatGPTをはじめとして、大体のLLMで使えると思います。プロンプトは以下のような感じ。 # からあげの作り方 ## 材料 - 鶏もも肉(約500g) - 醤油(大さじ2) - 酒(大さじ2) - みりん(大さじ1) - すりおろしにんにく(1片) - すりおろししょうが(1片) - 片栗粉(適量) - 小麦粉(適量) - 揚げ油(適量) ## 下ごしらえ - 鶏肉を一口大に切る - 調味料を混ぜる - 醤油 - 酒 - みりん - にんにく - しょうが - 鶏肉を調味料に漬ける(30分〜1時間) ## 衣をつける - 漬けた鶏肉の水気を軽く切る - 片栗粉と小麦粉を混ぜてまぶす - サクサクにしたい場合:片栗粉多め ## 揚げる - 油を170〜180
uvが良さそうという噂を聞いたので、自分の場合はMiniForgeからuvに移行することを決意しました。 直接のきっかけは以下のUdemy講座の受講です。eikichi先生ありがとうございます! Python初学者でもOK!UV×VSCode×GitHub×Vast aiを活用したデータ分析・AI開発環境構築術 MiniForgeはインストールしてないよって人は、最初のMiniForge/Pyenv削除を読み飛ばせばuvのセットアップ記事として読めます! MiniForge/Pyenvの削除 MiniForgeを断固たる決意で削除します。以下記事の最後にちゃんとアンインストールの方法が書いてあります。 pyenvの場合は以下です。 uvのセットアップ 公式ガイドを参考にセットアップします。 インストールは以下コマンドです。
Model Context Protocol(MCP)は、AI(LLM)の能力を拡張するためのプロトコルです。このブログ記事では、以下について書きます。 MCPの概要 MCPを使ってみた MCPを作ってみた MCPとは何か? Model Context Protocolは、AI(GPTやClaudeなどのLLM)が外部システムやAPIと通信するための標準化されたプロトコルでAnthropic社が定めたものです。MCPを使用することで、AIアシスタントは以下のようなことが可能になります: インターネット上の情報にアクセスする データベースを検索する ファイルシステムを操作する 外部APIを呼び出す GitやGitHubなどの開発ツールを操作する MCPの公式サイトの紹介文には以下のような概念図があります。 modelcontextprotocol.io introductionより引用 また
Cline x CadQuery 生成AIで3D CAD設計できたら、自分のようなメカセンスがない人には助かるので試してみました。Cline x Blenderでやっている人もいますが、Blenderは3DCGソフトってイメージなので、やはりCADソフトに近いもので試してみたいと思い、CadQueryというPythonで3Dモデリングができるライブラリを使ってみました。 CadQueryに関しては、以下の佐野さん(@hrs_sano645)のPyCon Mini Shizuoka 2024での発表資料を参照ください(私もこれでCadQueryを知りました)。 Clineに関しては以下記事を参照ください。 ClineとCadQueryで3Dモデリングする方法 準備 リポジトリを用意しました。佐野さんのリポジトリをベースに、.clinerulesを増やしたり、リポジトリをマウントするようにした
LLMにいかにデータを入力するか 「LLM活用していますか?」 LLMは文章の翻訳、資料のチェック、ソフトの修正など様々な活用の可能性があります。 その際、問題になってくるのがLLMにいかにデータを入力するか、出力したデータを活用するかです。画像、PDF、Office資料などを丸ごと入力できる便利なサービスやも出てきていますが、様々な事情により使用できるサービスが限られていて、資料をそのまま入力できずに困っている人も多いと思います。また、サービスは使用できるけど、同じデータを違うLLMに入力して結果を比較したいというニーズもあるかと思います。 そんなときに重要になってくるのがデータ変換です。この記事では、上記のような困りごとを持っている方に、データをLLMに入力しやすい形に変換する方法について紹介します。なお、本記事はLLMのAPIなどを使ってバリバリ開発している人ではなく、ChatGPT
DeepSeek凄そう DeepSeekってやつが凄いみたいですね。周りの詳しい人には、取材依頼が殺到しているみたいです。私には取材は1つも来てないです(来ても困りますが)。 そんな私でも、たまにDeepSeekについて聞かれることがあるのですが、真面目な顔して「なんか凄そうですね」くらいしか言えなかったので、少し調べた上で実際に自分のPCで動かしてみることで、DeepSeekの能力を体感してみることにしました。 DeepSeekの情報 以下のshi3zさんの記事が、技術的、歴史的な経緯のポイントをおさえていて分かりやすいなと思います。 論文に関しては、正直全部しっかり読めていません。以下の論文まとめが詳しかったです。 危険性に関しては、何とも言えないですが、著名なAIエンジニアの安野さんが、レベルに分けて危険性を解説してくださっています。 私は、多分レベル2くらいなので、以下の文章を読ん
AIエージェントという言葉をよく聞くようになってきたので、自分なりに色々関連情報の整理です。あくまで個人的に(なるべく)フラットに書いてます。 AIエージェントの定義 そもそもAIエージェントって何?というところですが、結論よく分かりませんでした。定義ははっきり定まっていないのと、生成AIの盛り上がりとも重なり、バズワード化しているので、色々な人がポジショントーク的に、自分にとって都合の良いAIエージェントを定義しているのかなと感じました。ここでは、いくつか代表的な定義を紹介しておきます。 Artificial Intelligence: A Modern Approachによる定義だと「エージェントとは、環境を認識し、目標を達成するために自律的に行動する存在」と書かれています。よく紹介される定義ですが、これだけだとよく分からないですね。昔からあるエージェントの定義なので、強化学習とかの文
Pyxelアプリを実機で動かしたい 以下あたりを読んでPyxelでアプリ開発して自作Pyxelアプリを実機上で動かしたいなーと猛烈に思うようになってしまいました。 というわけで、早速やってみました。上記記事などを参考にできたので、とりたてて目新しいことはないのですが、個人のメモ+少し補足情報を記載しておきます。 実機について 対応機種は、使用するplumOS-RNのREADMEにあるリストから選びます。今回は、情報が多く比較的新機種でかっこいい(重要)「Powkiddy RGB30」を選びました。 購入はAmazonでも買えますが、AliExpressが安かったです。 購入したら、数日でちゃんと届きました。 そして、購入してから気づいたのですが、無線機能があるので日本でそのまま動かすと違法になります。 今回は、AIを用いたアプリ開発の研究および実機での実験という目的があったので、技適未取得
MacBook Pro買いました プライベートで14インチのMacBook Pro(M4)買いました。25万円くらいしました。高いですね。 4年前に買ったMacbook Air(M1)も、ものすごい困るということもなかったのですが、使っていてもっさり具合が気になるようになってきたのと、登壇中にKeynoteが固まるということもあったので、思い切って買い替えることにしました。 セットアップの前提 PC買い替えたら、インストールソフトや設定を見直すよい機会と捉えて1からセットアップすることにしているので、セットアップのメモをここに残しておきます。 前提として、完全に自分の好みなのですが、デフォルト設定から大きくカスタマイズはしていません。インストールするソフトも、自分の必要最低限のソフトだけにしています。なんなら壁紙すらデフォルトから変えないです。 昔は結構カスタマイズしたりしていましたが、な
NotebookLM NotebookLMはGoogleが提供している生成AIを活用したサービスです。なんと(2024年10月現在は)無料で使えます。 NotebookLMは、Googleの生成AI Geminiのロングコンテキスト(多くの量のプロンプトを扱うことができるという意味)の特徴を活かした、文章の要約やQA対応が得意です。文章は、直接プロンプトに入れている(と思われる)ので、単なるRAGとは違う(と思われ)ます。 RAGとロングコンテキストのどっちが良いのかというのは、色々議論があるようです。例えばLost in the Middle: How Language Models Use Long Contextsという論文では「ロングコンテキストの真ん中の情報は失われるよ」みたいなことが書いてありますがRetrieval Augmented Generation or Long-C
はじめに OpenAI o1、そこまで注目していなかったのですが、じわじわと「すごいのでは?」という気になってきたので、雑に関係する情報や気になる記事をまとめてみました。 o1の仕組みは、アプローチ的には人間は簡単な問題には反射的に答える(答えられる)けど、難しい問題はじっくり考えるから、AIにも同じようにじっくり考えさせてみよう(推論時間のスケーリングとかよばれたりします)という発想だと思います(おそらく、違ったらすみません)。 LLMは、基本的に解くべき問題の難易度で出力のスピードは変わらない(一定の量の計算をすると確率が出力される)ので、自分は今まで「じっくり考えられない点がAIと人間の違いだなー」と思ってましたが、あっさりとLLMもじっくり考えられれるようになってしまいましたね。 o1は評価が割れていますが、頭がよすぎても、それを使う人が理解できない、能力を使いこなせない、そもそも
はじめに ソースコードをLLMに読んでもらうとき、単一ファイルだと楽なのですが、GitHubのリポジトリのように複数ファイルから構成されるプロジェクトだと困ってしまいますね。 リポジトリごとLLMに読んでもらえるようにいい感じにテキスト化できると良いですね。そんなソフトがありました。しかも2つ。 両方ともほとんどコンセプトは同じです。特に後者のgenerate-project-summaryは使い方も含めて、自分のやりたいことが、すでに開発者の清水れみおさんが以下の記事にまとめていました。 なので、あんまり書く必要ないのですが、せっかくなのでgpt-repository-loaderの使い方と、出力したファイルの別の活用方法について書いてみたいと思います。 gpt-repository-loaderでリポジトリをテキストに変換 使い方はREADMEに書いてあります。シンプルなソフトなので、
LLMのチャット以外の可能性 ChatGPTなどで話題のLLM(Large Language Model)、用途としてはチャットボットとしての使われ方が多いですが、チャット以外にも使える可能性を秘めています。 具体的には、生成AIでロボット制御をする「RT-1」や、マインクラフトをプレイする「Voyager」などがあります。これらの詳細の解説は以下記事参照ください。 今回は、夏休みの自由研究(と呼べるほど高尚なものではないですが)として、手軽に分かりやすい例として、LLMでマリオをプレイできるか試してみることにしました。 LLMでマリオをプレイ マリオに関しては、以前に深層強化学習で全ステージクリアにチャレンジしたことがあります。 複数人の有志の協力があり、ループを多用する8-4を除いたステージを全てクリアすることができました。ただ、ステージごとにシミュレータで半日以上かけて学習させる必要
はじめに 自分の書いた記事の中でとっちらかっていたWSL関係の情報をまとめました。古い記事も多いので、そのうちメンテします。 WSL2インストール 以下のサイトを参考にしたらほとんど詰まらずにできました。 Windows11にインストールする場合は以下の記事が参考になります。 Windows初心者の自分としてのポイントは以下あたりでしょうか。 PowerShellを管理者モードで実行する方法 Windowsボタン(田)+xでメニューを開いてWindowsターミナル(管理者)を選択しましょう。 WSL自体は普通のターミナルからでも実行できます。私は上で紹介したHyperを使っています。 Ubuntuインストールしようとするとerror : 0x800701bcが出る 以下サイトのStep 4を飛ばしています。手動でのアップデートが必要なようです。 Ubuntuのインストールはストアからもコマ
LLMに面倒なことをやらせたい 面倒なことはChatGPTにやらせようという本の著者のからあげです。 書籍では、様々な面倒なことをChatGPTにやらせています。ChatGPT単体(コアの部分)は、基本的にテキスト(言葉)を生成することしかできないので、どうやって面倒なことをやらせているかというと、ChatGPTの生成したテキストで、拡張機能を操作することで、実現しています。イメージ的には以下のように、ChatGPTの手足のように拡張機能を使う感じです。拡張機能としては、色々ありますがChatGPTが生成したコードを実行できるAdvanced Data Analysis(Code Interpreter)が重要かつ代表的な機能となります。 面倒なことはChatGPTにやらせよう(講談社)より引用 この機能はChatGPT独自のものだったのですが、最近はGeminiのGoogle AI St
生成AIサービス 本を書いているのに、あんまり使いこなせてない気がする生成AIサービス。 一時期、サブスクに課金し過ぎたことに反省して、慎重になっていたのですが、いつの間にか無料でも結構便利に使えるサービスが増えていたので、あらためてまとめてみました。基本的に自分のためのリンク集なのですが、需要あるかもしれないので公開してみます。 なお、主に調べ物とか要約とか情報収集に使うものが中心で、エンタメ系や画像・動画系は除外しています。 ChatGPT 最初は、やはりベタなやつです。ChatGPTの本を書いているのでポジショントークもあるのですが、自分の中で基準になっているのはChatGPTです。 無料でも、最新のモデルであるGPT-4oが使えたり、Python実行環境であるAdvanced Data Analysis(Code Interpreter)が使えたりするようになっています。GPT-4
はじめに 「ゼロからLLMつくりたいなー」と思っていますが、なかなか時間がとれないので、いざというとき(?)のために、参考になりそうなサイトをまとめておきます。 個人的な備忘録です。まだ全然作れていないので、どれが良いという評価もできません。 NLP2024チュートリアル 良さそう。 NLP2024-チュートリアル3-作って学ぶ 日本語大規模言語モデル Neural Networks: Zero to Hero Andrej Karpathyさんの動画。英語ですが、すごい良さそう Karparthyさんのリポジトリ 同じくKarpathyさんのnanoGPT Llama Llamaの情報 GENIAC 小型LlamaモデルのMegatron-LMを用いた事前学習と継続事前学習 Attention Attentionをスクラッチで作るリポジトリ 必要な知識や環境構築 LLMを作るために必要な
ゼロから学ぶGit/GitHubを読んで ゼロから学ぶGit/GitHub 現代的なソフトウェア開発のために出版社様より献本いただきました。 私も以前から大いに参考にさせていただいていた、以下のウェブサイトを公開されているロボ太さんが著者ということで期待していたのですが、期待に違わぬ良書でした。 最初に「Gitの学習は簡単ではない」と太字で書いてあることが好印象でした。そうです。簡単ではないんですよね。そして「はじめ」の章の最後に以下のようにも書いてあります。 いまはGitが広く使われているが、今後どうなるかはわからない。新たなツールが普及したときに、そのメリットとデメリットを見定め、必要とあれば乗り換える柔軟性が必要だ。 考え方によっては、書籍の自己否定ともとれる内容ですが、この本の本質(最も伝えたいこと)が、バージョン管理の重要性や考え方であって、Git/GitHubはあくまでそのため
Difyを試してみました Difyが話題だったので、少し試してみました。一言でいうとOSS版の高機能ChatGPTのカスタムGPT(GPTs)でしょうか。より詳しくはnpaka先生の記事を参考にしてください。 ChatGPTの有料版でできること以上のことができます。機能も多機能で、少し触った感じでは完成度も高いように感じました。 クラウド版を使うこともできますし、ローカルで自前でサーバーを立てることもできます。GPTsに比べた分かりやすいメリットある使い道は、容量制限なく手軽にローカルでRAGをクラウドにデータをアップロードできる点でしょうか。 それ以外には、GPT-4以外のClaude 3 OpusなどのLLMも使えたり、細かい設定を切り替えたりできるので、手軽に色々できそうです。ただ、結構できること多いので少し詳しい人向けかもしれません。 Difyのローカルセットアップ方法 クラウド版
ラズパイでLLM 普通にローカル動きました。Raspberry Pi 5です。DockerでOllamaを動かしています。簡単にメモします。 ラズパイのセットアップ 以下でラズパイの基本的なセットアップをします。 Dockerをセットアップします。 Ollamaセットアップ 続いてOllamaをセットアップします。ラズパイでDockerを使えば、以下コマンドを実行するだけでOllamaをインストールできます。 $ docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama
ローカルLLMを手軽に楽しむ ローカルLLMを手軽に動かせる方法を知ったので紹介します。今まではLLMやPC環境(GPUの有無)に合わせてDocker環境を構築して動かしていました。 それが、OllamaとOpen WebUIというソフトを組み合わせることで、ChatGPTのように手軽にローカルでLLMを動かすことができます。参考にしたサイトなどは本記事の末尾で紹介します。特にもりしーさんの動画はきっかけになりました(感謝です)。 動かす方法として以下2つを紹介します。 Ollama単体で動かす方法(初心者向け) Ollama + Open WebUIでGUI付きで動かす方法(Dockerが分かる人向け) 初心者でとりあえずLLMを動かすのにチャレンジしたいという人は、1つ目のOllama単体で動かす方法にトライするのがおすすめです。 Dockerとか普段から使っているという人は、1をとば
Claude 3 Opus課金への道 最近、周りでClaude 3(特に最上位モデルのopus)の性能が凄いと話題です。 「どうせOpen AIからまた凄いの出るでしょ」 と静観していたのですが、しばらくは出なさそうな雰囲気がするのと、周りのプレッシャー(?)に耐えられなくなり課金してしまいました。AI依存&AI破産まっしぐらですね。 Claude 3 Opusの画像認識を試してみた ファイルアップロードできると聞いていたので、拙作「面倒なことはChatGPTにやらせよう」のタスクを色々やらせてみようかなと思ったのですが、完全な私の勘違い(調査不足)で、アップロードできるのはドキュメントと画像だけでした。他のファイルを読み込ませるには、APIを使って自分でプログラムを組む必要がありそうです。 というわけで、かろうじて試せそうな画像認識を試してみることにしました。画像の題材は、書籍のサポート
RAGについてまとめ RAG情報が溢れているので整理しています。 RAGの概要・入門 RAGの性能改善のテクニック まとめ 手法 RAG関係の論文 RAG関係のサーベイ論文 画像はRetrieval-Augmented Generation for Large Language Models: A Surveyより引用 時系列のまとめ まとめのGitHubリポジトリ サーベイ論文の解説記事 RAG(検索拡張生成)包括的な論文をわかりやすく解説 コサイン類似度が本当に適しているのかをといかける論文 retrieval-augmented thoughts(RAT)という手法について書かれた論文 RAGのエラーの分類に関する論文 HyDEという手法の論文 HyDEのノートブック メタ認知をRAGに適用 Self RAG Self RAGノートブック NVIDIA Order-Preserve
Gemmaとは Gemmmaについては、npaka先生の記事参照ください。 GitHubに公式Dockerfileがあったので、すぐ動くかなと思ったら、少しはまったりしたのでメモを残しておきます。 PC事前準備 Google Colab Google Colabで動かす場合は、ブラウザが動く環境なら基本的にOKです。私はProに課金しています。 ローカルPC ローカルPCは、Linuxマシンで実行しました。GPUは自分の環境ではエラーが出て使えなかったので、CPUで動かしました。 あらかじめLinuxマシンにDockerをセットアップしましょう。以下記事参照ください。 Gemmaの事前準備 以下サイトにチュートリアルがあります。 モデルは以下にあります。 最初に、モデルのRequest Accessをクリックして登録しておきましょう。 Dockerfileや動かし方はGitHubにあります
Raspberry Pi 5買っちゃいました ラズパイ5を買っちゃいました。 特に、何か目的があるわけではないのですが、最近ラズパイ触ってなかったのでこれをきっかけに久しぶりにラズパイを触ってみました。 基本は一緒なのですが、やっぱり色々と変わっているので簡単にセットアップ方法やTIPSをまとめてみました。 準備するもの Raspberry Pi 5(8GB) 以下は周辺機器です。自分の手持ちのものはAmazonですぐ買えるものが無かったので、各自で適当に探して買ってください。 3A以上の電源 USB-Cケーブル SDカードインターフェース PC(Windows/Mac/Linux) ディスプレイ キーボード マウス ファン(推奨) セットアップ SDカードにOSを書き込み SDカードを書き込めるPCでRaspberry Pi Imagerを使いましょう。今回はMacbookを使いましたが
GPTsのまとめのメモ 英語 日本語 まとめ 他にあったら、コメントとかで教えてください。 参考リンク 関連記事
次のページ
このページを最初にブックマークしてみませんか?
『karaage0703さんの記事一覧』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く