タグ

ブックマーク / note.com/npaka (19)

  • GPT-4o の概要|npaka

    以下の記事が面白かったので、簡単にまとめました。 ・Hello GPT-4o 1. GPT-4o「GPT-4o」 (「omni」の「o」) は、人間とコンピュータのより自然な対話に向けた一歩です。テキスト、音声、画像のあらゆる組み合わせを入力として受け入れ、テキスト、音声、画像の出力のあらゆる組み合わせを生成します。 音声入力にはわずか232ミリ秒 (平均320ミリ秒) で応答できます。これは、人間の会話における応答時間とほぼ同じです。英語のテキストおよびコードでは「GPT-4 Turbo」のパフォーマンスに匹敵し、英語以外の言語のテキストでは大幅に改善されており、APIでははるかに高速で50%安価です。「GPT-4o」は、既存のモデルと比較して、特に視覚と音声の理解に優れています。 2. モデルの機能「GPT-4o」以前は、音声モードを使用して、平均2.8秒 (GPT-3.5) および5

    GPT-4o の概要|npaka
    urtz
    urtz 2024/05/14
  • Google Colab で Llama 3 のファインチューニングを試す |npaka

    Google Colab」での「Llama 3」のファインチューニングを試したので、まとめました。 【注意】Google Colab Pro/Pro+のA100で動作確認しています。 1. Llama 3「Llama 3」は、Metaが開発したオープンモデルです。 2. 学習Colabでの学習手順は、次のとおりです。 (1) Colabのノートブックを開き、メニュー「編集 → ノートブックの設定」で「GPU」の「A100」を選択。 (2) パッケージのインストール。 # パッケージのインストール !pip install -U transformers accelerate bitsandbytes !pip install trl peft wandb !git clone https://github.com/huggingface/trl %cd trl(3) 環境変数の準備。 左

    Google Colab で Llama 3 のファインチューニングを試す |npaka
  • MLX で Llama 3 を試す|npaka

    「MLX」で「Llama 3」を試したので、まとめました。 1. Llama 3「Llama 3」は、Metaが開発したオープンモデルです。 2. 推論の実行「MLX」は、Appleが開発した新しい機械学習フレームワークで、「Apple Silicon」(M1/M2/M3など) を最大限に活用するように設計されています。 推論の実行手順は、次のとおりです。 (1) Pythonの仮想環境の準備。 今回は、「Python 3.10」の仮想環境を準備しました。 (2) パッケージのインストールと実行。 今回は「mlx-community/Meta-Llama-3-8B-Instruct-4bit」のモデルを利用します。 pip install mlx-lm mlx_lm.generate --model mlx-community/Meta-Llama-3-8B-Instruct-4bit -

    MLX で Llama 3 を試す|npaka
  • Gemini 1.5 の概要|npaka

    以下の記事がおもしろかったので、簡単にまとめました。 ・Introducing Gemini 1.5, Google's next-generation AI model 1. Gemini 1.5「Gemini 1.5」は、劇的に強化されたパフォーマンスを提供するGoogleの新世代のAIモデルです。 早期テストのため、「Gemini 1.5 Pro」を最初にリリースします。幅広いタスクにわたるスケーリングに最適化された中規模のマルチモーダルモデルであり、これまでで最大モデルである「Gemini 1.0 Ultra」と同様のレベルで実行されます。また、長い文脈理解における画期的な実験的機能も導入しています。「Gemini 1.5 Pro」には、標準の128,000トークンのコンテキストウィンドウが付属します。 2. 非常に効率的なアーキテクチャ「Gemini 1.5」は、「Transfo

    Gemini 1.5 の概要|npaka
  • Google Colab で Gemini Pro をもっと試す|npaka

    1. GeminiのセットアップColabでの「Gemini」のセットアップ手順は、次のとおりです。 (1) パッケージのインストール。 # パッケージのインストール !pip install -q -U google-generativeai(2) パッケージのインポート。 Markdown出力のユーティリティ関数も準備してます。 import pathlib import textwrap import google.generativeai as genai from google.colab import userdata from IPython.display import display from IPython.display import Markdown # Markdown出力 def to_markdown(text): text = text.replace("•

    Google Colab で Gemini Pro をもっと試す|npaka
  • Gemini Pro のリリースの概要|npaka

    以下の記事が面白かったので、かるくまとめました。 ・It’s time for developers and enterprises to build with Gemini Pro 1. Gemini Pro のリリースの概要「Gemini Pro」の最初のバージョンが、「Gemini API」を介してアクセスできるようになりました。 ・「Gemini Pro」は、ベンチマークで他の同様のサイズのモデルを上回っています。 ・今日のバージョンにはテキスト用の32Kコンテキストウィンドウが付属しており、将来のバージョンにはより大きなコンテキストウィンドウがあります。 ・制限内で今すぐ無料で使用でき、競争力のある価格で提供します。 ・関数呼び出し、埋め込み、セマンティック検索、カスタム知識の根拠、チャット機能など、さまざまな機能が付属しています。 ・世界180以上の国と地域で38の言語をサポー

    Gemini Pro のリリースの概要|npaka
    urtz
    urtz 2023/12/15
  • OpenAI API で提供されている モデル まとめ|npaka

    OpenAI API」で提供されている「モデル」をまとめました。 ・Model - OpenAI API 1. OpenAI API で提供されている モデル「OpenAI API」で提供されている「モデル」は、次のとおりです。 ・GPT-4o : GPT-4よりも安価で高速な、最も先進的なマルチモーダルフラッグシップモデル ・GPT-4 : GPT-3.5を改善し、自然言語やコードを理解し、生成できるモデル ・GPT-3.5 : GPT-3を改善し、自然言語やコードを理解し、生成できるモデル ・DALL-E : 自然言語から画像を生成および編集できるモデル ・TTS : テキストを自然な音声に変換できるモデル ・Whisper : 音声をテキストに変換できるモデル ・Embedding : テキストをベクトル表現に変換できるモデル ・Moderation : テキストが機密または安全か

    OpenAI API で提供されている モデル まとめ|npaka
  • Google Colab で Xwin-LM-70B-V0.1-GPTQ を試す。|npaka

    Google Colab」で「Xwin-LM-70B-V0.1-GPTQ」を試したので、まとめました。 【注意】Google Colab Pro/Pro+のA100で70Bを動作確認しています。 1. Xwin-LM-70B-V0.1-GPTQ「Xwin-LM」は、ベンチマーク「AlpacaEval」で「GPT-4」を追い抜き1位を獲得したモデルです。 今回は、「TheBloke/Xwin-LM-70B-V0.1-GPTQ」を利用します。 2. Colabでの実行Colabでの実行手順は、次のとおりです。 (1) Colabのノートブックを開き、メニュー「編集 → ノートブックの設定」で「GPU」の「A100」を選択。 (2) パッケージのインストール。 GPTQを利用するため、「auto-gptq 」もインストールしています。 # パッケージのインストール !pip install t

    Google Colab で Xwin-LM-70B-V0.1-GPTQ を試す。|npaka
    urtz
    urtz 2023/09/23
  • Google Colab で Weblab-10B を試す|npaka

    Google Colab」で「Weblab-10B」を試したので、まとめました。 【注意】Google Colab Pro/Pro+のA100で動作確認しています。 1. Weblab-10B「Weblab-10B」は、「東京大学松尾研究室」が開発した、100億パラメータサイズ・日英2ヶ国語対応の大規模言語モデルです。 2. Weblab-10Bのモデル「Weblab-10B」では、次の2種類のモデルが公開されています。 ・matsuo-lab/weblab-10b : ベースモデル ・matsuo-lab/weblab-10b-instruction-sft : 指示モデル 3. Colabでの実行Colabでの実行手順は、次のとおりです。 (1) パッケージのインストール。 # パッケージのインストール !pip install transformers sentencepiece

    Google Colab で Weblab-10B を試す|npaka
    urtz
    urtz 2023/08/20
  • Google Colab で LINE の japanese-large-lm を試す|npaka

    Google Colab」でLINEの「japanese-large-lm」を試したので、まとめました。 1. japanese-large-lm「japanese-large-lm」は、「LINE」が開発した36億パラメータの日語LLMです。 2. japanese-large-lmのモデル「japanese-large-lm」では、次の3種類のモデルが提供されています。 ・line-corporation/japanese-large-lm-3.6b : ベースモデル ・line-corporation/japanese-large-lm-3.6b-instruction-sft : 指示モデル ・line-corporation/japanese-large-lm-1.7b : ベースモデル 3. Colabでの実行Colabでの実行手順は、次のとおりです。 (1) Colab

    Google Colab で LINE の japanese-large-lm を試す|npaka
    urtz
    urtz 2023/08/16
  • MPT-7B - オープンで商用利用可能なLLM|npaka

    以下の記事が面白かったので、簡単にまとめました。 ・Introducing MPT-7B: A New Standard for Open-Source, Commercially Usable LLMs 1. MPT-7B「MPT-7B」は、「MosaicML」が開発した、テキストとコードの1Tトークンでゼロから学習したLLMです。オープンソースで、商用利用可能で、LLAMA-7Bと同等の品質を持ちます。約20万ドル、人間介入なし、9.5日間、MosaicMLプラットフォームで学習しています。 2. モデル一覧ベースモデルに加えて、3つのファインチューニングモデルも提供しています。 2-1. MPT-7B (ベースモデル)「MPT-7B」は、6.7Bパラメータを持つベースモデルです。MosaicMLのデータチームが収集したテキストとコードの1Tトークンで学習しました。 ・ライセンス :

    MPT-7B - オープンで商用利用可能なLLM|npaka
  • ChatGPTプラグイン の概要|npaka

    OpenAI」の「ChatGPTプラグイン」の記事が面白かったので、かるくまとめました。 ・Chat Plugins - OpenAI API ・ウェイトリスト 1. ChatGPTプラグイン「ChatGPTプラグイン」は、「ChatGPT」をサードパーティのアプリケーションに接続するためのプラグインです。「ChatGPT」は、開発者によって定義されたAPIと対話し、機能を強化し、幅広いアクションを実行できるようになります。 次のような機能を追加できます。 ・リアルタイム情報の取得 (スポーツスコア、株価、最新ニュースなど) ・知識ベース情報の取得 (会社のドキュメント、個人的なメモなど) ・ユーザーに代わってアクションを実行 (フライトの予約、べ物の注文など) プラグイン開発者は、マニフェストファイルとAPIエンドポイントを公開します。これらはプラグインの機能を定義し、「ChatGP

    ChatGPTプラグイン の概要|npaka
  • OpenAI API で提供されている モデル まとめ|npaka

    1. GPT-3モデル「OpenAI API」は、用途に応じて様々なGPT-3モデルを提供しています。 ・GPT-3 : 自然言語を理解し生成するモデル ・Codex : 自然言語からコードへの変換 および コードを理解し生成するモデル ・Content filter : センシティブ および 安全でないテキストを検出するモデル ・Embeddings : 埋め込み (ベクトル表現) を生成するモデル 2. GPT-3GPT-3」は、自然言語を理解し生成することができるモデルです。 性能の異なる4つの主要モデルを提供しています。Davinciは最も高性能、Adaは最も高速なモデルになります。 2-1. text-davinci-003「GPT-3」の中で最も高性能なモデルです。他のモデルで可能なあらゆるタスクが可能で、多くの場合、より高い品質、より長い出力、より良い命令追従性が得られます

    OpenAI API で提供されている モデル まとめ|npaka
    urtz
    urtz 2023/01/16
  • HuggingFace Diffusers v0.4.0の新機能|npaka

    「Diffusers v0.4.0」の新機能についてまとめました。 ・Diffusers v0.4.0 前回 1. Diffusers v0.4.0 のリリースノート情報元となる「Diffusers 0.4.0」のリリースノートは、以下で参照できます。 2022年10月9日現在、若干の不具合対応したv0.4.1がリリースされています。 2. 速度が3倍に向上速度をほぼ 3倍に向上できるようになりました。さらに、デフォルトで float16 形式を使用するようになりました。float32よりも高速で、同等品質の画像が生成されます。 Stable Diffusion in the diffusers library became x3 times faster thanks to a set of optimizations tips, some of which require minima

    HuggingFace Diffusers v0.4.0の新機能|npaka
    urtz
    urtz 2022/10/14
  • Stable Diffusion web UI (AUTOMATIC1111) の使い方|npaka

    Stable Diffusion web UI (AUTOMATIC1111) の使い方をまとめました。 ・Windows 11 ・Stable Diffusion WebUI Docker v1.0.2 ・AUTOMATIC1111 1. AUTOMATIC1111「AUTIMATIC1111」は、「Stable Diffusion」のフォークの1つで、最も豊富な機能が提供されているフォークです。 主な特徴は、次のとおりです。 ・Text-to-Image : 多くのサンプラーとネガティブプロンプトが利用可能。 ・Image-to-Image : マスキング、トリミング、インペインティング、アウトペインティング、バリエーションが利用可能 ・GFPGAN、RealESRGAN、LDSR、CodeFormer ・ループバック、プロンプト重み付け、プロンプトマトリックス、X/Yプロット ・生成

    Stable Diffusion web UI (AUTOMATIC1111) の使い方|npaka
    urtz
    urtz 2022/09/18
  • HuggingFace Diffusers v0.3.0の新機能|npaka

    「Diffusers v0.3.0」の新機能についてまとめました。 ・Diffusers v0.3.0 1. Diffusers v0.3.0 のリリースノート情報元となる「Diffusers 0.3.0」のリリースノートは、以下で参照できます。 3. 新しいAPI「Pipeline」「Model」「Scheduler」の出力が、「sample」から「images」に置き換えられました。 image = pipe("The red cat is sitting on a chair")["sample"][0] ↓ image = pipe("The red cat is sitting on a chair").images[0] # or image = pipe("The red cat is sitting on a chair")["image"][0] # or image =

    HuggingFace Diffusers v0.3.0の新機能|npaka
    urtz
    urtz 2022/09/16
  • Google Colab で はじめる Waifu Diffusion v1.2|npaka

    「Waifu Diffusion v1.2」が二次元キャラの画像生成が得意らしいということで試してみました。 ・Diffusers v0.3.0 ・Waifu Diffusion v1.2 【最新版の情報は以下で紹介】 1. Waifu Diffusion v1.2「Waifu Diffusion v1.2」は、「Stable Diffusion」を二次元イラストのデータセットでファインチューニングして作られた画像生成AIです。Danbooruの画像で学習しています。 2. Colabでの実行Colabでの実行手順は、次のとおりです。 (1) 新規のColabのノートブックを開き、メニュー「編集 → ノートブックの設定」で「GPU」を選択。 (2) パッケージのインストール。 # パッケージのインストール !pip install diffusers==0.3.0 transformers

    Google Colab で はじめる Waifu Diffusion v1.2|npaka
    urtz
    urtz 2022/09/13
  • Google Colab で はじめる Stable Diffusion v1.4 (2) - img2img|npaka

    Google Colab」で「Stable Diffusion」のimg2imgを行う方法をまとめました。 ・Stable Diffusion v1.4 ・diffusers 0.3.0 前回 1. img2img「Stable Diffusion」は、テキストから画像を生成する、高性能な画像生成AIです。テキストからだけでなく、テキストと入力画像を渡して画像を生成することもできます。 4. テキストと入力画像で画像生成テキストと入力画像を渡して画像生成する手順は、次のとおりです。 (1) メニュー「編集→ノートブックの設定」で、「ハードウェアアクセラレータ」に「GPU」を選択。 (2) 「Stable Diffusion」のインストール。 # パッケージのインストール !pip install --upgrade diffusers==0.3.0 transformers scipy(

    Google Colab で はじめる Stable Diffusion v1.4 (2) - img2img|npaka
    urtz
    urtz 2022/09/04
    from diffusers import StableDiffusionImg2ImgPipeline にする必要あり
  • Google Colab で はじめる Stable Diffusion v1.4|npaka

    2. ライセンスの確認以下のモデルカードにアクセスして、ライセンスを確認し、「Access Repository」を押し、「Hugging Face」にログインして(アカウントがない場合は作成)、同意します。 4. Colabでの実行Colabでの実行手順は、次のとおりです。 (1) メニュー「編集→ノートブックの設定」で、「ハードウェアアクセラレータ」に「GPU」を選択。 (2) 「Stable Diffusion」のインストール。 # パッケージのインストール !pip install diffusers==0.3.0 transformers scipy ftfy(3) トークン変数の準備。 以下の「<HugginFace Hubのトークン>」の部分に、先程取得したHuggingFace Hubのトークンをコピー&ペーストします。 # トークン変数の準備 YOUR_TOKEN="<H

    Google Colab で はじめる Stable Diffusion v1.4|npaka
    urtz
    urtz 2022/08/23
    あっけないほど簡単。画像生成に数十秒ほどかかる。生成された画像ファイルはサイドバーからダブルクリックで開ける。GPUの性能の所為か、クオリティは低い
  • 1