並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 90件

新着順 人気順

transformers python pipelineの検索結果1 - 40 件 / 90件

  • とほほのローカルAI入門 - とほほのWWW入門

    docker run -it --name hf python:3.14 bash apt update apt -y install vim pip install transformers torch from transformers import pipeline pipe = pipeline(task="text-generation", model="distilgpt2") print(pipe("Hello")) Can I Run AI locally? 概要 https://www.canirun.ai/ WebGPU などの技術を用いてアクセス元 PC のスペックを調べ、スペックに応じたモデルをリストアップしてくれるサイトです。 ダウンロードサイズやメモリ消費量・速度などの目安も提示してくれます。 Llama.cpp 概要 LLaMa, Mistral, Gemma

    • WebAssemblyを用いてBERTモデルをフロントエンドで動かす - OPTiM TECH BLOG

      はじめまして。R&Dチーム所属、20.5卒の伊藤です。 普段の業務では自然言語処理と格闘していることが多いです。 今回は自然言語処理モデルとして有名なBERTをWebAssemblyを使用してフロントエンドで動かしてみた話になります。 最近、自然言語処理ライブラリとして普段お世話になっているHugging Face社のTransformersのTokenizerがRustで実装されていることを知り、それならばWebAssemblyにコンパイルして動かせるのではないかと試したみたのがきっかけです。 Tokenizerのみ動かしても実用性に乏しいため、Tokenizerから得られた結果からBERTを用いた推論をブラウザで動作させるまでを行い、備忘録がでら手順をまとめました。 どなたかの参考になれば幸いです。 8/26追記 本記事内のコードを含むリポジトリを公開しました!Dockerを使用してブ

        WebAssemblyを用いてBERTモデルをフロントエンドで動かす - OPTiM TECH BLOG
      • 日本語が通る大規模言語モデルCerebras-GPTを動かす - きしだのHatena

        またなんか大規模言語モデルが公開されてましたね。 ということで、Cerebrasが公開したモデルを動かしてみます。日本語が通る感じ。 商用利用可能というライセンスなども含めて、一番使いやすい気がします。 https://huggingface.co/cerebras ここでいろいろやってるようだけど、モデルを動かすスクリプトはありません。 https://github.com/Cerebras/modelzoo なので、自分でモデルを動かすコードを書くということになるけど、VTS-Techさんがgistで公開しているスクリプトを使わせてもらいます。 https://gist.github.com/Veritas83/bb858a2039fe84cd35af4064c0aa44d8 -mでモデルサイズ、-cでコマンドラインモード、-pでプロンプトを指定します。 >python VTSTech

          日本語が通る大規模言語モデルCerebras-GPTを動かす - きしだのHatena
        • 1BitLLMの実力を見る|shi3z

          1BitLLMは本当に実現可能なのか?そして、実現されると予告されていることに意味はあるのか? ようやく再現実装に成功した人が現れたので僕も試してみた。 ちなみに1Bit(1.58bit) LLMについての考察はこのページが面白いので一読をお勧めする。 ただし、普通のHuggingFaceのお作法とはかなり違うので注意が必要。 まず、このHuggingFaceリポジトリを丸ごとgit cloneする $ git lfs install $ git clone https://huggingface.co/1bitLLM/bitnet_b1_58-3B $ cd bitnet_b1_58-3Bこれをやらずにいつもの凡例みたいにいきなりpipelineに読み込もうとすると謎のエラーが出て悩まされることになる。海外でも悩んでる人が何人もいるみたいだ。まあ個人的には「こんな説明で誰がわかる?」と思

            1BitLLMの実力を見る|shi3z
          • Llama 3.2 の使い方|npaka

            以下の記事が面白かったので、簡単にまとめました。 ・Llama can now see and run on your device - welcome Llama 3.2 1. Llama 3.2 Vision 11B・90B1-1. Llama 3.2 Vision 11B・90B「Llama 3.2 Vision 11B・90B」は、Metaがリリースした最も強力なオープンマルチモーダルモデルです。画像+テキストのプロンプトでは英語のみ、テキストのみのプロンプトでは英語、ドイツ語、フランス語、イタリア語、ポルトガル語、ヒンディー語、スペイン語、タイ語をサポートしています。 コンテキスト長は128kトークンで、画像を含む可能性のある複数ターンの会話が可能です。ただし、モデルは単一の画像に注目する場合に最適に機能するため、transformers実装では入力で提供された最後の画像のみに注

              Llama 3.2 の使い方|npaka
            • 独断と偏見でまとめる2024年10月現在ゼロから学んで今から生成モデルをコーディングできるために必要な知識集 - Qiita

              Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? 所属大学にて9月に1日で機械学習なんもわからん状態から生成モデルを組めるようになろうというワークショップをした。普通に考えて参加者側の視点に立ったら無理なんだが, まあとにかくそういうイベントをやった。やってみたところ, 「何話してるのかわからん」という感想が多く大絶賛だった(反省しています)。 ただワークショップ中にきた質問が結構自分も最初のころは躓いたところだな〜〜というものも多く, ワークショップ中にきた質問点をまとめていけば案外生成AIをフルスクラッチで作れる技術者になるためのTips集が作れるのではないかと思い, この記事を書

                独断と偏見でまとめる2024年10月現在ゼロから学んで今から生成モデルをコーディングできるために必要な知識集 - Qiita
              • GPT-3.5世代のオープンな言語モデルを調べてみた - Qiita

                Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? GPT-3.5世代のオープンな言語モデルを調べてみました。 本稿では以下の特徴をもって「GPT-3.5世代」の言語モデルと定義しました。 ChatGPT等(text-davinci-003、gpt-3.5-turbo)の登場した2022年11月以降に登場 GPT-3と同様にテキスト生成ができる言語モデル GPT-3(text-davinci-003等)を主なベンチマークにしたり、学習に利用したりしている 「オープンな言語モデル」としていますが、本稿では以下いずれかを満たしていればオープンな言語モデルとします。一般的なオープンソース・ソフ

                  GPT-3.5世代のオープンな言語モデルを調べてみた - Qiita
                • ゼロからはじめるPython(128) Whisperでリアルタイム音声認識ツールを作ってみよう

                  オープンソースの音声認識モデルのWhisperを使うと、手軽に高品質な音声認識(文字起こし)が可能となる。今回は、Whisperを利用して簡単に使えるリアルタイム音声認識ツールを作ってみよう。 リアルタイム音声認識ツールを実行しているところ 音声認識モデルのWhisperとは 「Whisper」は、ChatGPTで有名なOpenAIが公開しているオープンソースの音声認識モデルだ。高精度な音声認識モデルで、英語だけでなく日本語を含めた多言語の音声をテキストに変換できる。ノイズの多い環境でも高い認識精度を誇り、議事録作成や字幕生成、自動文字起こしなどに活用されている。 Pythonから簡単に扱える点も魅力で、柔軟な応用が可能となっている。そこで、今回は、Pythonでリアルタイムの音声認識ツールを作ってみよう。 音声認識モデルのWhisperを公開しているWebサイト 音声認識に使うライブラリ

                    ゼロからはじめるPython(128) Whisperでリアルタイム音声認識ツールを作ってみよう
                  • Hugging Face Pipelineを使ったお手軽AIプログラミング | IIJ Engineers Blog

                    地方拠点の一つ、九州支社に所属しています。現在は技術探索・深堀業務を経て、ローカルLLM/SLM基盤やDifyを中心としたAIソリューションの技術バックヤードにヒッソリ潜みつつ活動しています。 2018年に神経難病を発症し、少しだけ体が不自由ですが、出来る力をフルに発揮しながら取り組む日々です。2023年から人間(男)をやめ、闇に隠れた「妖怪:AIばばぁ」として属性チェンジしながらも、悲喜交々ながら活動中です。ヒッヒッヒ Hugging Faceってご存じですか? AIを使用したプログラム・スクリプトを作る際、ゼロから起こす場合は以下のような部分を作り込んだり、Githubなどのリポジトリサイトからソースを入手したりする必要があったりします。 AIモデル トレーニングのためのロジック 評価・テストのためのロジック データローダ トレーニング・評価データを読み込むためのフォーマット、読み込み

                      Hugging Face Pipelineを使ったお手軽AIプログラミング | IIJ Engineers Blog
                    • ソースコード & ドキュメントに対応したGraph RAGの実装(Tree-sitter + LightRAG)

                      (module (function_definition (identifier) # ← ここに関数名「sample_func」が含まれます (parameters) (block (expression_statement (call (identifier) (argument_list (string)))))) (expression_statement (call (identifier) (argument_list)))) ノードが色々取れましたが、「function_definition」が関数、その子である「identifier」が関数名を表すため、 function_definition == 子ノード ==> identifier となっている箇所を探索すれば抽出できます(関数ではあっても「lambda」など異なる場合もあります)。 今回は上記のようにTree-si

                        ソースコード & ドキュメントに対応したGraph RAGの実装(Tree-sitter + LightRAG)
                      • LINE LLMをMacで動かす - きしだのHatena

                        先日、LINE(現LINEヤフー)のNLP Foundation Devチームから日本語言語モデルが公開されました。(以降LINE LLMと表記します) 36億パラメータの日本語言語モデルを公開しました Instruction Tuningにより対話性能を向上させた3.6B日本語言語モデルを公開します でも「NVIDIAのGPUがないと動かないんでしょ」と、試していない人も多いんではないでしょうか。 そこでこのブログでは、MacでLINE LLMを動かす手順をまとめたいと思います。 Windowsや他のLLMでもほぼ同じ手順で動かせるはずです。 次のような手順で進めます。 pythonインストール ライブラリインストール 1.7Bのサンプルコードを動かす チャットインタフェースで1.7Bを動かす CTranslateによる3.6B llama.cppによる3.6B Pythonインストール

                          LINE LLMをMacで動かす - きしだのHatena
                        • 2025: The year in LLMs

                          31st December 2025 This is the third in my annual series reviewing everything that happened in the LLM space over the past 12 months. For previous years see Stuff we figured out about AI in 2023 and Things we learned about LLMs in 2024. It’s been a year filled with a lot of different trends. The year of “reasoning” The year of agents The year of coding agents and Claude Code The year of LLMs on th

                            2025: The year in LLMs
                          • GPUより安く、かつ高速な推論を実現。Amazon EC2 Inf1・Inf2インスタンスの徹底活用法 - Findy Tools

                            公開日 2025/04/24更新日 2025/04/24GPUより安く、かつ高速な推論を実現。Amazon EC2 Inf1・Inf2インスタンスの徹底活用法 本記事は、株式会社ゼンプロダクツの清原弘貴さんによる寄稿です。 Shodoの開発・運用に携わる中で得た実践的な知見をもとに、自社でAIモデルをホスティングする際の技術的な工夫を紹介します。特に、AWS Inferentia(Inf1、Inf2インスタンス)を活用して、安価かつ高性能な推論基盤を構築する方法を解説します。 はじめにAI校正のShodoでは、自社のAIモデルを動かしてお客様の文章を校正しています。ですがAIを自分でホストするのは簡単ではありませんし、他のミドルウェア等と比べると費用もかかるものです。この記事では自身のAIモデルを、より安価で手軽にホストする方法を紹介します。BERTとLlamaベースの日本語モデルを例にし

                              GPUより安く、かつ高速な推論を実現。Amazon EC2 Inf1・Inf2インスタンスの徹底活用法 - Findy Tools
                            • PLaMo-13Bを公開しました - Preferred Networks Tech Blog

                              Preferred Networksでは、9月28日にPLaMo-13Bという大規模な言語モデル (LLM) を公開しました。公開されている他のモデルと比較して、日英2言語を合わせた能力で世界トップレベルの高い性能を示しています。実際に学習を回すまでの技術開発には自社スーパーコンピューターであるMN-2を利用し、学習はAI橋渡しクラウド(AI Bridging Cloud Infrastructure、ABCI) の”第一回 大規模言語モデル構築支援プログラム”を利用して行いました。 今後、PLaMo-13Bを基にした事前学習モデルや、指示学習を行ったモデルについても公開を予定しています。 PLaMo-13Bの概要 PLaMo-13Bは約130億個のパラメータからなる言語モデルです。 PLaMo-13Bは日本語・英語の2つの言語のベンチマークタスクで高い性能を示しています。日本で使われるL

                                PLaMo-13Bを公開しました - Preferred Networks Tech Blog
                              • Optimizing your LLM in production

                                Note: This blog post is also available as a documentation page on Transformers. Large Language Models (LLMs) such as GPT3/4, Falcon, and LLama are rapidly advancing in their ability to tackle human-centric tasks, establishing themselves as essential tools in modern knowledge-based industries. Deploying these models in real-world tasks remains challenging, however: To exhibit near-human text unders

                                  Optimizing your LLM in production
                                • TransformersのPipelinesで日本語固有表現抽出 - Retrieva TECH BLOG

                                  こんにちは。TSUNADE事業部研究チームリサーチャーの坂田です。 本記事では、Hugging Face 社が開発しているTransformersのPipelinesという仕組みを使って日本語の固有表現抽出を行う方法をご紹介します。 Transformersとは? 日本語学習済み言語モデル Pipelines Trainer 固有表現抽出とは? 実際に日本語NERTを試してみる 必要な各種依存ライブラリのインストール 使用するデータ 日本語固有表現抽出データセットでのFine-tuning Pipelinesを使った固有表現抽出 実行例 おわりに 参考 Transformersとは? TransformersはHuggingFace社が公開しているPython用ライブラリで、BERTを始めとするTransformer系の言語モデルを使用する際のデファクトスタンダードになっています。また、最

                                    TransformersのPipelinesで日本語固有表現抽出 - Retrieva TECH BLOG
                                  • openai/gpt-oss-120b · Hugging Face

                                    ","eos_token":"<|return|>","pad_token":"<|endoftext|>"},"chat_template_jinja":"{#-\n In addition to the normal inputs of `messages` and `tools`, this template also accepts the\n following kwargs:\n - \"builtin_tools\": A list, can contain \"browser\" and/or \"python\".\n - \"model_identity\": A string that optionally describes the model identity.\n - \"reasoning_effort\": A string that describes t

                                      openai/gpt-oss-120b · Hugging Face
                                    • H200 GPU x 8基で Qwen2.5-VL-72B-Instruct を使った OCR を試してみる - ABEJA Tech Blog

                                      ABEJAでデータサイエンティストをしている藤原です。 今回は、株式会社ハイレゾ様のGPUクラウドサービス「GPUSOROBAN」で H200 GPU × 8基構成のシングルノードサーバを用いて、大規模モデルを使用した検証を実施しました。本記事では、その検証でのGPUサーバの使用方法や、検証内容の一つである Qwen2.5-VL-72B-Instruct を用いたOCRの結果についてご紹介します。 highreso.jp はじめに GPUクラウドサービス「GPUSOROBAN」について GPUサーバの使い方の方針と事前準備 Qwen2.5-VL-72B-Instruct を使った OCR を試してみる 条件 実装 実行時のGPU使用状況と処理速度 検証1. 通常の文書のOCR 検証2. チャート・グラフのようなテキストで表現されていない情報のテキスト化 検証3. 複雑なレイアウトのドキュメ

                                        H200 GPU x 8基で Qwen2.5-VL-72B-Instruct を使った OCR を試してみる - ABEJA Tech Blog
                                      • CohereLabs/c4ai-command-r-plus · Hugging Face

                                        ","chat_template":[{"name":"default","template":"{{ bos_token }}{% if messages[0]['role'] == 'system' %}{% set loop_messages = messages[1:] %}{% set system_message = messages[0]['content'] %}{% elif false == true %}{% set loop_messages = messages %}{% set system_message = 'You are Command-R, a brilliant, sophisticated, AI-assistant trained to assist human users by providing thorough responses. You

                                          CohereLabs/c4ai-command-r-plus · Hugging Face
                                        • Llama2の70Bモデルを4bit量子化して1GPUで実行する方法 - TadaoYamaokaの開発日記

                                          個人メモ Hugging Faceで公開されているLlama2のモデルを使用して、4bit量子化を有効にして、70Bのモデルを1GPU(A100)で推論する方法について記述する。 dockerコンテナ作成 NVIDIAのPyTorchイメージを使用してDockerコンテナを作成する。 ※ホストのドライババージョンが古いため、少し前のイメージを使用している。 コマンド例 docker run --gpus all --network host -v /work:/work -w /work -it nvcr.io/nvidia/pytorch:22.12-py3 PyTorchバージョンアップ xformersがpytorch 2.0.1を要求するためPyTorchをアンインストールしてからインストール pip uninstall torch torchvision torchtext to

                                            Llama2の70Bモデルを4bit量子化して1GPUで実行する方法 - TadaoYamaokaの開発日記
                                          • Emerging Architectures for LLM Applications | Andreessen Horowitz

                                            There are many different ways to build with LLMs, including training models from scratch, fine-tuning open-source models, or using hosted APIs. The stack we’re showing here is based on in-context learning, which is the design pattern we’ve seen the majority of developers start with (and is only possible now with foundation models). The next section gives a brief explanation of this pattern; experi

                                              Emerging Architectures for LLM Applications | Andreessen Horowitz
                                            • RTX3060x2のGPUで激安ローカルLLMマシンを構築。 | blueqat

                                              こんにちは、安くLLMを構築したいですね。おすすめ構成をお知らせします。 LLMは大規模言語モデルのことで、AIがChatGPTみたいに文章を作ってくれます。無料で使えますが、業務で使おうとすると結構難点があるし、データの漏洩とか含めて困りますね。手元のローカルでLLMを作る際のおすすめ構成をお知らせします。 まず、LLMを作るには、マザーボード、CPU、メモリ、SSD、電源、ケース、そしてGPUが必要です。ソフトウェアやOSはすべて無料で手に入りますので、心配入りません。 まず、ケースにマザーボード、CPU、メモリ、SSD、電源をセットします。この辺りは標準的な構成をお勧めします。 肝心なのはGPUで、VRAMのサイズが搭載できるLLMの性能を左右します。パラメータ数7Bのモデルが標準的に使われていますので、 14GB程度のVRAMが必要です。 そこで、よく使われるのがおそらく安価でVR

                                                RTX3060x2のGPUで激安ローカルLLMマシンを構築。 | blueqat
                                              • えぬえるぴーや 1ねんせい

                                                Event: みんなのPython勉強会#82 Presented: 2022/06/09 nikkie BERT以後の自然言語処理入門を話します いい感じのタイトルは「えぬえるぴーや 1ねんせい」となりました 元ネタは こちら (香川照之さん) BERTを ばーっと理解 しましょう 皆さんの自然言語処理経験 お前、誰よ にっきー / Twitter @ftnext / GitHub @ftnext えぬえるぴーや 4年生(株式会社ユーザベースのデータサイエンティスト) Python大好き 6年生(みんなのPython勉強会のスタッフ) えぬえるぴーやの提唱者 電波受信! 自然言語処理(NLP)に従事する者の呼称、 NLPer(えぬえるぴーや) SIerと同じ読み方なら、えぬえるぴあー、でも「ぴーや」もそんなに変わらないのでは? 試しに今後のLTなどで名乗って見よう — nikkie にっ

                                                  えぬえるぴーや 1ねんせい
                                                • LLMサービングライブラリの LMDeploy と vLLM を比較した - Taste of Tech Topics

                                                  皆さんこんにちは。 Acroquest のデータサイエンスチーム「AcroYAMALEX」を率いるチームリーダー、@tereka114です。 AcroYAMALEX では、コンペティション参加・自社製品開発・技術研究に日々取り組んでいます。チーム紹介はこちら。 本記事は、「学習推論ライブラリ・フレームワーク Advent Calendar 2025」の25日目です。 qiita.com LLMは相変わらず新しいモデルが登場し世間を賑わせています。 しかし、モデル自体が重く、計算時間がかかります。そのため、LLMの推論では計算速度が重要となります。 「vLLM」では、LLMを効率的に推論する技術を用いて、推論の高速化を実現してきました。 ※以前、本ブログでも次の記事で「vLLM」による高速化について紹介しました。 acro-engineer.hatenablog.com 今回は「vLLM」と

                                                    LLMサービングライブラリの LMDeploy と vLLM を比較した - Taste of Tech Topics
                                                  • npm感覚でPython環境を構築!非PythonエンジニアがuvでPythonプロジェクト(Talk to the City)を動かす

                                                    uv を使った Python のパッケージ依存関係の解決方法を解説していきます。 業務やプライベートで扱う言語は Node.js がメインで、普段は npm や pnpm を使ってライブラリの依存関係を解決しています。 そんな私がある機会でTalk to the Cityを検証して欲しいと頼まれました。 Talk to the City は 2024 年の東京都知事選挙で安野たかひろ氏のチームが使ったことで注目された Python プロジェクトです。 Python の開発環境を作って README 通りに動作させてやれば良いかと進めていったところで絶望しました。 DevContainer を用いてクリーンな Python の実行環境を用意して試したのですが、2025 年 3 月 19 日現在、デモ通り動かしてもエラーが発生します。 ImportError: cannot import na

                                                      npm感覚でPython環境を構築!非PythonエンジニアがuvでPythonプロジェクト(Talk to the City)を動かす
                                                    • swift-transformers で LLM を動かしてみた - ABEJA Tech Blog

                                                      ABEJA でエンジニアをしている石川です。これは ABEJA アドベントカレンダー 2024 の 18 日目の記事です。 CoreML で機械学習モデルを動かす swift-transformers を試す Mistral 7B モデルを動かす swift-transformers で推論を実装する Python で動かしてみる CoreML モデルに変換 Swift で動かす パフォーマンス We Are Hiring! macOS/iOS で機械学習モデルを動かすにはいくつかの方法がありますが、Apple シリコンの能力を十分に引き出すためには CoreML を使うのが最適です。 Python 向け機械学習フレームワークである PyTorch も MPS バックエンドによって、Apple シリコンの GPU を利用することはできます。しかし、Apple の NPU (Neural P

                                                        swift-transformers で LLM を動かしてみた - ABEJA Tech Blog
                                                      • Llama 3.1 の新機能と使い方|npaka

                                                        以下の記事が面白かったので、簡単にまとめました。 ・Llama 3.1 - 405B, 70B & 8B with multilinguality and long context 1. Llama 3.1 の新機能「Llama 3.1」の新機能は、次のとおりです。 ・128Kトークンの大きなコンテキスト長 (元は8K) ・多言語 ・ツールの使用 ・4,050億パラメータの非常に大きな高密度モデル ・より寛容なライセンス 8B、70B、405Bの3つのサイズがあり、それぞれにベースモデルと指示モデルがあります。128Kトークンのコンテキスト長と、英語、ドイツ語、フランス語、イタリア語、ポルトガル語、ヒンディー語、スペイン語、タイ語を含む8つの言語をサポートしています。「Llama 3.1」は、より長いコンテキストに役立つ効率的な表現である「Grouped-Query Attention」(

                                                          Llama 3.1 の新機能と使い方|npaka
                                                        • はじめての自然言語処理 spaCy 3.0 で Transformer を利用する | オブジェクトの広場

                                                          今更ですが今年の2月に spaCy 3.0 が公開されました。 3.0 で導入された新機能の中で目玉と言えるのは、やはり Hugging Face Transformers (以下、単にTransformers) のサポートや PyTorch, Tensorflow との連携になるでしょう。今回はその辺りを実際に学習を動かしながら紹介したいと思います。 1. はじめに 今回は今年の2月に公開された spaCy 3.0 の話です。 spaCy は第4回でも紹介しましたが、研究者向けというよりは自然言語処理アプリ開発者向けのオープンソース自然言語処理ライブラリになります。日本語を含めた様々な言語の学習済みモデルが存在しており、 spaCy をインストールして、学習済みモデルをダウンロードするだけで、分かち書き、品詞や依存関係の推定、単語や文の類似度の判定など様々な機能を使用することができます。

                                                            はじめての自然言語処理 spaCy 3.0 で Transformer を利用する | オブジェクトの広場
                                                          • 日本語音声認識に特化したWhisperである kotoba-whisper-v1.0を早速試してみた | DevelopersIO

                                                            はじめに 昨日公開された日本語音声認識に特化した「Kotoba-Whisper」のkotoba-whisper-v1.0を試してみました。 本モデルは、OpenAIの「Whisper large-v3」を教師モデルとして使用し、蒸留(大規模な学習モデルから、同機能を持つより小さなモデルを開発する手法)を用いて開発されました。 kotoba-whisper-v1.0は、ReazonSpeechコーパスの一部である日本語音声と文字起こしのペアデータセットを使用して学習されたモデルです。学習データには、日本のテレビ番組の音声と、文字起こしたものが含まれています。具体的には、1,253時間の音声データと16,861,235文字の文字起こしデータが使用されています。 本モデルは、Pythonのライブラリであるtransformersに対応しており、短時間の音声ファイルの文字起こしから、長時間の音声フ

                                                              日本語音声認識に特化したWhisperである kotoba-whisper-v1.0を早速試してみた | DevelopersIO
                                                            • GitHub - RUC-NLPIR/FlashRAG: ⚡FlashRAG: A Python Toolkit for Efficient RAG Research (WWW2025 Resource)

                                                              [25/08/06] 🎯 NEW! We have added support for Reasoning Pipeline, which is a new paradigm that combines reasoning ability and retrieval, representing work that includes R1-Searcher, Search-R1,.... We evaluate the performance of the pipeline on various RAG benchmarks, it can achieve F1 scores close to 60 on multi hop inference datasets such as HotpotQA. See it in result table. [25/03/21] 🚀 Major Up

                                                                GitHub - RUC-NLPIR/FlashRAG: ⚡FlashRAG: A Python Toolkit for Efficient RAG Research (WWW2025 Resource)
                                                              • HuggingFace での Llama 2 の使い方|npaka

                                                                以下の記事が面白かったので、軽くまとめました。 ・Llama 2 is here - get it on Hugging Face 1. Llama 2「Llama 2」は、Metaが開発した、7B・13B・70B パラメータのLLMです。 長いコンテキスト長 (4,000トークン) や、70B モデルの高速推論のためのグループ化されたクエリアテンションなど、「Llama 1」と比べて大幅な改善が加えられています。 そして、このリリースの最もエキサイティングな部分は、「RLHF」を使用して対話用に最適化されたモデル「Llama 2-Chat」です。 有用性と安全性の幅広いベンチマークにおいて、「Llama 2-Chat」ほとんどのオープンモデルよりも優れたパフォーマンスを示し、人間の評価によるとChatGPTと同等のパフォーマンスを達成しています。 2. デモ以下のスペースで、「Llama

                                                                  HuggingFace での Llama 2 の使い方|npaka
                                                                • とうとうRyzen + RADEONのAMD環境にもWindowsで動くStable Diffusionがきた - 徒労日記

                                                                  やっと来たAMD最初の一歩。DirectMLでAMD GPUを動かす 定期的にAMDxSD x Winのことを調べていますが、今回この記事に行き当たりました。Running Stable Diffusion on Windows with an AMD GPU Unfortunately, in its current state, it relies on Nvidia’s CUDA framework, which means that it only works out of the box if you’ve got an Nvidia GPU. Fear not, however. Because Stable Diffusion is both a) open source and b) good, it has seen an absolute flurry of activ

                                                                    とうとうRyzen + RADEONのAMD環境にもWindowsで動くStable Diffusionがきた - 徒労日記
                                                                  • ChatGPT x LangChain で独自ドキュメントのベクターストア検索をチューニングする - GMOインターネットグループ グループ研究開発本部

                                                                    D.Mです。 ChatGPT を開発の現場で活かしていくためにベクターストア活用の方法を検証しました。 結論ファースト A. ベクターストアに入れる元ネタドキュメントの抽出 ⇒ unstructured が使えるかも B. ベクターストアに入れる元ネタドキュメントのチャンク分け ⇒ タイトル。キーワードをメタデータで付加 C. ベクターストアに投げる質問プロンプトの最適化 ⇒ 形態素またはキーワード抽出でプロンプトを精査 D. ベクターストア検索結果の精査 ⇒ ContextualCompressionRetriever による検索結果要約とDocumentCompressorPipeline による検索結果絞り込みがよさげ 「検索結果が質問に沿ったものか精査させる」タスクをChatGPTに担当してもらうことが私の業務課題には適しているのではという気付きがありました。 E. (おまけ)ベク

                                                                      ChatGPT x LangChain で独自ドキュメントのベクターストア検索をチューニングする - GMOインターネットグループ グループ研究開発本部
                                                                    • Andrej Karpathy — AGI is still a decade away

                                                                      The Andrej Karpathy episode. Andrej explains why reinforcement learning is terrible (but everything else is much worse), why model collapse prevents LLMs from learning the way humans do, why AGI will just blend into the previous ~2.5 centuries of 2% GDP growth, why self driving took so long to crack, and what he sees as the future of education. Watch on YouTube; listen on Apple Podcasts or Spotify

                                                                        Andrej Karpathy — AGI is still a decade away
                                                                      • SentenceTransformers Documentation — Sentence Transformers documentation

                                                                        Getting Started Installation Install with uv Install with pip Install with Conda Install from Source Editable Install Install PyTorch with CUDA support Quickstart Sentence Transformer Cross Encoder Sparse Encoder Next Steps Migration Guide Migrating from v5.x to v5.4+ Updated import paths Renamed methods and parameters CrossEncoder.max_length property renamed to max_seq_length Trainer tokenizer pa

                                                                        • openai/gpt-oss-20b · Hugging Face

                                                                          ","eos_token":"<|return|>","pad_token":"<|endoftext|>"},"chat_template_jinja":"{#-\n In addition to the normal inputs of `messages` and `tools`, this template also accepts the\n following kwargs:\n - \"builtin_tools\": A list, can contain \"browser\" and/or \"python\".\n - \"model_identity\": A string that optionally describes the model identity.\n - \"reasoning_effort\": A string that describes t

                                                                            openai/gpt-oss-20b · Hugging Face
                                                                          • ElasticsearchのIngest Pipelineでtext embeddingを埋め込む & サクッとKNN+BM25のHybrid Searchを試せるリポジトリを作った - ときどき起きる

                                                                            本記事は情報検索・検索技術 Advent Calendar 2022の4日目の記事です。 こんにちは、pakioです。 先日のElasticON Tokyoに参加した際、とても興味深いセッションがありました。 The search for relevance with Vector Search 内容としては以下のブログと同じかと思います。 www.elastic.co ざっくり説明するとElasticsearch + Ingest Pipelineを使えば自前でMLモデルから特徴量を抽出するようなサービスを立ち上げる必要なく、ドキュメントにembeddingを埋め込めるよと言った内容の講演でした。 かつ、Ingest Pipelineを利用することで、リアルタイム更新にも対応しているという優れものです。これは試してみるしかと思い、今回はその検証を行ったリポジトリを公開・及び主要なポイント

                                                                              ElasticsearchのIngest Pipelineでtext embeddingを埋め込む & サクッとKNN+BM25のHybrid Searchを試せるリポジトリを作った - ときどき起きる
                                                                            • 大規模言語モデル(Llama2など)を正攻法でファインチューニングする際のメモ(ZeRO-Offload, not QLoRA) |Kan Hatakeyama

                                                                              背景と目的大きめのサイズ(>数b)の大規模言語(LLM)をファインチューニングします。 ファインチューニングにはLoRAやQLoRAと呼ばれる手法が良く使われ、一般家庭レベル(?)のGPUでも動かせるようになってきています。 しかし、LoRAで学習させられる知識や情報には、制約があるのでは、とも囁かれています。 そこで、本記事は、loraではないフルパラメータのファインチューニングを、限られたGPUメモリで行います。 deepspeedというライブラリを使います。 deepspeedにはモデルの動作に必要なメモリをCPUメモリに移す機能などがあるようで、それを使います(キーワード: offload, ZeRO)。 7bモデルは20GB程度のVRAMで学習できました。 以下の公式チュートリアルをもとに進めたいところですが、情報が断片的で、自分にはあまり理解できなかったので、webサイトを適当

                                                                              • はじめての自然言語処理 DeepSpeed-Chat による RLHF の紹介 | オブジェクトの広場

                                                                                今回は DeepSpeed-Chat による RLHF のご紹介です。正直、データセットや計算資源の都合もあり、とりあえず動かしてみました!的な話にはなりますが、RLHF の効果が実際に確認できるか見てみたいと思います。 1. はじめに 今回は DeepSpeed-Chat1 を使って RLHF を試してみたいと思います。RLHF は Reinforcement Learning from Human Feedback の略で文字通り「人からのフィードバックを用いた強化学習」ということですね。OpenAI が InstructGPT(ChatGPT の元になったモデル)2 で使ったことで注目された手法になります。 LLM がらみで何か記事にしたいと思いつつ、日々新たな LLM が発表されている昨今に、隔月&内容が実時間から月単位で遅れ気味wの本連載です。 「どうしたもんかな。。。」と悩みに

                                                                                  はじめての自然言語処理 DeepSpeed-Chat による RLHF の紹介 | オブジェクトの広場
                                                                                • The Best GPUs for Deep Learning in 2023 — An In-depth Analysis

                                                                                  Deep learning is a field with intense computational requirements, and your choice of GPU will fundamentally determine your deep learning experience. But what features are important if you want to buy a new GPU? GPU RAM, cores, tensor cores, caches? How to make a cost-efficient choice? This blog post will delve into these questions, tackle common misconceptions, give you an intuitive understanding

                                                                                    The Best GPUs for Deep Learning in 2023 — An In-depth Analysis