タグ

自然言語処理に関するmisshikiのブックマーク (3,200)

  • AI専門の新情報サイト「4AI by @IT」開設 - プレスルーム

    ■主なコンテンツ予定 ・クラウドサービスだけじゃない! ローカルPCやサーバ、Kubernetesで生成AI ・LangChainで始めるRAG開発入門 ・Microsoft Copilot Studioで始めるAIエージェント開発入門 ・ファインチューニング実践ノウハウ ・AIモデルを狙った攻撃を防ぐ方法 ・ビジネス起点に学ぶ、生成AI活用の勘所 ・「責任あるAI」をどう具現化するか ■編集長コメント @IT編集長 平田 修 OpenAIの「ChatGPT」の登場によって「AI人工知能)活用」は新たな局面を迎えました。テキストや画像などを「生成」するAIは、これまで「分析」や「認識」が主流だったAIに対する人々の意識を大きく変えたといえるでしょう。ビジネスにどう適用できるか模索したり、既に実業務に生かしたりなど、さまざまな国や企業・組織がAI活用を推進しています。 AIは急に生まれてき

    misshiki
    misshiki 2025/02/04
    “AIを作り、動かし、守り、そして生かすためには(for AI)、どうすればいいのか――。エンジニアが直面するこうした4つの課題に対して確かな指針となり、学びの場を提供すべく、@ITは「4AI by @IT」を立ち上げます。”
  • Model Context Protocol の現在地

    バクラク事業CTO 中川佳希です。バクラク事業部 Platform Engineering 部では定期的な発信を行っています。前回は、Microsoft Entra ID PIM for Groupsの運用と工夫 by itkq でした。(とても便利です!) この記事では、Model Context Protocol(MCP)について触れていきます。※ 2025年2月時点での情報です。 Model Context Protocol 2024年11月に、Anthropicが発表したクライアント-サーバー間通信のプロトコルです。 仕様策定やエコシステムにはオープンコミュニティから誰でも参加可能で、各言語の実装SDKもオープンソースで開発されています。AnthoropicではMCP開発チームのジョブも公開されており、コミュニティとともに開発へのコミットメントをしていくことがうかがえます。 Why

    Model Context Protocol の現在地
    misshiki
    misshiki 2025/02/04
    “「データや機能をエクスポーズするサーバー」と「呼び出し側であるクライアント」の通信プロトコルを定め、LLMにコンテキストを渡す方法を標準化しようとするのがMCPです。”
  • Optimizing Jupyter Notebooks for LLMs

    January 15, 2025 · 4 mins · 762 words I’ve been using LLM-assisted coding for the last couple of months, and it has been a game-changer. After a couple of iterations, my setup consists in ContinueDev + OpenRouter. I’m using OpenRouter because I can access all the models I need from a single provider and control my budget from a single entry point. Use Sonnet 3.6 for “easy” questions or edits, and

  • DeepSeekがやっていると噂の蒸留というやつを、ローカルLLMで今すぐやってみる 前編

    前提 この記事では、「Symbolic Knowledge Distillation: from General Language Models to Commonsense Models」という論文で提案されている 記号知識蒸留 を、ローカルLLMで日語で実験する。 詳細 知識蒸留 (Knowledge Distillation) とは、大きなモデル (教師) から小さなモデル (生徒) に知識を転送する手法である 具体的には、LLMの蒸留と言えば、大きなモデルが出力する確率分布(ソフトターゲット)を利用して、小さいモデルを学習させる手法が用いられていた しかし、論文では、「象徴的」な知識蒸留として、単に数値的な蒸留ではなく、 テキスト (symbolic knowledge) の形で知識を抽出し転送すること を提案している 必要な知識と開発環境 ollamaとPythonとLang

    DeepSeekがやっていると噂の蒸留というやつを、ローカルLLMで今すぐやってみる 前編
    misshiki
    misshiki 2025/02/04
    “知識蒸留 (Knowledge Distillation) とは、大きなモデル (教師) から小さなモデル (生徒) に知識を転送する手法である”
  • UnslothのGoogle Colabノートブックで手軽にLLMの蒸留ができる|shi3z

    これがすごく簡単なので、蒸留をお手軽に試したいという人にうってつけだと思う。何よりすごいのは、彼らが実装した動的量子化のおかげで、4ビットLoRA(QLoRA)の性能劣化が抑えられ、無料アカウントでも7Bモデルくらいなら学習できてしまうということ。 学習そのものも数分から数十分で終わってしまうので、これまでにあったような「蒸留/ファインチューニングは凄く大変」というイメージでもない。目から鱗という感じ。 いろいろなLLMを簡単に高速化できるので試してみるのも面白いかもしれない。 https://unsloth.ai/ Unslothが自分で用意した量子化モデルの一覧はこちら 自分でもPhi-4の蒸留を試してみたが、少しハマりどころがある。 まず、xformerのバージョンやら何やらを揃えないといけない。 Pythonは3.10で、CUDA12.1でやった。GPUはA100 80GBx1を使

    UnslothのGoogle Colabノートブックで手軽にLLMの蒸留ができる|shi3z
    misshiki
    misshiki 2025/02/04
    “彼らが実装した動的量子化のおかげで、4ビットLoRA(QLoRA)の性能劣化が抑えられ、無料アカウントでも7Bモデルくらいなら学習できてしまう”
  • 高速推論が可能なレイテンシ重視AIモデル「Mistral Small 3」がリリースされる

    フランスのAIスタートアップであるMistral AIが、レイテンシを重視したAIモデル「Mistral Small 3」をオープンソースライセンスでリリースしました。今回リリースされたMistral Small 3をベースに強化学習などを使用してさらに強力なモデルが作成できる可能性があるとのことです。 Mistral Small 3 | Mistral AI | Frontier AI in your hands https://mistral.ai/news/mistral-small-3/ 以下は縦軸をパフォーマンス、横軸をレイテンシとして「Mistral Small 3」「GPT-4o Mini」「Gemma-2 27B」「Qwen-2.5 32B」を並べた図。Mistral Small 3は図の左上にあり、素早く質の高い回答を生成できることが分かります。Mistral Small

    高速推論が可能なレイテンシ重視AIモデル「Mistral Small 3」がリリースされる
    misshiki
    misshiki 2025/02/04
    “Mistral AIが、レイテンシを重視したAIモデル「Mistral Small 3」をオープンソースライセンスでリリースしました。今回リリースされたMistral Small 3をベースに強化学習などを使用してさらに強力なモデルが作成できる可能性があ
  • RAG プロジェクトを成功させる方法 #1 ~ あるいは早く失敗しておく方法 ~ - builders.flash☆ - 変化を求めるデベロッパーを応援するウェブマガジン | AWS

    こんにちは、自動車・製造ソリューションアーキテクトの呉です。 昨今 RAG (Retrieval Augmented Generation, 検索拡張生成) が流行っています。RAG はここ数年の技術で流行り廃りが早く、RAG のテクニックはすぐ古新聞になってしまいますが、変わらないものも見えてきました。また、RAG においては「RAG システム出来た ! みんな使ってくれ !! 」から、思ったほど業務で利用できるレベルの回答を得られる確率が低く、「使い物にならん !! 誰が使うか !!」みたいな悲劇と失望も巷ではちらほら伺います。稿では、その変わらないだろう部分にフォーカスし、どうすれば RAG プロジェクトを成功させられるか、あるいは素早く失敗してダメージ軽減をするかについて、体験談に基づいて紹介していきます。 ちなみに連載ものの予定で、次回は検索基盤としての AWS で扱える ベク

    RAG プロジェクトを成功させる方法 #1 ~ あるいは早く失敗しておく方法 ~ - builders.flash☆ - 変化を求めるデベロッパーを応援するウェブマガジン | AWS
    misshiki
    misshiki 2025/02/04
    “その変わらないだろう部分にフォーカスし、どうすれば RAG プロジェクトを成功させられるか、あるいは素早く失敗してダメージ軽減をするかについて、体験談に基づいて紹介”
  • RAGで「AIエージェント」を使う手法まとめ

    記事では、RAGの性能を高めるための「Agentic RAG」という手法について、ざっくり理解します。株式会社ナレッジセンスは、エンタープライズ企業向けにRAGを提供しているスタートアップです。 この記事は何 この記事は、「AIエージェント」をRAGに取り入れた手法である「Agentic RAG」のサーベイ論文[1]について、日語で簡単にまとめたものです。 今回も「そもそもRAGとは?」については、知っている前提で進みます。確認する場合はこちらの記事もご参考下さい。 題 ざっくりサマリー Agentic RAG は、RAGの新しい手法です。この論文では、「RAGにAIエージェントを使っている」とはどういう状態なのか、どんなパターンがあるのかまとめられています。クリーブランド・ステート大学の研究者らによって、2025年1月に発表された論文です。 最近、「AIエージェント」が注目されてい

    RAGで「AIエージェント」を使う手法まとめ
    misshiki
    misshiki 2025/02/04
    “「Agentic RAG」という手法では、RAGシステムの中でLLM自身が、①振り返り・②計画・③ツール利用・④複数エージェントでの協力を、できる仕組みにしています。”
  • LangChain アプリケーション開発入門 - Streamlit 活用ガイド

    はじめに 最近、Large Language Models (LLM, 大規模言語モデル)を活用する機会が増えてきたことをきっかけに、LangChain の機能を試してみました。 フロントエンドエンジニアとして働く私のような初心者でも LangChain を試すことができるよう、基的な内容をまとめ、簡単なサンプルコードをご紹介させていただきます。 これから LangChain の学習を始める方の参考になれば幸いです。 対象読者 LangChain に興味があるものの、始め方がわからない方 LLM を活用したアプリケーション開発に興味がある方 Python でのプログラミング経験をお持ちの方 Streamlit での開発を検討されている方 事前準備 記事では Visual Studio Code を開発環境として使用しています。 内容は「基編」と「実践編」の2部構成になっています。 基

    LangChain アプリケーション開発入門 - Streamlit 活用ガイド
    misshiki
    misshiki 2025/02/04
    “LangChain と Streamlit 使って簡単なチャットアプリを作成する方法をご紹介”
  • 使う生成AIから創る生成AIヘ ローカルPCやオンプレミスで生成AI環境を構築してみよう

    使う生成AIから創る生成AIヘ ローカルPCやオンプレミスで生成AI環境を構築してみよう:クラウドサービスだけじゃない! ローカルPCやサーバ、Kubernetesで生成AI(1) 2022年以降、生成AIはブームを超えた存在になりつつあるといっても過言ではありません。気軽に試せるラップトップ環境で、チャットbotを提供するオールインワンの生成AI環境構築から始め、Kubernetesを活用した格的なGPUクラスタの構築やモデルのファインチューニングまで解説する連載。初回は、ローカル環境でカンタンに生成AIモデルを実行する方法や、生成AIを学んでいく上で押さえておきたいアーキテクチャを丁寧に解説します。

    使う生成AIから創る生成AIヘ ローカルPCやオンプレミスで生成AI環境を構築してみよう
    misshiki
    misshiki 2025/02/04
    生成AIの全体像を俯瞰し、Ollamaで動かす手順から、「AI開発ラブラリ~GPUなどのハードウェア」で構成される生成AIアーキテクチャまで、と全体概要をコンパクトにまとめた記事。生成AI導入担当の技術者向き新連載。
  • 「DeepSeek-R1は厳格なレッドチームテストと安全性評価を受けている」Microsoftが公式ブログにて言及/Azure AI FoundryとGitHubで「R1」を提供開始

    「DeepSeek-R1は厳格なレッドチームテストと安全性評価を受けている」Microsoftが公式ブログにて言及/Azure AI FoundryとGitHubで「R1」を提供開始
    misshiki
    misshiki 2025/02/04
    “「モデルの動作の自動評価や潜在的なリスクを軽減するための広範なセキュリティレビューなど、厳格なレッドチームテストと安全性評価を受けている」”
  • O3-miniとO1を比較してみた

    🌟 1. はじめに 🚀 1.1 背景 近年、人工知能AI)の進化は目覚ましく、特に自然言語処理(NLP)分野では大規模言語モデル(LLM)の革新が進んでいます。OpenAI はこの分野のリーダーとして、さまざまな用途に対応する推論モデルを開発してきました。中でも o3 シリーズ、o1 シリーズ、GPT-4o は、それぞれ異なる特徴と用途を持つモデルとして注目されています。 🔬 o3 シリーズ 特徴: STEM(科学、技術、工学、数学)分野の推論能力を強化 ラインナップ: 軽量な「o3-mini」と高精度モードの「o3-mini-high」 用途: 数学やプログラミングなど、教育機関や中小規模プロジェクト向け 🔧 o1 シリーズ 特徴: STEM に限らず幅広いタスクに対応可能な汎用モデル ラインナップ: 軽量版「o1-mini」、標準版「o1」、最上位モデル「o1-pro」 用途

    O3-miniとO1を比較してみた
    misshiki
    misshiki 2025/02/04
    “推論モデルの 性能、コスト、利用制限、最大トークン数 などの観点から比較・分析し、ユーザーが自分のプロジェクトやニーズに合ったモデルを選択するための指針を示します。”
  • DeepSeek まとめ|七誌

    DeepSeek についての情報が錯綜しているため、目についたトピックスをまとめました。 ※ 個々の内容には深入りしませんが、可能な限り情報ソースを示しますので、詳細はそちらをご確認ください。 DeepSeekDeepSeek が何かという情報は大量にあるため、記事では省略します。ほぼ同時期に公開された記事を紹介します。

    DeepSeek まとめ|七誌
    misshiki
    misshiki 2025/02/04
    “DeepSeek-R1 本体の疑惑とは別に、R1 から Llama や Qwen に蒸留を行ったモデルにも、ライセンスに関する懸念があるようです。”
  • DeepSeek APIを使いこなす:Pythonで始める高度な自然言語処理 - Qiita

    ※2025/2/1時点でAPIのキーの発行を一時的に停止してます はじめに DeepSeek APIは、最先端の自然言語処理(NLP技術を提供する強力なツールです。このAPIを使用することで、テキスト生成、要約、感情分析、質問応答など、さまざまなNLPタスクを簡単に実行できます。記事では、Pythonを使用してDeepSeek APIを活用する方法を、初心者から上級者まで幅広く解説します。各章では具体的な使用例とコードを提供し、実践的なスキルを身につけられるよう構成しています。 第1章:DeepSeek APIの概要と設定 DeepSeek APIは、高度な言語モデルを簡単に利用できるようにするサービスです。まずは、APIの基的な設定方法から始めましょう。 DeepSeek公式ウェブサイトでアカウントを作成します。 APIキーを取得します。 Pythonの環境を準備し、必要なライブラ

    DeepSeek APIを使いこなす:Pythonで始める高度な自然言語処理 - Qiita
    misshiki
    misshiki 2025/02/04
    “Pythonを使用してDeepSeek APIを活用する方法を、初心者から上級者まで幅広く解説します。各章では具体的な使用例とコードを提供し、実践的なスキルを身につけられるよう構成”
  • 何かと話題のDeepSeekをMacのローカル環境で実行してみた! - Qiita

    これらのモデルは、元のモデルに比べるとかなり小型化されています。 蒸留(ディスティレーション)を通じてモデルを“圧縮”することで、推論の速度を向上させ、一般的なPCiPhone等のスマートフォンでも動作可能なレベルに調整されています。 驚異のパフォーマンス:小型でも特定タスクでGPT-4oを超える? DeepSeekのテクニカルペーパーによると、Distilled Modelsのベンチマークテストでは、 「8Bパラメータのモデルでさえ、特定のタスクにおいてGPT-4o(昨年5月時点のバージョン)を上回る」 という結果が出ています。 ただし、これは数学やコード生成といった特定のタスクに特化したトレーニングを行った場合の話です。 総合的な文章生成や知識カバー率では、依然としてGPT-4oやClaude、o1などのフロンティアモデルのほうが優れています。 つまり、 「タスクによってはローカルモ

    何かと話題のDeepSeekをMacのローカル環境で実行してみた! - Qiita
    misshiki
    misshiki 2025/02/04
    “私のMBPでは32Bモデルの動作も可能でした。 容量は20GB程で、動かすとメモリ48GBフルで使ってしまいます。”
  • DeepSeek利用上の法的な注意点|知的財産・IT・人工知能・ベンチャービジネスの法律相談なら【STORIA法律事務所】

    https://www.deepseek.com/より引用 近時急激に話題が盛り上がっているDeepSeekですが、利用するに際しての法的な注意点について現時点でわかっている範囲で簡単にまとめてみました。 この記事のスコープ 記事は「DeepSeek利用上の法的な注意点」というざっくりとしたタイトルですが、この記事で検討しているのは「日のユーザがDeepSeekを利用することが、当該ユーザにとってなんらかの法令に違反する可能性があるか」という点です。 たとえば「ユーザがDeepSeekに入力した情報をDeepSeekが利用することが、DeepSeekにとって法令違反になるか」という問題は対象としていません。 また、「DeepSeekのオープンウェイトをダウンロードして社内で利用する場合、バックドアにより社内情報が漏えいする可能性があるか」などのセキュリティ上の注意点も対象としていません

    DeepSeek利用上の法的な注意点|知的財産・IT・人工知能・ベンチャービジネスの法律相談なら【STORIA法律事務所】
    misshiki
    misshiki 2025/02/04
    “DeepSeekですが、利用するに際しての法的な注意点について現時点でわかっている範囲で簡単にまとめ”
  • DeepSeek-R1の技術的詳細

    DeepSeek-R1: 世界最高推論性能のOSSモデル こんにちはYosematです。 中華系のAI技術が進化していますね。OpenAIなど研究開発を進めて手法が確立されてきたタイミングで参入することで莫大な試行錯誤のコストを節約しお安いコストで仕上げている印象を受けています。 今日はぶっちぎりの話題性を誇るDeepSeek-R1について解説します。一般の読者が「お気持ちはわかった」状態になることと関連分野をかじってる人が「完全に理解した」状態になることを目指します。 DeepSeek-R1とは DeepSeek-R1は OSSの大規模言語モデル OpenAI o1に並ぶ性能を示す推論モデル 強化学習頼みで進化したモデル です。 APIも公開されていますがOutput Tokenあたりの値段はo1に比べて20倍以上安いです。 利用者目線でのすばらしさや社会に与える影響の考察は他の記事に譲

    DeepSeek-R1の技術的詳細
    misshiki
    misshiki 2025/02/04
    “逆にGpt-4oやGemini 2.0 Flashなどを丸暗記モデルと呼ぶことにします。” これらを何と呼べばいいかが今、分からないので、学術界などで共通的な言葉が欲しいところ。
  • 『DeepSeekに浮上した「蒸留」疑惑、その技術的な仕組みと歴史を解説』へのコメント

    ブックマークしました ここにツイート内容が記載されます https://b.hatena.ne.jp/URLはspanで囲んでください Twitterで共有

    『DeepSeekに浮上した「蒸留」疑惑、その技術的な仕組みと歴史を解説』へのコメント
    misshiki
    misshiki 2025/02/04
    “縮小再生産というか自家中毒まっしぐらというか、確実に情報の精度は下がり続けることになるけど、どうなん” 蒸留物をさらに蒸留するのはあまりなさそうだけど、なるほどと思った。DeepSeekが蒸留物ならさらに蒸留.
  • 「DeepSeekの利用は危険か」詳しくない人や詳しい人向けのレベル別の解説がわかりやすい→「次元構造的解説にしてるのが面白い」

    安野貴博 @ 新刊『1%の革命』が2/6発売予定です! @takahiroanno ソフトウェアエンジニア起業家。SF作家。34歳・と二人暮らし。 開成→東大工学部/松尾研→外資コンサルBCG→スタートアップを2社起業SF作家/著サーキット・スイッチャー他 安野たかひろ事務所公式X→@annotakahiro24 (連絡はtakahiroanno2024あっとgmailまで) takahiroanno.com 安野貴博 @ 新刊『1%の革命』が2/6発売予定です! @takahiroanno 【DeepSeekの利用は危険か】 LV.1 あんまり詳しくない人向けの答え: 利用規約的に入力したデータが裏でどう使われるかわからないので入力内容には注意してね。ぶっちゃけ精度はChat GPTのo1とそんな変わらないからそっち使った方が無難だと思うよ。出力にも政治的なバイアスがあると言われて

    「DeepSeekの利用は危険か」詳しくない人や詳しい人向けのレベル別の解説がわかりやすい→「次元構造的解説にしてるのが面白い」
    misshiki
    misshiki 2025/02/04
    “【DeepSeekの利用は危険か】” Lv.1あんまり詳しくない人向け~Lv.4前線向けまで、レベル別で書かれていて良い。思っていたバックドアの可能性なども書いてあった。
  • Not蒸留物、本物のDeepSeek-R1(671B)を1.58bit量子化したモデルを動かす(1500円/時)

    Not蒸留物、物のDeepSeek-R1(671B)を1.58bit量子化したモデルを動かす(1500円/時) 皆に物のDeepSeek-R1を見せてあげますよ お疲れ様です、波浪です。 DeepSeek R1をローカルPCで動かしました!ドヤっっってしてる記事がたくさんありますがその人たちが動かしているブツの大半はR1の蒸留物でサイズが13Bとかせいぜい70Bくらいなんですよね。 そんな中ガチのDeepseek-R1(model size 671B)の1.58bit量子化版がHFに登録されました。 まあタイトルにあるような「物」かと言われたら量子化はしてますけどね それでも蒸留モデルよりは物ですわ。 といっても、さすがに動かすためには最低でも24GBのVRAMと128GぐらいのRAMが必要です。(理論上は64Gでも動きそう?) ま、逆に言えば、それが家にある人はこれをローカルPC

    Not蒸留物、本物のDeepSeek-R1(671B)を1.58bit量子化したモデルを動かす(1500円/時)
    misshiki
    misshiki 2025/02/04
    “HuggingFaceにクレジットカード登録しておけば ボタン一発でR1(1.58Bit)を試させてやるよと なお金額は $ 8.3 /h だ” 蒸留物ではなく量子化したもの。