タグ

2023年4月4日のブックマーク (9件)

  • LLM のデータセットまとめ|npaka

    LLMのデータセットをまとめました。 1. 事前学習データセット1-1. Text・Wikipedia (ja) ・fujiki/wiki40b_ja ・shisa-pretrain-en-ja-v1 (ja) ・augmxnt/shisa-pretrain-en-ja-v1 ・Wikipedia (en) ・Wiki Demo (en) ・RefinedWeb (en) ・RedPajama V2 (en) ・Pile (en) ・SkyPile (zh) ・The Stack 2 (en) ・The Stack (en) ・StarCoder (en) 1-2. Code・The Stack 2 (en) ・The Stack (en) ・StarCoder (en) 2. SFTデータセット2-1. Instruction・ichikara-instruction (ja) ・ich

    LLM のデータセットまとめ|npaka
    misshiki
    misshiki 2023/04/04
    “1. Alpaca データセット、2. Guanaco データセット、3. CodeAlpaca、4. GPTeacher、5. PRESTO、6. ShareGPT、7. Rapid GPT-4、8. Pile”
  • How Meta measures the management of its AI ecosystem

    At Meta, we have developed measurement processes for specific metrics about AI systems that can be used to make managing models more effective and efficient, and we’ve tested these processes across a diverse ecosystem of tools and systems. We believe these techniques can be applied broadly in other organizations managing AI ecosystems, so we are sharing them here. AI development ecosystems are inc

    How Meta measures the management of its AI ecosystem
    misshiki
    misshiki 2023/04/04
    “Meta では、モデルの管理をより効果的かつ効率的にするために使用できる AI システムに関する特定の指標の測定プロセスを開発し、ツールとシステムの多様なエコシステム全体でこれらのプロセスをテストしました。”
  • [解決!Python]辞書の要素を削除したり追加したり変更したりするには

    辞書から要素を削除するにはdel文やclearメソッドなどを使える。また、辞書の要素を追加/上書きするには代入文やupdateメソッド、「|=」演算子を使える。これらの方法を一覧する。 # 辞書の要素の削除 d = {'key0': 0, 'key1': 1, 'key2': 2, 'key3': 3} print(d)  # {'key0': 0, 'key1': 1, 'key2': 2, 'key3': 3} # del文で指定してキー/値の組を削除 del d['key1'] print(d)  # {'key0': 0, 'key2': 2, 'key3': 3} # clearメソッドで辞書の全要素を削除 d.clear() print(d)  # {} # popメソッドは指定されたキーの値を返し、そのキー/値の組を辞書から削除 d = {'key0': 0, 'key1':

    [解決!Python]辞書の要素を削除したり追加したり変更したりするには
  • 【GPT】プロンプトエンジニアリング手法まとめ - Qiita

    はじめまして、sonesuke( https://twitter.com/sonesuke ) です。 LLMのニュースを追っかけ続けたので、これからキャッチアップする人用にまとめておきます。 単発のプロンプトテクニックについてはこちらご覧ください。 これだけは知っとけ用語 各手法の説明を読む前に、これらの用語を読んでおくと各手法がわかります。知っている人は飛ばしてください。 プロンプトエンジニアリング 入力(プロンプト)を工夫して性能をあげようというアプローチ。 機械学習系で精度アップといえば、追加学習させたりモデルを拡張するのですが、LLMではモデルが大き過ぎてコストが洒落になりません。 そのような事情からプロンプト側を工夫することで、回答に直接影響を与えるという手法が発達しています。 ファインチューニング モデルを新たな学習データで追加学習させ、モデルのパラメータを更新し、精度を高め

    【GPT】プロンプトエンジニアリング手法まとめ - Qiita
    misshiki
    misshiki 2023/04/04
    “これからキャッチアップする人用にまとめ”
  • 急速に進化するAIとデータサイエンティストはどう共存できる? 未来像を探る

    急速に進化するAIとデータサイエンティストはどう共存できる? 未来像を探る:当に仕事が奪われちゃう私たちが考える、AI革命時代の働き方(1) AI仕事が奪われることをネガティブに捉えるのでなく、AIとどのように仕事に取り組んでいくのか、AIにどこまでやってもらえるかを、前向きに考えていく連載。第1回は、データサイエンティストの未来像を探る。 AI仕事が奪われると言われ続けていましたが、2023年、ChatGPTをはじめとした急速な生成AIの進歩により当に一部の業務がなくなってしまいそうです。そこで連載では、仕事が奪われることをネガティブに捉えるのでなく、AIとどのように仕事に取り組んでいくのか、AIにどこまでやってもらえるかを、前向きに考えていきたいと思います。連載第1回は、筆者の職業、データサイエンティストの未来像を探ります。 はじめに:データサイエンティストという職種の現状

    急速に進化するAIとデータサイエンティストはどう共存できる? 未来像を探る
    misshiki
    misshiki 2023/04/04
    「Microsoft 365 Copilot」がデータサイエンティストの必携ツールになるのかな。生成AIは数値が勝手に変わってないか不安。データ処理の基本Pythonコードを生成するなどであれば自分で制御可能だからまだ安心。
  • 画像生成AIのStable DiffusionやMidjourneyで生成可能な画像とプロンプトを写真やイラストから検索できる「unprompt.ai」

    Stable DiffusionやMidjourneyなどの画像生成AIは、プロンプトと呼ばれる文字列を入力することで、その内容に応じた画像を自動で生成してくれます。「unprompt.ai」は、自分が生成したいイメージに近い画像を読み込ませることで、似た画像とそのプロンプトを表示してくれる検索エンジンで、プロンプトを考える時間を短縮してくれるので効率良く思い通りの画像を生成したい時にお役立ちです。 Search 35+ Million AI Art Prompts https://unprompt.ai/ unprompt.aiにアクセスするとこんな感じ。画面上部の入力欄の右にあるカメラアイコンをクリックします。 エクスプローラーが起動するので、元のイメージになる写真やイラストを選びます。今回は以下の「とろったまチーズ テリヤキバーガー ~北海道産ゴーダチーズ使用~」の画像を選択しました

    画像生成AIのStable DiffusionやMidjourneyで生成可能な画像とプロンプトを写真やイラストから検索できる「unprompt.ai」
    misshiki
    misshiki 2023/04/04
    “「unprompt.ai」は、自分が生成したいイメージに近い画像を読み込ませることで、似た画像とそのプロンプトを表示してくれる検索エンジン”
  • 画像生成AI「Stable Diffusion XL」登場。DreamStudioならもう使えて、日本らしい人物・風景が簡単に生成できる(CloseBox) | テクノエッジ TechnoEdge

    Stability AIは、同社が提供している画像生成AI「Stable Diffusion」を大幅に強化した「Stable Diffusion XL」(SDXL)をオープンソース公開する計画であることを明らかにしました。 学習データを従来の9億パラメータから、23億パラメータへと大幅に強化。これが次期バージョン3に組み込まれるとしています。現在パートナーに対するベータ版提供を行っていますが、パートナーでなくても、DreamStudioユーザーであれば利用できます。 DreamStudioは、Stability AIが提供するAI画像生成サービス。これまで、Stable Diffusionのバージョン1.5、2.1、そして2.1で768×768ピクセルの高解像度描画ができるモデルを利用できていましたが、これにSDXL Beta Previewが加わりました。 ▲DreamStudioならS

    画像生成AI「Stable Diffusion XL」登場。DreamStudioならもう使えて、日本らしい人物・風景が簡単に生成できる(CloseBox) | テクノエッジ TechnoEdge
    misshiki
    misshiki 2023/04/04
    “画像生成AI「Stable Diffusion」を大幅に強化した「Stable Diffusion XL」(SDXL)をオープンソース公開する計画であることを明らかに”
  • ChatGPT風のUIを保ちつつフォルダ分け・ダウンロード・日本語表記に対応した「Better ChatGPT」レビュー

    OpenAIの対話型AIChatGPT」とほぼ同じUIでありながら、チャット履歴をフォルダ分けして管理しやすくしたり、ダウンロードしたりできるようにする機能を追加した「Better ChatGPT」が登場したので実際に使ってみました。 New Chat https://bettergpt.chat/ GitHub - ztjhz/BetterChatGPT: Play and chat smarter with Better ChatGPT - an amazing open-source web app with a better UI for exploring OpenAI's ChatGPT API! (Website + Windows + MacOS + Linux) https://github.com/ztjhz/BetterChatGPT#desktop-app まずは

    ChatGPT風のUIを保ちつつフォルダ分け・ダウンロード・日本語表記に対応した「Better ChatGPT」レビュー
    misshiki
    misshiki 2023/04/04
    “「ChatGPT」とほぼ同じUIでありながら、チャット履歴をフォルダ分けして管理しやすくしたり、ダウンロードしたりできるようにする機能を追加した「Better ChatGPT」が登場したので実際に使ってみました。”
  • DMM会長「生成AIのサービス開発に20億円投資するよ~」 国産LLM構想も?

    DMM.comの亀山敬司会長は4月1日、生成系AIのサービス開発に20億円を投じると、自身のTwitterアカウントで発表した。「日最速・最大規模で同時多発的にサービス作っていく」(亀山会長)という。 同時に事業責任者やCTOも募集。関心のある人は、DMM傘下でクラウドサービスや研究開発事業を手掛けるAlgoage(東京都文京区)の大野峻典CEOに連絡するよう呼び掛けている。大野CEOは自身のTwitterで「やりたい事業アイデアの持ち込みも歓迎」「国産大規模言語モデルも作りたい」などと展望を説明している。 大規模言語モデル(LLM)とは、大量のテキストデータを使ってトレーニングした自然言語処理モデル。ファインチューニングなどにより、テキストの生成や要約などといった分野に応用できる。昨今では米OpenAIの最新LLM「GPT-4」が注目を集めている一方、SNSなどでは技術の独占などを防ぐ

    DMM会長「生成AIのサービス開発に20億円投資するよ~」 国産LLM構想も?