LLMのファインチューニングで何ができて、何ができないのかまとめました。 1. LLMのファインチューニングLLMのファインチューニングの目的は、「特定のアプリケーションのニーズとデータに基づいて、モデルの出力の品質を向上させること」にあります。 OpenAIのドキュメントには、次のように記述されています。 ファインチューニングは、プロンプトに収まるよりも多くの例で学習することで、Few-Shot学習を改善します。一度モデルをファインチューニングすれば、プロンプトにそれほど多くの例を提供する必要がなくなります。これにより、コストを削減し、低レイテンシのリクエストを可能にします。 しかし実際には、それよりもかなり複雑です。 LLMには「大量のデータを投げれば自動的に解決する」ような創発的な特性があるため、ファインチューニングもそのように機能すると人々は考えていますが、必ずしもそうではありませ
ChatGPT を上手く使う方法として、非常に長いプロンプトが共有されているのを見たことがある方は多いと思います。ただ、実務で使う場合長いプロンプトより短いプロンプトの方が扱いやすく API を利用する際のコストも少なく済みます。「ユーザーが作成した Excel マクロをメンテナンスしてほしい」と言われると 90% のエンジニアは不吉な予感に胃が痛くなると思いますが ( ※個人の感覚です ) 、今後誰かが生み出した長文プロンプトが業務に欠かせないものになっていて数文字変えると挙動が変わるようになっていたりしたらメンテナンスには想像を絶する苦痛が伴います。 プロンプト内の表現が性能へどのように寄与するのか計測することができれば、不要な表現を削り短くすることができます。本記事では、既存の書籍や記事をもとに期待する回答の基準点を定め、基準点よりどれだけ差異ある返答が得られたかで評価する方法を提案
現代の日本で利用されている日本語のテキストを、16世紀末から17世紀初めという非常に短い期間に日本で刊行された古活字版で使用された古活字(くずし字)に変換することができる「そあん(soan)」をROIS-DS人文学オープンデータ共同利用センターが公開しました。そあんではテキストを古活字に変換した画像を生成してくれるということで、さっそく使ってみました。 そあん(soan):現代日本語を古活字(くずし字)に変換するサービス | ROIS-DS人文学オープンデータ共同利用センター(CODH) http://codh.rois.ac.jp/soan/ 本日8月7日、古活字画像を用いて入力文章を画像化するサービス/ライブラリ「そあん(soan)」がリリースされました。連綿活字の使用、変体仮名の使い分けなど、Androidアプリ「縦書きビューワ」では実現できなかった機能も盛り込んでいます。ぜひ遊んで
戦争調査会(せんそうちょうさかい)は、1945年(昭和20年)11月に幣原喜重郎内閣により設置された日本の大東亜戦争に関する調査、審議機関である。設置当初は大東亜戦争調査会という名称であったが、連合国軍最高司令官総司令部 (GHQ) の指令により、1946年(昭和21年)1月に戦争調査会と改められ[1][2]、同年9月にGHQの意向を受けた第1次吉田茂内閣により廃止された。 設置の背景[編集] 1945年10月5日、終戦連絡中央事務局が主催した終戦連絡各省委員会において、海軍から「大東亜戦争誌」編纂のための調査の必要性が提起され、内閣または文部省による調査を要請した。この戦史編纂に関してはGHQの許可も得ていると、海軍からは説明された[2]。これに対して、既に内閣総辞職を表明していた東久邇宮内閣は10月8日にこの要請を受け入れ、幣原内閣発足後の10月15日に、内閣調査局による「第二次世界戦
著: 玉置 標本 「365日野草生活」を掲げているのんさんは、ちょっとしたきっかけからどこにでも生えている野草の魅力に目覚めて、観察する時間がもっと欲しくなり、思い切って会社員を辞めて野草で食べていくと決意したそうだ。 そこまで野草にハマっていったいきさつ、野草観察のポイント、そして好きなものを趣味から生きる糧へと変えていった貴重な経験談を伺った。 きっかけはペットのウサギが食べられる野草探しだった 野草愛好家としてテレビやラジオなどに多数出演しているのんさんだが、意外にも野草を好きになった時期は、かなりの遅咲きだった。 のんさん(以下、のん):「生まれたのは青森です。父が転勤族だったので、五歳くらいで山形へ引っ越して、中学校からは横浜、大学時代は東京。社会人になってからは多摩川の近くに住んでいます」 ――野草好きだけに、山形に住んでいた頃は野山を駆け回るタイプだったのですか。 のん:「そ
今回は心理学を生かしたスキルアップの方法について書いていきたいと思います。 エンジニアの世界でも、キャッチアップが大変な時期はよくあると思います。 駆け出しの時期新しいプロジェクトへの参入したばかりの時期新しい技術を習得する時期 むしろこういう時期にいかに効率よくスキルを身につけ、活躍できるようになっていくかがエンジニアとしての醍醐味ではないでしょうか。 そこで今回は以下のような方を対象に、心理学 ー 特に認知心理学を参考にしたスキルアップ方法について説明していきたいと思います。 これからエンジニアの仕事をするので、スキルアップの参考にしたい新しいプロジェクトに参入するので、早くキャッチアップしたい色々な技術を勉強したいので、もっと効率良い勉強方法を身につけたい では早速見ていきましょう。 頭が一杯になるは、人間の短期記憶には限界があるから エンジニアの世界でも、以下のような状況で頭がパン
2022年11月にChatGPTが公開され、たった1週間で100万ユーザーを超えたのをきっかけに、GoogleのBardやMicrosoftのBing AI Chatなど、大規模言語モデルを利用したチャットAIが続々とリリースされています。チャットAIを研究しているセバスティアン・ラシュカさんが、チャットAIが実用化されるまでの研究の軌跡を重要な論文24個に絞って要約しています。 Understanding Large Language Models - by Sebastian Raschka https://magazine.sebastianraschka.com/p/understanding-large-language-models ◆目次 ・主要なアーキテクチャとタスク ・スケーリングと効率性の向上 ・言語モデルを意図した方向へ誘導する ・人間のフィードバックによる強化学習(
「鯖江市DX推進基本方針およびDX推進計画について – めがねのまちさばえ 鯖江市」 鯖江市のDX推進計画が発表されました。 目を引いたのは、推進計画(4) 他機関と連携した共同研究・実証実験 産総研と越前市との三者共同研究を行う。文化財管理や森林境界明確化などデジタルツイン技術の利活用に関する研究および、複数の自治体間連携による業務効率向上の実現性について確認・評価を行う。 産総研とは、国の研究機関、国立研究開発法人産業技術総合研究所の略。福井県坂井市に福井サイトが誕生。民間団体、デジタルツインえちぜん制作実行委員会との連携もぜひ。 また、先日の発表した「信頼のまち鯖江」についても、記載あり!早い! 鯖江市版電子署名の確立を検証し、その技術を活用した電子契約などの活用方法についての検討などを、市内事業所および商工会議所と連携して実証実験を行う。 デジタル推進のため、より使いやすい、特定企
コンテンツマーケティングでは「コンテンツは公開したら終わり。あとは配信と集客、成果獲得をがんばる」というわけではありません。コンテンツは違う見せ方をすることで、別プラットフォームで評価を得るかもしれません。「ブログ用のコンテンツ」は他のチャネルのコンテンツとして機能する可能性を持っています。 ここではコンテンツのフォーマットの話をしていきます。 「コンテンツのフォーマットは一つ」という発想から外れてもよいはず コンテンツを作成するとき、多くの人は無意識にフォーマットを選択しています。 「ブログを書く」「YouTubeで公開する動画を作る」「Instagram用の画像を作成する」「ホワイトペーパー用にPDF資料を作る」というように、流通させるプラットフォームを念頭にコンテンツのフォーマットを無意識に決めています。コンテンツが完成すれば、そのプラットフォームでいかに拡散させるか、いかに成果につ
オーディエンスビルディングを拡大できれば、コンテンツマーケティングはきっとうまく回り始めます。「自走する」とまではいかないものの、ディストリビューション(配信)とエンゲージメント獲得を効果的に進められるはずです。 コンテンツのリリースは中間地点である コンテンツマーケティングでよくフォーカスされるトピックスは、「どのようなコンテンツを作るか」「どうやってコンテンツを作るか」「検索エンジン経由のトラフィックをどうやって獲得するか(SEO流入をどれだけ増やせるか)」といったものです。もちろんコンテンツを作成しないと始まらないのはそのとおりです。 しかし「コンテンツのリリースがゴール」ではありません。コンテンツ内容だけの話でもありません。 コンテンツマーケティングにおいてコンテンツのリリースは中間地点であり、成果に向けてのスタート地点です。 コンテンツマーケティングにおいてコンテンツのリリースは
なぜスターバックスや丸亀製麺は顧客に愛されるのか。その背景にあるのが、「CX(カスタマーエクスペリエンス、顧客体験)」を重視したマーケティング戦略だ。先進企業はリアルとデジタルを交え、いかに新たなCXを創造しているのか。特集第1回では、取材を通して導き出した「CXを高める3つの要素」を解説していく。 CX(顧客体験)は古くて新しいキーワードだ。一般に、商品やサービスを購入する前段階から購入後まで、すべてのカスタマージャーニーにおける体験価値を指す。これまでのリアルな接点だけではなく、デジタルも活用してCXを向上し、顧客と感情的なつながりを深めていくことは、LTV(顧客生涯価値)の観点からもマーケターにとって最重要のテーマである。 ところが、だ。企業のマーケティング支援会社で「KARTE(カルテ)」を提供するプレイドのCXストラテジスト、藤井陽平氏は、こんな課題感を持つ。「CX向上の取り組み
コンピュータサイエンス コンピュータサイエンスを学習することで、ソフトウェア開発に必要な知識を体系的に学習し、基礎力の高いエンジニアを目指します。Recursionでは元Metaのソフトウェアエンジニアによって開発されたカリキュラムを使用しているため、効率的に実力を付けたい方へおすすめです。 ソフトウェア工学の専門技術 Recursionは、ソフトウェアエンジニアに必要な基礎に焦点を当てています。プログラミングの原理から始まり、オブジェクト指向プログラミング、ソフトウェア設計とアーキテクチャへと進みます。プロフェッショナルなスキルセットを構築するためのロードマップは、サーバサイドのバックエンド開発、フロントエンド開発、そして他の分野で人気のフレームワークやツールのコンテンツが用意されています。
「Google Colab」で「RWKV」を試したので、まとめました。 1. RWKV「RWKV」は、TransformerレベルのLLM性能を備えたRNNです。高性能、高速推論、VRAMの節約、高速学習、長い文脈長、自由な埋め込みを実現しています。 2. Colabでの実行Colabでの実行手順は、次のとおりです。 (1) メニュー「編集→ノートブックの設定」で、「ハードウェアアクセラレータ」で「GPU」の「プレミアム」を選択。 (2) Googleドライブのマウント。 # Googleドライブのマウント from google.colab import drive drive.mount('/content/drive')(3) 作業フォルダへの移動。 # 作業フォルダへの移動 import os os.makedirs("/content/drive/My Drive/work",
Mermaid記法を利用できるアプリケーション Mermaid記法は多くのサービスやツールがサポートしています。 例えば、Github、Notion、VS Code、esa.io、qiita などです。 基本的な書き方 Mermaid記法の基本は、図のうえで矢印の方向がどちら向きだとしても、左から右へ書いていくことです。各種図によって書式が異なりますが、以下に一部を紹介します。 フローチャート graph TD A[始める] B[終わる] A --> B シーケンス図 sequenceDiagram A->>B: メッセージ B->>A: メッセージ ガントチャート gantt title ガントチャート section 作業A 作業A1 :a1, 2020-01-01, 10d 作業A2 :after a1, 15d section 作業B 作業B1 :2020-01-15, 10d デ
ChatGPT触るの楽しいな〜と思って色々試す中で、業務でたくさん使いたいと思い、Googleスプレッドシート連携をして普段仕事でも使っているようなフレームワークにGPTを突っ込んだところなかなかの精度で感激したとともに、少し恐ろしくなり、今は一周回ってこの状況を楽しもうと思っている、ほったです。 やべえ...ブランド名入れるだけで、そのブランドの顧客戦略(Who/What)とそれに対応して訴求するコピーの案を3つずつ自動で作ってくれるスプシできた... 楽しすぎて寝れない... Prompt Marketerとなる日も近いのかもしれない... pic.twitter.com/R1rRGeCs65 — ほった Startup Growthを考える (@ryo10hottie) March 18, 2023 ChatGPTのスプレッドシートaddonを使い、マーケティング戦略のコアである顧客
話題のChatGPT(チャットGPT)を、Googleスプレッドシートで使ってみましょう。「GPT for Sheets and Docs」というアドオンで「GPT関数」が使えるようになるほか、入力済みの数式がどのような処理をしているのかをChatGPTに説明してもらうこともできます。 スプシでの作業効率アップに期待大 話題の対話型AI「ChatGPT」は、Googleスプレッドシートに組み込んで使えることをご存じですか? Googleスプレッドシートに「GPT for Sheets and Docs」というアドオンを追加するだけで、ChatGPT(OpenAI)のサイトにアクセスする必要なく、シート内だけでChatGPTの利用が完結します。 「GPT for Sheets and Docs」は、Googleスプレッドシートのほか、Googleドキュメントでも利用できるアドオンです。無料で
子どもの勉強時間の記録アプリを少し探したのですが、シンプルで毎日使っても負担のない、しっくりくるものがありませんでした。 自作しようかな? でも業務日報システムみたいにチクチク入力するのは使ってもらえないな。そうだ音声入力にしよう! ChatGPTでいい感じにできるのでは? と思ってやってみたメモです。 コンセプトの確認 音声を入力し、それを元にプロンプトを組んでJSONデータを得るというのをやってみます。 次の仕様に基づき入力文を解釈し、結果を出力しろ。 # 仕様 - 日付の指定がない場合は、今日の日付(2023年3月21日)を用いる。 - 年の指定がない場合は、今年(2023年)を用いる。 - 月の指定がない場合は、今月(2023年3月)を用いる。 - 教科の指定がない場合は、「不明」を用いる。 # 入力文 「(ここに音声入力した文字列)」 # 出力 - 日付(プロパティ名date、フ
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く