並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 488件

新着順 人気順

パラメータの検索結果1 - 40 件 / 488件

タグ検索の該当結果が少ないため、タイトル検索結果を表示しています。

パラメータに関するエントリは488件あります。 AI機械学習人工知能 などが関連タグです。 人気エントリには 『「ほう・れん・そう」には“あるパラメータ”が足りない マイクロソフト澤氏が語る、労働生産性を上げるためのヒント』などがあります。
  • 「ほう・れん・そう」には“あるパラメータ”が足りない マイクロソフト澤氏が語る、労働生産性を上げるためのヒント

    2019年9月25日、ランサーズ株式会社が主催するイベント「オープンタレントサミット〜令和元年、これから求められる本当の働き方改革とは?〜」が開催されました。働き方改革が施行され、大企業が副業を解禁するなど、これまでの「働き方」が大きく変化するこの時代、企業はどう向き合っていくべきか。このイベントでは、本質的な働き方の変化を進める企業の担当者が登壇し、取り組みや事例をもとに様々なディスカッションが行われました。この記事では、マイクロソフトの澤円氏による基調講演「本当の働き方改革に必要な考え方」の内容をお届けします。我々はデータを信じる生き物に変化をしたーー。そう語る澤氏は、すべての企業はテクノロジーカンパニーにならなければいけないと語ります。 澤氏がひも解く、本当の働き方改革に必要な考え方 澤円氏:みなさんこんにちは。日本マイクロソフト澤でございます。50分ほどお時間をいただきまして、「働

      「ほう・れん・そう」には“あるパラメータ”が足りない マイクロソフト澤氏が語る、労働生産性を上げるためのヒント
    • 機械学習のパラメータチューニングを「これでもか!」というくらい丁寧に解説 - Qiita

      はじめに 私はこれまで機械学習のパラメータチューニングに関し、様々な書籍やサイトで学習を進めてきました。 しかしどれもテクニックの解説が主体のものが多く、 「なぜチューニングが必要なのか?」 という目的に関する記載が非常に少なかったため、体系的な理解に苦労しました。 この経験を後世に役立てられるよう、「初心者でも体系的に理解できる丁寧さ!」をモットーに記事にまとめたいと思います。 具体的には、 1. パラメータチューニングの目的 2. チューニングの手順とアルゴリズム一覧 3. Pythonでの実装手順 (SVMでの分類を例に) の手順で解説を進めます。 独自解釈も含まれるため、間違っている点等ございましたら指摘頂けると有難いです。 なお、文中のコードはこちらのGitHubにもアップロードしております。 2021/9/6追記:LightGBMのチューニング実行例追加 以下の記事に、Ligh

        機械学習のパラメータチューニングを「これでもか!」というくらい丁寧に解説 - Qiita
      • サイバーエージェント、最大68億パラメータの日本語LLM(大規模言語モデル)を一般公開 ―オープンなデータで学習した商用利用可能なモデルを提供―

        株式会社サイバーエージェント(本社:東京都渋谷区、代表取締役:藤田晋、東証プライム市場:証券コード4751)は、最大68億パラメータの日本語LLM(Large Language Model、大規模言語モデル)を一般公開したことをお知らせいたします。 近年、OpenAI社が開発した「ChatGPT」※1 を始めとする生成AI・LLMは急速な進化を遂げており、世界中のあらゆる業界・ビジネスにおいて活用が進んでいます。 一方、既存のLLMのほとんどは英語を中心に学習されているため、日本語および日本文化に強いLLMは少ない状況です。 ■最大68億パラメータの日本語LLM(大規模言語モデル)の公開について こうした背景のもと、当社は日本語LLMの開発に取り組んでおり、このたび一部モデルをHugging Face Hubにて公開いたしました。公開されたモデルはオープンな日本語データ※2で学習したもので

          サイバーエージェント、最大68億パラメータの日本語LLM(大規模言語モデル)を一般公開 ―オープンなデータで学習した商用利用可能なモデルを提供―
        • 36億パラメータの日本語言語モデルを公開しました

          LINE株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。 LINEヤフー Tech Blog こんにちは。 LINEのNLP Foundation Devチームの清野舜と高瀬翔とoverlastです。 LINEでは2020年11月から日本語に特化した大規模言語モデル「HyperCLOVA」の構築と応用に関わる研究開発に取り組んできましたが、この「HyperCLOVA」と並行するかたちで複数の大規模言語モデルの研究開発プロジェクトが進行しています。 今回はそれらの研究開発プロジェクトのうち、我々を含むMassive LM開発ユニットから、日本語言語モデル「japanese-large-lm(ジャパニーズ ラージ エルエム)」をOSSとして公開できる状況になりましたので、本ブログを通じてお伝えすることにしました。 この記事

            36億パラメータの日本語言語モデルを公開しました
          • 物理学者の逆襲!?Entropixはわずか3億6000万パラメータで1000億パラメータ級の回答を引き出す!Claude-3でも間違う問題を360Mが正しく解く|shi3z

            物理学者の逆襲!?Entropixはわずか3億6000万パラメータで1000億パラメータ級の回答を引き出す!Claude-3でも間違う問題を360Mが正しく解く 物理学者たちがノーベル物理学賞をホップフィールドとヒントンが受賞すると知った時、まあまあ微妙な気持ちになったことは想像に難くない。 我々コンピュータ科学者にとっては、ノーベル賞は全く無縁なものだった。むしろ「ノーベル賞をコンピュータ科学者が取ることは永久にない」と言い訳することさえできた。コンピュータ科学の世界にはチューリング賞という立派な賞があるし、ノーベル賞よりも賞金が高かった京都賞は、アラン・ケイやアイヴァン・サザーランド、ドナルド・クヌースなど、コンピュータ科学者たちが堂々と受賞している。その割には本来マイクロチップの最初の設計者である嶋正利などが京都賞にノミネートされていなかったり、サザーランドの弟子であるアラン・ケイの

              物理学者の逆襲!?Entropixはわずか3億6000万パラメータで1000億パラメータ級の回答を引き出す!Claude-3でも間違う問題を360Mが正しく解く|shi3z
            • URLについてくる不要なパラメーターを消してくれる拡張機能「ClearURLs」レビュー

              検索結果やSNSに張られたリンクをクリックすると、本来のURLの後ろに何やらパラメーターがいろいろとくっついてくることがあります。これは、どういったリンクをクリックしたのかなどの情報を得るために付与されたもので、なくても機能します。「あって困る」というものでもありませんが、「プライバシーを守るために消せるものなら消したい」という人のために役立つのが拡張機能「ClearURLs」です。 ClearURLs https://docs.clearurls.xyz/latest/ 「ClearURLs」はChrome、Firefox、Edge向けが提供されています。 ClearURLs - Chrome ウェブストア https://chrome.google.com/webstore/detail/clearurls/lckanjgmijmafbedllaakclkaicjfmnk ClearU

                URLについてくる不要なパラメーターを消してくれる拡張機能「ClearURLs」レビュー
              • 画像生成AI「Stable Diffusion」でプロンプト・呪文やパラメーターを変えるとどういう差が出るか一目でわかる「Prompt matrix」と「X/Y plot」を「Stable Diffusion web UI(AUTOMATIC1111版)」で使う方法まとめ

                画像生成AI・Stable Diffusionを導入するにはNVIDIA製GPUを搭載したPCのほかにPythonやAnacondaなどの知識が必要で、ローカル環境に導入するには少し敷居が高いところがありました。しかし、2022年8月に一般公開されて以降、多くの開発者によって誰でも簡単にStable Diffusionをローカル環境に導入可能でかつGUIで操作できるツールが次々と開発されています。「Stable Diffusion web UI(AUTOMATIC1111版)」はその中でも他のUIには搭載されていない機能も盛り込まれた決定版とも言えるツールで、その中でも特に画像生成にお役立ちな機能である「Prompt matrix」と「X/Y plot」を実際に使ってみました。 GitHub - AUTOMATIC1111/stable-diffusion-webui: Stable Di

                  画像生成AI「Stable Diffusion」でプロンプト・呪文やパラメーターを変えるとどういう差が出るか一目でわかる「Prompt matrix」と「X/Y plot」を「Stable Diffusion web UI(AUTOMATIC1111版)」で使う方法まとめ
                • Microsoftがたった13億のパラメーターでGPT-3.5超えのHumanEval50.6%をたたき出す「phi-1」を発表

                  LLaMaやFalconといった小型の大規模言語モデル(LLM)が矢継ぎ早にリリースされる中、Microsoft ResearchのAI研究チームが、プレプリントサーバーのarXivで、Transformerベースのモデル「phi-1」を発表しました。このモデルは、パラメーター数がGPT-3.5の100分の1以下の13億しかないにもかかわらず、テスト用データセット・HumanEvalでGPT-3.5を上回る成績を収めたことが報告されています。 [2306.11644] Textbooks Are All You Need https://doi.org/10.48550/arXiv.2306.11644 Microsoft Releases 1.3 Bn Parameter Language Model, Outperforms LLaMa https://analyticsindiama

                    Microsoftがたった13億のパラメーターでGPT-3.5超えのHumanEval50.6%をたたき出す「phi-1」を発表
                  • 架空パラメーターによるChatGPTの文章表現の操作|IT navi

                    temperatureなどのChatGPTのパラメーターは、OpenAIのウェブサイトのPlaygroundやAPIでは変更できるようになっていますが、通常のChatGPTのサイトでは変更できないようになっています。 しかし、これを変更する方法を発見しましたので報告します。 また、自由に新しいパラメーターを設定して、これを使ってChatGPTの文章表現を操作できることが分かりましたので、これについても解説します。 1.temperatureの変更(1) temperature=2.0への変更最初にChatGPTのサイトでtemperatureを2.0に変更してみます。 ChatGPTのtemperatureは通常、1.0程度に設定されており、もし、temperatureを2.0に引き上げると、以下のように文章が壊れてしまうはずです。 若いSamadenacityas安 広がる豊かな井田_p

                      架空パラメーターによるChatGPTの文章表現の操作|IT navi
                    • 国産の日本語生成AIの無料デモ版が公開 ~「GPT-3.5 Turbo」に匹敵する性能を達成/東大初のELYZA社が700億パラメーターのLLM「ELYZA-japanese-Llama-2-70b」を開発

                        国産の日本語生成AIの無料デモ版が公開 ~「GPT-3.5 Turbo」に匹敵する性能を達成/東大初のELYZA社が700億パラメーターのLLM「ELYZA-japanese-Llama-2-70b」を開発
                      • Amazon SESとAmazon Route 53によるDKIM, SPF, DMARCの設定 - DMARCパラメータの概要と設定例 - - NRIネットコムBlog

                        小西秀和です。 2024年2月1日以降、Gmailでは迷惑メール削減を目的として、Gmailアカウントにメール送信する送信者は送信元アドレスのドメインにDKIM(DomainKeys Identified Mail)、SPF(Sender Policy Framework)の設定が必要となりました。 また、Gmailアカウントに1日あたり5000件以上のメールを送信する場合にはDMARC(Domain-based Message Authentication, Reporting, and Conformance)の設定も必要となっています。 参考:Email sender guidelines - Google Workspace Admin Help このような事情から最近再びDKIM, SPF, DMARCの設定に関する話題が多くなっていたので、今後の新規ドメインによるメール送信も考

                          Amazon SESとAmazon Route 53によるDKIM, SPF, DMARCの設定 - DMARCパラメータの概要と設定例 - - NRIネットコムBlog
                        • Linuxカーネルパラメータのチューニング&設計 - Qiita

                          Linuxカーネルパラメータのチューニング&設計 0.目的 【カーネルパラメータのチューニング】を修得する目的は、サーバの特性を理解し、それぞれに合ったカーネルパラメータのチューニングすることでリソースの有効活用をできるようになることを目的とし、私個人の経験を元にした見解を以下の記事に掲載します。 1.最初に サーバには、それぞれ必要なリソース特性があり、それに合わせたカーネルパラメータのチューニングが必要となります。 世の中の流れはオンプレよりクラウドに移行してはいるので、カーネルパラメータのチューニングよりスケールアップなりスケールアウトするなりの対応をすべきなのでしょう。 ですが、カーネルパラメータのチューニングを知らないとどちらを選択すべきかも理解しずらいと思いますので軽率には出来きません。(待ち行列理論もしらないといけませんが) また、最近のLinuxはデフォルト値が大きくなって

                            Linuxカーネルパラメータのチューニング&設計 - Qiita
                          • なぜRPGのキャラクターのパラメータに視力がないのか

                            視力が戦闘行為遂行能力に決定的な影響を与えることもあるだろうに

                              なぜRPGのキャラクターのパラメータに視力がないのか
                            • 日本語に特化した13億パラメータのGPT言語モデルを公開|rinna株式会社

                              ~商用利用可能なライセンスで日本語のNLPコミュニティに貢献~ rinna株式会社(本社:東京都渋谷区/代表取締役:ジャン"クリフ"チェン、以下rinna社)は、日本語に特化した13億パラメータのGPT言語モデルを開発し、公開しました。 ■背景 rinna社はこれまでに、日本語の自然言語処理 (NLP) に特化したGPT (3.3億パラメータ) やBERT (1.1億パラメータ) の事前学習モデルを公開し、多くの研究・開発者にご利用いただいています。最近のNLPに関する研究では、モデルのパラメータ数が多いほど高い性能であることが知られています。 そこでrinna社は、これまでに公開してきたモデルより大規模な13億パラメータを持つ日本語に特化したGPT言語モデルを開発し、日本語のNLPコミュニティに貢献するために、この言語モデルをNLPモデルライブラリ Hugging Face に商用利用可

                                日本語に特化した13億パラメータのGPT言語モデルを公開|rinna株式会社
                              • 実践!大規模言語モデル / 1000億パラメータ越えモデルを動かすには?

                                こんにちは。Turing株式会社の機械学習チームでインターンをしている九州大学修士1年の岩政(@colum2131)です。 Turingは完全自動運転EVの開発をするスタートアップです。 自動運転技術において、カメラやセンサ情報は正確な制御をする上で不可欠な要素である一方、自然言語やマルチモーダルな処理が必要となる状況もしばしば存在します。特に完全自動運転車においては、音声認識によってドライバーの音声命令を認識し、リアルタイムで適切な制御を行うことや、複雑な交通状況の背景にあるコンテクストを理解させるといった要求が出てきます。そのために、「基盤モデル」と呼ばれるような、自然言語処理を含む大規模モデルの学習が必要になってくると、私たちは考えています。 そこで本記事では、言語モデルの発展の流れとTuringが目指す基盤モデルの開発について紹介します! 1. 言語モデルとは? 近年の言語処理モデ

                                  実践!大規模言語モデル / 1000億パラメータ越えモデルを動かすには?
                                • GPUメモリが小さくてもパラメーター数が大きい言語モデルをトレーニング可能になる手法「QLoRA」が登場、一体どんな手法なのか?

                                  GPT-1は1億1700万個のパラメーターを持つ言語モデルで、GPT-2では15億、GPT-3では1750億とパラメーター数が増加するにつれて言語モデルの性能が上がってきています。しかしパラメーター数が増加するにつれてトレーニングに必要なデータの数やトレーニング中に使用するメモリの量も増加し、トレーニングのコストが大きく増加してしまいます。そんな中、メモリの消費量を激減させつつ少ないデータでトレーニングできる手法「QLoRA」が登場しました。 [2305.14314] QLoRA: Efficient Finetuning of Quantized LLMs https://arxiv.org/abs/2305.14314 artidoro/qlora: QLoRA: Efficient Finetuning of Quantized LLMs https://github.com/art

                                    GPUメモリが小さくてもパラメーター数が大きい言語モデルをトレーニング可能になる手法「QLoRA」が登場、一体どんな手法なのか?
                                  • うおぉ、今日、またしても激ヤバなAIをグーグルが発表してた!テキストから画像を生成するAI技術の発展が早すぎる。驚くべきことに、この画像はすべて下のテキストから生成されたものである。Parti:Pathways Autoregressive Text-to-Image(200億パラメータ) (pdf)https://gweb-research-parti.web.app/parti_paper.pdf

                                      うおぉ、今日、またしても激ヤバなAIをグーグルが発表してた!テキストから画像を生成するAI技術の発展が早すぎる。驚くべきことに、この画像はすべて下のテキストから生成されたものである。Parti:Pathways Autoregressive Text-to-Image(200億パラメータ) (pdf)https://gweb-research-parti.web.app/parti_paper.pdf
                                    • パラメーター操作だけで人間を作れる「Make Human」の「Blender」アドオン版「MPFB2」【Blender ウォッチング】

                                        パラメーター操作だけで人間を作れる「Make Human」の「Blender」アドオン版「MPFB2」【Blender ウォッチング】
                                      • GitHub Actionsの手動実行パラメータのUI改善について速報で解説する

                                        11/10に突如素晴らしいアップデートが来たので、興奮冷めやらぬうちに公式よりちょっとだけ詳しい解説を書きます。 GitHub Actionsは素晴らしいCI/CDサービスであり、特にpush, pull-request, その他あらゆるGitHub上の行動をトリガーにしてワークフローを起動させる設定を簡単に書くことができます。しかし、手動でワークフローを起動させる機能の追加は他のトリガーに比べて後発でしたし、パラメータを入力するための機能やUIが少々貧弱と言わざるを得ないものでした。 一方、古より存在するJenkinsはpush, pull-requestなどの自動トリガーを設定するのは難易度が高かった[1]反面、手動でジョブを起動する機能やUIは充実していました。基本の自由テキスト以外に、プルダウンによる選択、booleanのチェックボックス、Jenkinsに登録したシークレットからの

                                          GitHub Actionsの手動実行パラメータのUI改善について速報で解説する
                                        • 最近の話題にも詳しい14億パラメータの日本語LLMの公開

                                          最近の話題にも詳しい14億パラメータの日本語LLMの公開

                                            最近の話題にも詳しい14億パラメータの日本語LLMの公開
                                          • BPFを利用し、Linuxカーネルのパラメータを継続的に自動チューニングする「bpftune」。オラクルがオープンソースで公開

                                            オラクルはLinuxカーネルのパラメータを、ワークロードに合わせて継続的に自動チューニングするツール「bpftune」をオープンソースで公開しました(GitHubのページ)。 bpftuneは「BPF」(Berkeley Packet Filter)と呼ばれる、Linuxカーネル内のさまざまな機能をフックして機能拡張が可能な仕組みを利用し、継続的にLinuxカーネルのきめこまなかレベルで監視を行い自動チューニングを実現しています。 オラクルはbpftuneを開発した背景として、クラウドに代表される大規模なサーバ展開が可能なインフラにおいて、以前よりも個々のサーバのチューニングについて注意が払われることがほとんどなくなったこと、チューニングされるとしても静的に適切な設定があると考えられることが一般的であることを挙げています。 bpftuneによる自動チューニング対象の項目 bpftuneは現

                                              BPFを利用し、Linuxカーネルのパラメータを継続的に自動チューニングする「bpftune」。オラクルがオープンソースで公開
                                            • 東大松尾研、日英対応の大規模言語モデル公開 100億パラメータ、精度は「国内オープンソース最高水準」

                                              東京大学院工学系研究科・松尾研究室(主宰:松尾豊教授)は8月18日、日英の2カ国語に対応した100億パラメータサイズの大規模言語モデル(LLM)「Weblab-10B」を、事前学習と事後学習(ファインチューニング)により開発し、非商用ライセンスでモデルを無料公開した。 【修正履歴:2023年8月18日午後9時 当初、モデルの公開形式をオープンソースと記載していましたが、ソースコードが公開されていないなどオープンソースの定義に沿わないと思われる部分があるため記述を改めました。なお、引用部分についてはそのままにしています】 日本語だけでなく英語のデータセットも学習に用いることで学習データ量を拡張し、言語間の知識転移を行うことで日本語の精度を高めたのが特徴。 事前学習には、代表的な英語のデータセット「The Pile」と日本語のデータセット「Japanese-mC4」を使用。事後学習には、Alp

                                                東大松尾研、日英対応の大規模言語モデル公開 100億パラメータ、精度は「国内オープンソース最高水準」
                                              • 竹生成シミュレーションゲーム『bamboo generator』無料公開。各種パラメーターの数値を入力し、自動で生えてくる竹の変化に富んだ姿や成長を味わう - AUTOMATON

                                                デベロッパーのamphibianは5月7日、竹生成シミュレーションゲーム『bamboo generator』をPC(itch.io)向けに無料公開した。 『bamboo generator』は、さまざまなパラメーターを調整し、オリジナルの竹を生やすことができる3Dシミュレーションゲームだ。プレイヤーは黒い壁に囲まれた部屋の中で、スポットライトが当たった展示台の上の土から生える竹を、成長のプロセスも含めて自由に鑑賞可能。好きな位置に回り込んだりズームインやアウトをして眺めたり、俯瞰視点に切り替えたりと、カメラの操作を通じて心ゆくまで生成竹のフォルムや美しさを堪能できる。 パラメーターの要素は多岐にわたり、竹全体の成長スピードから節や葉の生成ディテールに至るまで、変数の値入力による細かな調整が可能。節がどの程度育ったら次の節を生やすか、節が生成される際にランダムな方向への回転が発生する確立など

                                                  竹生成シミュレーションゲーム『bamboo generator』無料公開。各種パラメーターの数値を入力し、自動で生えてくる竹の変化に富んだ姿や成長を味わう - AUTOMATON
                                                • パラメータ数10億!最新の巨大画像認識モデル「BiT」爆誕 & 解説 - Qiita

                                                  オミータです。ツイッターで人工知能のことや他媒体で書いている記事など を紹介していますので、人工知能のことをもっと知りたい方などは気軽に@omiita_atiimoをフォローしてください! 2019年12月24日のクリスマスイブにarxiv上でGoogle Brainから新たな画像認識モデルが発表されました。その名も BiT(=Big Transfer)。その性能は2019年にGoogleが出したEfficientNet(拙著解説記事)を様々なデータセットで超えるほどで現在のState-of-The-Art になっています。驚くべきはそれだけでなく、なんとこのモデル、パラメータ数が10億にもおよぶ巨大なモンスターモデル になっています。そんなBiTについて早速この記事で解説していきたいと思います。バッチノームやドロップアウト、Weight Decayなどを使用していないという、 今までの画

                                                    パラメータ数10億!最新の巨大画像認識モデル「BiT」爆誕 & 解説 - Qiita
                                                  • Intel、1兆パラメータの科学向けAI「Aurora genAI」を発表 | Ledge.ai

                                                    サインインした状態で「いいね」を押すと、マイページの 「いいね履歴」に一覧として保存されていくので、 再度読みたくなった時や、あとでじっくり読みたいときに便利です。

                                                      Intel、1兆パラメータの科学向けAI「Aurora genAI」を発表 | Ledge.ai
                                                    • 130億パラメータの「Llama 2」をベースとした日本語LLM「ELYZA-japanese-Llama-2-13b」を公開しました(商用利用可)|ELYZA, Inc.

                                                      130億パラメータの「Llama 2」をベースとした日本語LLM「ELYZA-japanese-Llama-2-13b」を公開しました(商用利用可) 本記事のサマリーELYZA は「Llama 2 13B」をベースとした商用利用可能な日本語LLMである「ELYZA-japanese-Llama-2-13b」シリーズを一般公開しました。前回公開の 7B シリーズからベースモデルおよび学習データの大規模化を図ることで、既存のオープンな日本語LLMの中で最高性能、GPT-3.5 (text-davinci-003) も上回る性能となりました。また、推論の高速化を実現したチャット型デモを併せて公開しています。 はじめにこんにちは。ELYZAの研究開発チームの平川、佐々木、中村、堀江、サム、大葉です。 この度 ELYZA は、130億(13B)パラメータの「ELYZA-japanese-Llama-

                                                        130億パラメータの「Llama 2」をベースとした日本語LLM「ELYZA-japanese-Llama-2-13b」を公開しました(商用利用可)|ELYZA, Inc.
                                                      • ハイパーパラメーター最適化フレームワークOptunaの実装解説 | | AI tech studio

                                                        AI Lab AutoMLチームの芝田です (GitHub: @c-bata)。 ハイパーパラメーター最適化は、機械学習モデルがその性能を発揮するために重要なプロセスの1つです。Pythonのハイパーパラメーター最適化ライブラリとして有名な Optuna [1] は、様々な最適化アルゴリズムに対応しつつも、使いやすく設計的にも優れたソフトウェアです。本記事ではOptunaの内部実装についてソフトウェア的な側面を中心に解説します。 Optunaの内部実装を理解するためには、主要コンポーネントの役割と全体の動作の流れを押さえる必要があります。しかしOptunaの開発は活発で、コード量も多くなり、全体の流れをコードから読み取ることは難しくなってきました。そこで今回Minitunaという小さなプログラムを用意しました。Minitunaには全部で3つのversionがあり、それぞれ100行、200行

                                                          ハイパーパラメーター最適化フレームワークOptunaの実装解説 | | AI tech studio
                                                        • ハイパラ管理のすすめ -ハイパーパラメータをHydra+MLflowで管理しよう- - やむやむもやむなし

                                                          機械学習をやっている人なら誰もが遭遇したであろうこの光景 (※写真はPyTorchのLanguage ModelのExampleより) Pythonのargparseでシェルから引数を受け取りPythonスクリプト内でパラメータに設定するパターンは、記述が長くなりがちな上、どのパラメータがmodel/preprocess/optimizerのものなのか区別がつきにくく見通しが悪いといった課題があります。 私は実験用のパラメータ類は全てYAMLに記述して管理しています。 YAMLで記述することでパラメータを階層立てて構造的に記述することができ、パラメータの見通しがぐっとよくなります。 preprocess: min_df: 3 max_df: 1 replace_pattern: \d+ model: hidden_size: 256 dropout: 0.1 optimizer: algo

                                                            ハイパラ管理のすすめ -ハイパーパラメータをHydra+MLflowで管理しよう- - やむやむもやむなし
                                                          • 機械学習のパラメータチューニングを「これでもか!」というくらい丁寧に解説 - Qiita

                                                            はじめに 私はこれまで機械学習のパラメータチューニングに関し、様々な書籍やサイトで学習を進めてきました。 しかしどれもテクニックの解説が主体のものが多く、 「なぜチューニングが必要なのか?」 という目的に関する記載が非常に少なかったため、体系的な理解に苦労しました。 この経験を後世に役立てられるよう、「初心者でも体系的に理解できる丁寧さ!」をモットーに記事にまとめたいと思います。 具体的には、 1. パラメータチューニングの目的 2. チューニングの手順とアルゴリズム一覧 3. Pythonでの実装手順 (SVMでの分類を例に) の手順で解説を進めます。 独自解釈も含まれるため、間違っている点等ございましたら指摘頂けると有難いです。 なお、文中のコードはこちらのGitHubにもアップロードしております。 2021/9/6追記:LightGBMのチューニング実行例追加 以下の記事に、Ligh

                                                              機械学習のパラメータチューニングを「これでもか!」というくらい丁寧に解説 - Qiita
                                                            • 100億パラメータサイズ・日英2ヶ国語対応の大規模言語モデル“Weblab-10B”を公開しました。 | 東京大学松尾・岩澤研究室(松尾研)- Matsuo Lab

                                                              訂正版20230822プレスリリース 東京大学松尾研究室 100億パラメータサイズ・日英2ヶ国語対応の 大規模言語モデル“Weblab-10B”を公開 ―公開済みの日本語大規模言語モデルで最高水準(注1)― この度日本語・英語の2ヶ国語に対応した100億パラメータサイズの大規模言語モデル(Large Language Model ;LLM)を事前学習と事後学習(ファインチューニング)により開発し、モデルを公開しましたのでお知らせします。今後も、Weblab-10Bのさらなる大規模化を進めるとともに、この資源を元に、LLMの産業実装に向けた研究を推進して参ります。 松尾研は、知能の謎を解くことを目的に人工知能の研究に取り組む研究室です。現在はテキスト生成で注目されることの多いLLMの技術ですが、今後は画像組み込みなどのマルチモーダル化、ブラウザ・ソフトウェア・ロボット等の行動制御の実装に発

                                                              • 孫正義氏、「日本的な生成AI」をバッサリ--「『パラメーターが少ないから効率的』は予算がない言い訳」

                                                                ソフトバンクグループで代表取締役会長兼社長執行役員を務める孫正義氏は10月3日、自社イベント「SoftBank World 2024」に登壇。パラメーター数を抑えた生成AIについて本質的ではないとの認識を示した。 孫正義氏は「人間の脳のシナプスが100兆個あり、その1万分の1は金魚。知能はニューロンの数におおむね比例する。最近の生成AIは一番大きなモデルでパラメータが数兆個ある」と前置きしたうえで、次のように述べた。 「よく、日本製の生成AIだから工夫をしようと、工夫をするからとパラメーターを少なくして、少ないパラメーターだと省電力、チップが少なくて済む、小さくするのが努力、日本的だと主張する人が多い。しかし僕に言わせればそれは言い訳だ」(孫氏) 続けて「GPUが買えない、電気が買えない、予算がないから仕方なく小さくしているようだ」とも指摘。「日本の道は狭いからと、田んぼのあぜ道でも通れる

                                                                  孫正義氏、「日本的な生成AI」をバッサリ--「『パラメーターが少ないから効率的』は予算がない言い訳」
                                                                • rinnaが日本語特化LLM公開 36億パラメータ

                                                                    rinnaが日本語特化LLM公開 36億パラメータ
                                                                  • ネイティブアプリからGraphQLを叩くときにどこまでパラメータ化するか - hitode909の日記

                                                                    GraphQLを使って、ネイティブアプリにさまざまな集計方法のランキングを出す、というときについて考えている。 たとえば、ソーシャルブックマークアプリを作っているなら、「総合」「一般」「世の中」「政治と経済」みたいに、カテゴリごとのランキングを出すことがイメージできると思う。 どのようなqueryを用意して、どこまでパラメータ化するか、どこまで自由にするかによって、サーバークライアント間の責任分担や、その後の変更コストが変わってくる。 サーバーサイドで制御する rankings: [Ranking!]!みたいに、クライアントからは「ランキングください」とだけ送るパターンを考えられる。クライアントでは、Arrayの返ってきた順に画面上に表示する。 良い点 サーバーサイドでランキングの定義を持てるので、APIだけでなく、ウェブの画面に表示するランキングなど、他の面との仕様を揃えやすい 変更がサ

                                                                      ネイティブアプリからGraphQLを叩くときにどこまでパラメータ化するか - hitode909の日記
                                                                    • NICT、日本語に特化した400億パラメーターの生成AIを開発

                                                                        NICT、日本語に特化した400億パラメーターの生成AIを開発 
                                                                      • 13億パラメータ日本語GPT-2を使ってみる

                                                                        2021年11月18日にOpenAIが「GPT-3」のウェイティングリストを解除すると発表しました。 これにより申請すれば誰でもGPT-3のAPIを使用できるようになります。 ということで、GPT-3 ... ただ、上記の記事でも紹介していますが、日本語に特化したモデルではなく、やっぱり日本語で生活している人にとっては日本語のGPTが欲しくなりますね。 そこで、13億パラメータを持つGPT-2のモデルを日本語で学習して、公開してくれたのがこの「rinna」社です。 ということで今回は、この日本語GPT-2を触ってみたいと思います。 なお、今回はモデルの説明は一切ありませんので、詳細についてはこちらの記事を参照していただければと思います。 GPT ... 『【論文解説】OpenAI 「GPT」を理解する』 一番仕組みを詳しく解説しています。GPT-2 ... 『【論文解説】OpenAI 「G

                                                                          13億パラメータ日本語GPT-2を使ってみる
                                                                        • 「公開するApple vs. 隠すOpenAI」アップルが300億パラメータのマルチモーダルAI「MM1」発表。重要論文5本を解説(生成AIウィークリー) | テクノエッジ TechnoEdge

                                                                          2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless(シームレス)を運営し、執筆しています。 1週間分の生成AI関連論文の中から重要なものをピックアップし、解説をする連載です。第38回目は、生成AI最新論文の概要5つを紹介します。 Appleが最大300億パラメータを持つマルチモーダル大規模言語モデル「MM1」を開発 OpenAIなどのクローズド大規模言語モデルの一部を許可なく取得する攻撃、Googleなどが開発 GPT-3.5の隠れ層のサイズを約4096と推定。非公開LLMの中身を抽出する手法 WebページのスクリーンショットからHTMLコードを生成するAIモデル「Sightseer」をHugging Faceが開発 実世界に強いマルチモーダル大規模言語モデル「DeepSeek-VL」 Appleが最大300億パラメータを持つマルチモーダ

                                                                            「公開するApple vs. 隠すOpenAI」アップルが300億パラメータのマルチモーダルAI「MM1」発表。重要論文5本を解説(生成AIウィークリー) | テクノエッジ TechnoEdge
                                                                          • 日本語に強く、たった130億パラメーター NECが作った国産LLMの価値 (1/2)

                                                                            NECは、130億パラメーターという軽量化を実現した独自の日本語大規模言語モデル(LLM)を発表した。NEC Corporate EVP兼CTOの西原基夫氏は、「世界トップクラスの日本語性能を有する、軽量なLLMを開発することに成功した。すでにNEC社内で利用を開始しており、文書作成や社内システム開発におけるソースコード作成業務など、さまざまな作業の効率化に応用している」とアピールした。 構想4年、開発2年で全社を挙げて仕上げた独自LLM ChatGPTをはじめとする生成AIは、急速な勢いで活用が進んでいるが、既存のLLMのほとんどは英語を中心に学習しており、高い日本語性能を有しつつ、各業種の業務で活用するためのカスタマイズが可能なLLMはほぼない状況にある。NECでは、自社で独自のLLMを開発することにより、日本の企業における生成AIのビジネス活用をより加速させ、企業の生産性向上に貢献す

                                                                              日本語に強く、たった130億パラメーター NECが作った国産LLMの価値 (1/2)
                                                                            • NEC、130億パラメータで世界トップクラスの日本語性能を有する軽量なLLMを開発

                                                                              NECは、Generative AI(生成AI)における日本語大規模言語モデル(Large Language Model、以下LLM)を開発しました。 本LLMは独自に収集・加工した多言語データを利用し、NECが開発した汎用的なモデル、いわゆるファウンデーションモデル(注1)です。独自の工夫により高い性能を実現しつつパラメータ数を130億に抑えた本LLMは、消費電力を抑制するだけでなく、軽量・高速のためクラウド/オンプレミス環境での運用が可能となります。性能面では、日本語の知識量や文書読解力を計測する日本語の一般的なベンチマーク(注2)で、世界トップクラスの日本語能力を実現しています。 NECでは本LLMをすでに社内業務で活用を始めており、文書作成や社内システム開発におけるソースコード作成業務など、様々な作業の効率化にも応用しています。 昨今、「ChatGPT」を始めとする生成AIが世界的

                                                                                NEC、130億パラメータで世界トップクラスの日本語性能を有する軽量なLLMを開発
                                                                              • トマトソースを作る時にうま味の補強材を何にするか色々試した結果辿り着いたのが『味噌』だった「パラメータを完璧に調整できて最強」

                                                                                完全なQ体 @torchfish_story トマトソースを作るときにトマト缶や肉類の当たり外れを吸収するためのうま味補強材を何にするか色々試した結果、味噌をぶち込むのがうま味、深み、自然さのパラメータを完璧に調整できて最強だという結論に至った。これに良いパスタを合わせれば一食1500円ぐらいの味になる

                                                                                  トマトソースを作る時にうま味の補強材を何にするか色々試した結果辿り着いたのが『味噌』だった「パラメータを完璧に調整できて最強」
                                                                                • 画像生成AI「Stable Diffusion」「Midjourney」で使える呪文のような文字列にパラメーターを簡単に追加できる「promptoMANIA」の使い方まとめ

                                                                                  Stable Diffusionなどの画像生成AIを用いて好きな画像を生成するには「プロンプト」や「呪文」などと呼ばれる英文が必要です。このプロンプトには追加のパラメーターとして「2次元風」「絵画風」「宮崎駿テイスト」などの文字列を入力してイメージの幅をふくらませることができるのですが、これらパラメーターを簡単に用意できるサイトが「promptoMANIA」です。 promptoMANIA:: AI art community with prompt generator https://promptomania.com/ 「promptoMANIA」にアクセスすると以下のようなページが表示されます。promptoMANIAは「Midjourney」「Stable Diffusion」というAIと、Stable Diffusionのウェブ版「DreamStudio」に対応していますが、今回は

                                                                                    画像生成AI「Stable Diffusion」「Midjourney」で使える呪文のような文字列にパラメーターを簡単に追加できる「promptoMANIA」の使い方まとめ

                                                                                  新着記事