タグ

ブックマーク / wirelesswire.jp (9)

  • 加熱するLLM開発競争に冷や水、オープンモデルの組み合わせだけでGPT-4o越えの事実

    加熱するLLM開発競争に冷や水、オープンモデルの組み合わせだけでGPT-4o越えの事実 2024.06.21 Updated by Ryo Shimizu on June 21, 2024, 18:19 pm JST 世界中の企業や政府が狂ったようにNVIDIAのGPUを買い漁る流れはそろそろ潮時かもしれない。 いくつかの興味深い事象が起きているからだ。 昨日発表されたKarakuri社のLLM、「KARAKURI LM 8x7B Instruct v0.1」は、非常に高性能な日語LLMだ。Karakuri社は今年の一月にも非常に高性能な70Bモデルを引っ提げて業界に旋風を巻き起こした。この最新のLLNは、日語向けオープンLLMとしては初の「命令実行」チューニングを施されている。それだけでなく、RAGと呼ばれる、複数の知識を組み合わせてより正解に近い答えを導く技術や、Function

    加熱するLLM開発競争に冷や水、オープンモデルの組み合わせだけでGPT-4o越えの事実
  • 1ビットLLMの衝撃! 70Bで8.9倍高速 全ての推論を加算のみで!GPU不要になる可能性も

    1ビットLLMの衝撃! 70Bで8.9倍高速 全ての推論を加算のみで!GPU不要になる可能性も 2024.02.28 Updated by Ryo Shimizu on February 28, 2024, 16:46 pm JST 2月は中国では春節というお正月があり、春節にはみんな休む。 それもあってか、12月から1月にかけて怒涛の論文発表が行われて毎日「デイリーAIニュース」を配信している筆者は忙殺されていた。 春節中にはOpenAIがSoraを、GoogleがGemini1.5を発表したのは、その合間を縫ってのことだった。もはやAI最前線の戦いは研究が行われる場所の文化や風土に影響を受けるところまで来ている。 そして春節もあけた今週、さっそくAlibabaがとんでもないトーキングヘッドモデルを引っ提げて登場したかと思えば、Microsoft中国チームがとてつもないLLMをリリース

    1ビットLLMの衝撃! 70Bで8.9倍高速 全ての推論を加算のみで!GPU不要になる可能性も
  • 推定1000万円以下のコストで開発され、国内最大・最高性能を達成した日本語LLM, Karakuri-LMの秘密

    推定1000万円以下のコストで開発され、国内最大・最高性能を達成した日語LLM, Karakuri-LMの秘密 2024.02.18 Updated by Ryo Shimizu on February 18, 2024, 10:08 am JST 2024年1月。国内の生成AIコミュニティに激震が走った。 コンタクトセンター向けのチャットボット開発のパイオニアとして知られるカラクリ社が商用利用可能のオープンソースモデルとして公開したKarakuri-ln-70bの性能が高すぎると話題になったのだ。 多くの日語LLMと同様に数学能力に関するスコアは低いが、物語を記述する能力、日語の質問に日語で答えたり、答えをプログラムで扱い易いJSON形式にしたりする能力がこれまでの国産LLMに比べて桁違いに高かったのである。 物語を記述する能力に関しては、一説によればGPT-4を凌駕するとも言わ

    推定1000万円以下のコストで開発され、国内最大・最高性能を達成した日本語LLM, Karakuri-LMの秘密
  • なぜ、微積分は役に立つのか

    なぜ、微積分は役に立つのか 2023.11.27 Updated by Atsushi SHIBATA on November 27, 2023, 14:58 pm JST 今回紹介する書籍:『はじめての物理数学』永野 裕之(SBクリエイティブ、2017) 朝起きてから寝るまで、我々は何種類もの「数」を見ます。 私自身、朝起きるとネットやニュースで降水確率、予想気温のように気象にかかわる数、為替、海外の株式市場の指数など、いろいろな種類の数をチェックします。しばらく前なら、コロナウイルスの感染者数や増加傾向を表す指数を毎日のように確認していました。 自分を取り巻く環境を知るために、私たちはいろいろな「数」を確認します。そして数を手がかりにして、行動を決めます。現代を生きる私たちにとって「数」は、世界を知るための「目」としての役割を持っています。 現代人が日常的に見るこの種の数は、たいてい計

    なぜ、微積分は役に立つのか
  • ChatGPT開発に必要なGPUは3万基、日本の国策AI基盤は1千基。目前に迫る日本のAI敗戦

    ChatGPT開発に必要なGPUは3万基、日の国策AI基盤は1千基。目前に迫る日AI敗戦 2023.08.19 Updated by Ryo Shimizu on August 19, 2023, 16:47 pm JST そろそろ業界の最深部でしか知られてなかった事実がニュースになって来始めているのでここで当の問題を明らかにしておきたい。 AI開発に必須なのは、計算資源である。そしてこれは現在のところ、事実上NVIDIAが一社独占している。 NVIDIA以外の半導体がいくら「AIに特化しています」と能書きを垂れていてもごくわずかな例外を除いてはほとんど全部が誇大広告である。 たとえばApple Silliconは、「ニューラルエンジン」と称するモジュールを内蔵しているが、これを使ってAIの学習をすると、なんとCPUよりも遅い。信じられないかもしれないが、これが残酷な事実なのである

    ChatGPT開発に必要なGPUは3万基、日本の国策AI基盤は1千基。目前に迫る日本のAI敗戦
  • やはり予想を超えてこなかったGPT-4と、GPUの未来、ホビイストへの手紙

    やはり予想を超えてこなかったGPT-4と、GPUの未来、ホビイストへの手紙 2023.03.16 Updated by Ryo Shimizu on March 16, 2023, 08:00 am JST 3月14日の早朝、GPT-4が公開され、筆者は早速試した。 その後、開けて3月15日の早朝、APIも部分的に解放され、筆者はそれも試した。 その上で、先週書いた記事の内容についての確信が深まった。 やはり、GPT-4は期待を超えてはこなかった。 GPT-4は、ChatGPT Plusに入会すると誰でもすぐに使うことができる。APIだけは招待制だが、それも筆者と同じくらいのタイミングでアンロックされた方も少なくないのではないか。 100倍規模のパラメータがあっても、アプローチには限界があるのである。 また、ChatGPTが注目を集めたことで、これまで下火になっていた他の大規模言語モデル(

    やはり予想を超えてこなかったGPT-4と、GPUの未来、ホビイストへの手紙
  • クリエイターの時代

    クリエイターの時代 2023.03.11 Updated by Ryo Shimizu on March 11, 2023, 15:48 pm JST ChatGPTが流行り過ぎている。 来週にはGPT-4が出るという話になっていて、しかもGPT-3は1750億パラメータであるのに対し、GPT-4は100兆パラメータと言われている。 普通に考えて単位が桁違いにおかしいのだが、そもそもそんなに巨大なニューラルネットワークが学習できてしまったことも驚きだが、実用的に使うためには信じられないくらい大規模な機械が必要になる。 まだ出てもいないGPT-4を警戒しても仕方ないので、むしろGPT-4が出る前の今のタイミングだからこそ、敢えて「ChatGPTブームの終わりは近い」と予測してみたい。 なぜか? 第一に、ChatGPTは、簡単に使え過ぎてしまう。 朝思いついて昼には新しいアプリができてしまう。

    クリエイターの時代
  • 深層強化学習AI時代の”人間”の仕事

    深層強化学習AI時代の"人間"の仕事 2022.01.21 Updated by Ryo Shimizu on January 21, 2022, 07:18 am JST 2022年は、AIはあまりニュースの話題にのぼらないだろうと思う。 なぜならば、もはやAIを用いることは当たり前になってきているからだ。 バズワードとしてのAIは2021年で終わった感がある。 一方で、AI仕事は、うまくいけばいくほど地下に潜る性質がある。 すなわち、競争相手にどうやっているかを探られないように巧妙に隠す必要があるからだ。 次にニュースになるものがあるとすれば、AIがコンシューマ製品に搭載された時だが、たとえば「スマホにAI」は既に入っているのでニュース性がない。「ゲーム機にAI」が入っているのは当たり前であり、「テレビAI」ももはや新鮮味がない。 アカデミズムの世界では、少し前までは、「ディープラ

    深層強化学習AI時代の”人間”の仕事
  • 「映像も物理も、微分可能になるとすごいことが起きる」ということの意味を文系にもわかるように説明しようと試みる

    「映像も物理も、微分可能になるとすごいことが起きる」ということの意味を文系にもわかるように説明しようと試みる 2021.07.26 Updated by Ryo Shimizu on July 26, 2021, 07:12 am JST 最近のプログラミングの新しい波は微分可能プログラミング(differentiable programming)である。 微分可能プログラミングとは、簡単に言うと・・・と思ったが、簡単に言うのは結構難しい。 まず「微分」という言葉があまり簡単ではない印象がある。 まずは微分と積分の関係性を説明しておこう。文系の読者に向けた記事であるので、非常にざっくりと説明してみよう(そのかわり、元々数学が得意な読者にとっては直感的ではない説明になるかもしれない)。 まず、瓶からコップにジュースを移すような状況を想定してみる。 瓶からコップが一杯になるまで60秒で注ぐとし

    「映像も物理も、微分可能になるとすごいことが起きる」ということの意味を文系にもわかるように説明しようと試みる
  • 1