misshikiのブックマーク - はてなブックマーク

LLaVAを使っておうちのパソコンでも画像からコード生成 - きしだのHatena

ChatGPTが画像対応して、画像からいろいろなコードが生成できて楽しいことになっていましたが、同じようなことをおうちで動かせるLLaVAが出ていたので試してみました。 GPUはVRAM 12GBあれば十分、8GBはギリギリという感じ。 LLaVA-1.5 先週、LLaVAのバージョンアップ版、LLaVA-1.5が出てました。 🚀 LLaVA-1.5 is out! Achieving SoTA on 11 benchmarks, with simple mods to original LLaVA! Utilizes merely 1.2M public data, trains in ~1 day on a single 8-A100 node, and surpasses methods that use billion-scale data. 🔗https://t.co/y0k

misshiki 2023/10/16

“ChatGPTが画像対応して、画像からいろいろなコードが生成できて楽しいことになっていましたが、同じようなことをおうちで動かせるLLaVAが出ていたので試してみました。”

リンク

画像対応ChatGPTで設計図からコードの世界が実現しててやばい - きしだのHatena

アマチュア驚き屋のきしだです。 ChatGPTが画像入力に対応するよという話があって、来週くらいに使えるようになるかなーと思ったら、もう使えるようになってました。で、写真から「カレー食べてる男の人です」くらいを言えるイメージで試してたら、なんかふつうに画面設計やクラス図からコードを書いていてびっくりしてしまいました。まあ、起きたらこういうのが来てたわけですね。で、まあ試してみて「あぁ、いままでのマルチモーダルよりちゃんと画像認識してるなー」くらいに思ったわけです。で、NetBeansでの画面設計を読ませてみたらこう。こういうコードが生成されました。 import javax.swing.*; import java.awt.*; public class SimpleForm { public static void main(String[] args) { JFrame fr

misshiki 2023/09/28

自分のPlus環境ではまだ利用できないから試せないのだけど、Chat with imagesでソフトウェアのUIフォーム画面からコードを生成できている。確かにこれできるならすごい。

リンク

ChatGPTで構成された仮想のソフトウェア会社にシステム開発を行ってもらうChatDevがおもしろい - きしだのHatena

ChatGPTによるメンバーで構成された仮想のソフトウェア会社にシステム開発を行ってもらうChatDEVが結構おもしろかった。 ChatDEVは、ChatGPTによってCTOやプログラマー、レビュアー、テスターといった役割をもつエージェントをやりとりさせることでソフトウェア開発を自動化しようという試みの実装です。 https://github.com/OpenBMB/ChatDev アイデアは論文にまとまっていて、こちらで概要が翻訳されています。 [LLM 論文]アプリ全自動開発"ChatDev"の日本語訳｜すめらぎ使い方としては、とりあえずClone git clone https://github.com/OpenBMB/ChatDev.git そして依存モジュールのインストール cd ChatDev pip3 install -r requirements.txt あと、OpenA

misshiki 2023/09/04

“ChatGPTによるメンバーで構成された仮想のソフトウェア会社にシステム開発を行ってもらうChatDEVが結構おもしろかった。”

人工知能

リンク

CTranslate2でRinnaモデルをコンバートしてCPUや8GB GPUで動くようにする - きしだのHatena

CTranslate2はTransf ormerモデルをCPUやGPUで効率的に動かすライブラリです。 https://github.com/OpenNMT/CTranslate2 CTranslate2の機能のひとつにモデルの量子化があります。INT8で量子化すると雑に必要メモリが半分に。そしてCPUでも動かしやすくなるので、GPUなくてもLLMが試しやすくなります。まあ、INT8を使うだけだと、モデルの読み込み時のfrom_pretrainedにload_in_8bit=Trueをつければいいのだけど、これがbitsandbytesというライブラリを使ってて、そしてbitsandbytesがWindowsに対応していない。*1 一応、有志がビルドしたDLLを使えば動くのだけど、めんどい。 https://qiita.com/selllous/it ems/fbaa2c3d2d504e43

misshiki 2023/06/16

“CTranslate2はTransformerモデルをCPUやGPUで効率的に動かすライブラリです。” インストールして動かすところまで説明。

リンク

Rinnaの新しい3Bモデルを試してみる - きしだのHatena

CyberAgentのモデルを試したところですが、Rinna社も新しいモデルを出しました。 rinna、日本語に特化した36億パラメータのGPT言語モデルを公開｜rinna株式会社のプレスリリースここですね。 https://huggingface.co/rinna/japanese-gpt-neox-3.6b ということで試します。あれーいろいろ試したときはちゃんと東京、いや大阪って答えて面白かったのだけど、ちゃんと答えてくれない・・・ GPUメモリは14.8GB使っています。 torch_dtype=torch.float16を付けても8GBちょうどくらいのGPUメモリを使うので、8GB VRAMだとつらそうです。12GB VRAMであれば大丈夫そう。そして、今回はチャット向けにトレーニングされたモデルも用意されています。 https://huggingface.co/rinna

misshiki 2023/05/18

うん...発展途上ですね。

自然言語処理

リンク

CyberAgentの日本語言語モデルを試してみる - きしだのHatena

CyberAgentが日本語LLMを公開していたので、とりあえず動かしてみました。サイバーエージェント、最大68億パラメータの日本語LLM（大規模言語モデル）を一般公開 ―オープンなデータで学習した商用利用可能なモデルを提供― | 株式会社サイバーエージェントモデルは次のように6サイズ提供されています。 ※ Rinna社も同時に新しいモデルを出したので試しています。 Rinnaの新しい3Bモデルを試してみる - きしだのHatena open-calm-small(160M) まずはopen-calm-small。160Mパラメータです。このあたりは動作確認用なので、内容は気にしない。 GPUメモリは1.3GBくらいの消費です。 open-calm-medium(400M) 次にopen-calm-medium。400Mパラメータです。このへんも細かいことは気にしないけど、なんかま

misshiki 2023/05/18

感想コメントしづらい。LLMは言語関係なく学習して量が多い英語情報の学習がメインになるのは仕方ないのではと思う。その後で日本語情報を強化するのが正しい流れじゃないのかなと。現時点でRLHFも必須だと思う。

リンク

エンジニアのためのChatGPTプラグイン3選+1 - きしだのHatena

前のブログでも紹介したのだけど、ChatGPTプラグインのローリングアウトが始まって使えるようになっていて、結局みんな使うのはこの3つくらいかなーとなったので、まとめておきます。前のブログはこれ。 Bardも世の中のサービスぜんぶGoogle製と思ってるらしい - きしだのHatena 同時に使えるのは3つまでのようだけど、他のプラグインはアメリカの不動産情報など日本からは使いづらかったり、作ってみたレベルだったりなので、結局この３つに落ち着くかなーという気がします。 WebPilot これは手放せなくなります。Web記事を読み込んでくれるプラグイン。 ChatGPTには「この記事を要約して」しか入力しなくなりそう。このエントリを要約してもらっています。大規模言語モデルの「脳波」が反応してる部分を壊すとどうなるか試した - きしだのHatena ※ 追記 15:21 ぼくのところには

misshiki 2023/05/15

WebPilot、AskYourPDF、Show Me(Diagram It)の3つのプラグインを紹介。

人工知能

リンク

GPTの仕組みをちゃんと勉強したい本 - きしだのHatena

やっぱGPTを仕組みから勉強したい、という本をいくつか見つけたのでまとめておきます。まず理論的な概要。機械学習からニューラルネットワーク、CNNでの画像処理、トランスフォーマーでの自然言語処理、音声認識・合成、そしてそれらを組み合わせたマルチモーダルと章が進むので、理論的な概観を得るのにいいと思います。最初は数式が多いのだけど、Σをfor文だと思いつつ、定義が説明文中に埋まってるPerlよりたちが悪い記号主体言語だと思えば読めるけどめんどくさいので飛ばしても問題ないと思います。深層学習からマルチモーダル情報処理へ (AI/データサイエンスライブラリ“基礎から応用へ” 3) 作者:中山英樹,二反田篤史,田村晃裕,井上中順,牛久祥孝サイエンス社Amazon で、もういきなり作る。トークナイザーから全部つくっていきます。TensorFlowでBERTをつくってGPT2をつくる

misshiki 2023/04/25

リンク

日本語が通る大規模言語モデルCerebras-GPTを動かす - きしだのHatena

またなんか大規模言語モデルが公開されてましたね。ということで、Cerebrasが公開したモデルを動かしてみます。日本語が通る感じ。商用利用可能というライセンスなども含めて、一番使いやすい気がします。 https://huggingface.co/cerebras ここでいろいろやってるようだけど、モデルを動かすスクリプトはありません。 https://github.com/Cerebras/modelzoo なので、自分でモデルを動かすコードを書くということになるけど、VTS-Techさんがgistで公開しているスクリプトを使わせてもらいます。 https://gist.github.com/Veritas83/bb858a2039fe84cd35af4064c0aa44d8 -mでモデルサイズ、-cでコマンドラインモード、-pでプロンプトを指定します。 >python VTSTech

misshiki 2023/04/03

“Cerebrasが公開したモデルを動かしてみます。日本語が通る感じ。商用利用可能というライセンスなども含めて、一番使いやすい気がします。”

自然言語処理

リンク

おうちの8GB VRAM GPUでChatRWKVと会話する - きしだのHatena

ChatGPTが話題ですが、そういうのをおうちで動かしたいですよね。ということで、おうちで動かしやすくて割と会話ができるChatRWKVを試してみます。 ChatGPTは実装は公開されておらず手元で動かすことはできません。けど、サービスがたまに落ちてたりするので手元で動かせるなにかがあると安心ですね。何より、こんな変な技術を手元で動かしたい。そこで手元で動かせるLLMとしてFlexGenが話題になりましたが、それでも強力なGPUが必要です。 https://github.com/FMInference/FlexGen そして低リソースで動かせる実装としてAlpaca.cppなんかも出ましたが、そこまで賢くない感じ。 https://github.com/antimatter15/alpaca.cpp そこに現れたのがChatRWKVです。一般のご家庭の8GB VRAMのGPUで動かせつ

misshiki 2023/03/29

“おうちで動かしやすくて割と会話ができるChatRWKVを試してみます。”

リンク

ChatGPTは真にプログラミング知識なしでのコンピュータ操作を実現している - きしだのHatena

ChatGPTで文章を要約したり口調を変えたりゲームのルールを教えてゲームを遊んだり、みんないろいろな使い方や楽しみ方をしていると思います。中にはプログラミングにあまり縁のない人も多くいます。これ改めて考えると、自然言語でコンピュータを操作指示できるようにしたということで、インパクトすごいと思います。たとえばこんな感じで、口調の調整を行っている人はよくみかけますね。これ、よく考えるとコンピュータの挙動を調整しているわけですよね。ここでは「以降は語尾に「ンゴ」をつけてください」と指示しているだけで、この指示にはまったくプログラミング知識が使われていません。しかも「何か質問あるンゴか？」のように疑問形の形を調整してくれていますね。適切に「！」も入れて、「ンゴ」で終わらせることに何を求めているかもくみ取ってくれています。これをプログラミングで実現しようとするとかなり大変です。 RP

misshiki 2023/02/28

“ここでおもしろいのは、ChatGPTは自然言語で操作できるだけじゃなく、自然言語でしか操作できないというところです。”

人工知能

リンク

ChatGPTによって世の中の「AI」の理解がすすんだ - きしだのHatena

もうなんかどこもかしこもChatGPT、という感じで流行ってますね。といいつつ、ぼくも割とChatGPTのブログ書いてます。だっておもしろいもん。そして、多くの人が触って、今のAIの特性みたいなものに気づく人が多くなってるように思います。世の中でAIが流行りだして画像認識だったり音声認識だったり、データ認識系がまず流行りました。画像に映ってるものがなにかを識別してくれるというのは当時はすごいなと思ったものの、その結果をみても「うまく認識できないものもあるね」という感じでした。「あぁこういう間違いするんだ」というのもあったけど「錯覚しやすいのね」くらいの感じだったと思います。「錯覚」するのがすごかったりするのだけど。そもそもとして、画像認識や音声認識を実際に直接触るのは技術者くらいのものなので、普通の人は「alexaがテレビの声に反応してる」みたいなアプリケーションが失敗するという

misshiki 2023/02/14

“AIといっても学習データの最頻値を出してるだけだなーみたいなのが実感しやすくなっていると思います。”

人工知能

リンク

プログラミング言語へのMicrosoftの影響力がヤバい - きしだのHatena

Tiobe indexを眺めながら、C#とVBが入っていてMicrosoftは強いなーと思ったのだけど、よくみると他の言語もMicrosoftの影響力すごいのではとなったので調べてみた。 https://www.tiobe.com/tiobe-index/ Python 例えば1位のPythonにMicrosoftはかなり力をいれている。象徴的なのが、Pythonのオリジナル開発者の入社 C/C++ Windows上でのC/C++コンパイラではMS C/C++が圧倒的シェアであるし、C++の標準化団体にMicrosoftはGold Memberとして参加している。 https://isocpp.org/about Java 4位のJavaに関してもかなりリソースは割いているわけですが、全体の影響度としてそこまで大きくはないですね。昨日のブログにも書いたようにOpenJDKビルドを出してい

misshiki 2023/02/13

“よくみると他の言語もMicrosoftの影響力すごいのではとなったので調べてみた。”

リンク

ChatGPTがGoogle検索を使いものにならなくする未来 - きしだのHatena

いろいろ仕組み的にChatGPTというのはGoogle検索の代替以上の働きをするなぁと思っていたのだけど、それとは別にChatGPTによって検索が使い物にならなく未来が考えられるなぁと思った。 ChatGPTが検索よりもいいのは、そのものズバリな文書がなくても、その周辺から学んだ単語の関係をもとに、答えを構築してくれることです。たとえば検索の場合は、日本語で書かれた文書が用意されていなければ、たとえ英語や中国語の文書があったとしても日本語での検索には引っかかりません。けど、ChatGPTの場合は、英語や中国語の文書から学んだ単語の関係や、ほかの文書から学んだ英語と日本語の関係、日本語での単語の関係などから、日本語の回答を生成してくれます。たとえばGluonという会社について日本語で説明してる記事はおそらくないと思うのですが、ちゃんと日本語で説明してくれます。本社はベルギーですが。。。

misshiki 2023/01/25

“そしてChatGPTもネットから学習データをとってくる以上は、学習データがChatGPT自身に汚染されていくのであった・・・”

人工知能

リンク

ChatGPTのヤバさは、論理処理が必要と思ったことが確率処理でできるとわかったこと - きしだのHatena

ChatGPTのヤバいところは、論理処理が必要だと思っていたことが、じつは多数のデータを学習させた確率処理で解決可能だと示したことだと思います。たとえば、このように正規表現にマッチする文字列を生成するには、特別に専用の論理処理が必要だと思っていました。前のブログのときには特殊処理が必要だと考えてましたね。ウソはウソと見抜ける人じゃないとChatGPTを使うのは難しい - きしだのHatena けど、123_45678world.mdはマッチするのにマッチしないと言っているので、そのような誤りが入ることを考えると、どうも確率処理だけでやっているようです。考えてみると、3層以上のニューラルネットであれば論理素子を再現できるので、ディープラーニングで論理処理を模倣することは可能なんですよね。バックプロパゲーションでニューラルネットの学習 - きしだのHatena そもそも論理は、多数の