dambiyoriのブックマーク - はてなブックマーク

(マジの)ご家庭にジャービス。完全 Macのみで日本語音声応答するAIを作った｜shi3z

Speech-to-speechは、NVIDIAのGPU搭載マシンがあればローカルで音声認識、応答生成、音声合成ができる画期的なオープンソースツールだった。しかし一つだけ不満があったのは、これが日本語には対応していないということだ。ワイはコスモポリタンである。・・・そう名乗ってしまったから、「そういえばコスモポリタンってなんだろう」と思ってClaude-3に聞いてみた。コスモポリタンは以下のような意味や用法があります: 1.飲み物としてのコスモポリタン: ウォッカ、クランベリージュース、ライムジュース、トリプルセックを使ったカクテル 1980年代後半に人気が出て、特に映画やテレビドラマの影響で広く知られるようになりました 2.思想・概念としてのコスモポリタン: 世界市民主義、国際主義を表す言葉国境や文化の違いを超えて、世界中の人々と交流し、理解し合うという考え方狭い地域や国家の

dambiyori 2024/08/22

あとで読む

リンク

ド下手な俺が半日だけ絵を練習してみた｜shi3z

前回、絶望的な画力のなさでAIといえど俺の伝えたいことが伝えられなくて非常に困ったので、もうここは諦めて絵を勉強することにした。人間、何歳になっても勉強できる! 職業柄、「図」はよく描くのだが、「絵」特に、メカではないキャラクターは苦手だった。学生時代、「漫画アニメーション研究会(まに研)」の幽霊部員だった時も、キャラクターが描けなかったので馴染めなった苦い記憶を持つ。しかし、時は大AI時代。 AIさんに思い通りの絵を描いてもらうには、俺だって最低限の画力が必要だということを前回痛感したため、このクソ忙しいのに半日だけ絵を練習した、という話。色々な本をKindleで買ってみたが、良かったのはこれ。 Kindleで買って感動して、DVD付きの書籍をわざわざもう一冊買い直すくらいハマった。これは、自主制作のアニメ制作から初めて絵を修行し、最終的にはスタジオジブリの入社試験に合格できるほ

dambiyori 2024/06/04

あとで読む

リンク

1BitLLMの実力を見る｜shi3z

1BitLLMは本当に実現可能なのか?そして、実現されると予告されていることに意味はあるのか? ようやく再現実装に成功した人が現れたので僕も試してみた。ちなみに1Bit(1.58bit) LLMについての考察はこのページが面白いので一読をお勧めする。ただし、普通のHuggingFaceのお作法とはかなり違うので注意が必要。まず、このHuggingFaceリポジトリを丸ごとgit cloneする $ git lfs install $ git clone https://huggingface.co/1bitLLM/bit net_b1_58-3B $ cd bit net_b1_58-3Bこれをやらずにいつもの凡例みたいにいきなりpipelineに読み込もうとすると謎のエラーが出て悩まされることになる。海外でも悩んでる人が何人もいるみたいだ。まあ個人的には「こんな説明で誰がわかる?」と思

dambiyori 2024/04/18

あとで読む

リンク

BitNetでMNISTを学習させて見えてきた性質｜shi3z

かれこれ一ヶ月弱くらいBit Netと格闘している。Bit Netは、Microsoftが発明したと主張している1-Bit(1.58ビットとも言われる)量子化ニューラルネットワークのことだ。僕はその辺に落ちてるコードを使って最初の最初はlossが2くらいまで下がったのだが、そもそもLLMはlossが1を切らないと実用性がない。それ以降は6とか良くて5とかなのでたまたま最初に試したのがうまく行ったようだ。しかしいつまで経っても良くならないのでBit Netの性質を根本的に見直す必要があるのでは?と思い、初心に帰って論理回路を学習させようとした。 Bit Netのコードベースははちさんのコードと、Microsoftの公式な論文の実装を併用した。まず試したのはこのようなコード from bit net import * import torch from torch import optim im

dambiyori 2024/03/25

あとで読む

リンク

驚異の1ビットLLMを試す。果たして本当に学習できるのか?｜shi3z

昨日話題になった「Bit Net」という1ビットで推論するLLMがどうしても試したくなったので早速試してみた。 Bit Netというのは、1ビット(-1,0,1の三状態を持つ)まで情報を削ぎ落とすことで高速に推論するというアルゴリズム。だから正確には0か1かではなく、-1か0か1ということ。この手法の行き着くところは、GPUが不要になり新しいハードウェアが出現する世界であると予言されている。マジかよ。 https://arxiv.org/pdf/2402.17764.pdf ということで早速試してみることにした。オフィシャルの実装は公開されていないが、そもそも1ビット(と言っていいのかわからない,-1,0,1の三状態を持つからだ。論文著者はlog2(3)で1.58ビットという主張をしている)量子化のアルゴリズム自体の研究の歴史は古いので、Bit NetによるTransf ormerの野良実装

dambiyori 2024/02/29

あとで読む

リンク

東浩紀「訂正可能性の哲学」はAI関係者必読だ!｜shi3z

先週、今週とあちこちへ出張が続いているので、移動時間の合間、ネットが途切れる山奥にさしかかったあたりで東浩紀「訂正可能性の哲学」を読んだ。東さんの本はいつもそうなのだが、あまりの内容に驚愕した。そして昨日はたまたま東さんにVisionProを体験させる約束をしていた日なので、会う前に一気に読み終えた。すごい。もっと早く読めばよかった。東さんの本は基本的に「凄すぎる」ので、読むと影響を受けすぎてしまってしばらく自分の思考が戻ってこない状態になる。しかし最近の僕は、むしろ忙しすぎて誰かの思考を取り入れたいモードになっていたのだ。その意味で、まさに今の時代に必要とされている本だと思うし、本当にすごい。10年前に上梓された「一般意志2.0」の続編でもあり、なおかつアップデートでもある。もちろん読んでなくても全然良い。特に舌を巻いたのは、落合陽一の「デジタルネイチャー」や成田雄介の「無意識デ

dambiyori 2024/02/21

あとで読む

リンク

GPT-3.5-Turbo / GPT-4-Turbo 1106のJSONモードの使い方｜shi3z

日本時間未明(午前三時)ものすごいスピードで語られたOpenAI初の開発者向けイベントDevDayで発表されたGPT-4-TurboとGPT-3.5-TurboによるJSONモード。これはものすごく強力なんだけど、Python APIによる使い方がどこにも描いてないので試行錯誤の末見つけましたので共有いたします。 from openai import OpenAI import openai import os openai.api_key = "<APIキー>" client = OpenAI() def gpt(utterance): #response = openai.chat( response = client.chat.completions.create( #model="gpt-4-1106-preview", model="gpt-3.5-turbo-1106", r

dambiyori 2023/11/08

あとで読む

リンク

OpenInterpreter / ついにAIがガチのアシスタントに!これは凄い、というか凄すぎる｜shi3z

凄いものが出てきてしまった。 ChatGPTの「Code Interpreter」が話題になったが、あれはあくまでクラウド上で動いているだけ。それを模してローカルで動作するようになった「Open Interpreter」は、衝撃的な成果である。 Open Interpreterのインストールは簡単。コマンド一発だ $ pip install open-interpreter起動も簡単 $ interpreter -yこれだけでOK。あとはなんでもやってくれる。たとえばどんなことができるのかというと、「AppleとMetaの株価の推移をグラフ化してくれ」と言うとネットから自動的に情報をとってきてPythonコード書いてグラフをプロットしてくれる。凄いのは、ローカルで動くのでたとえばApplescriptを使ってmacOSで動いているアプリを直接起動したり操作したりできる。「Keynot

dambiyori 2023/09/08

あとで読む

リンク

高次元ベクトルを「矢印」とイメージするのがちょっとしっくりこない理由｜shi3z

なぜAIを考える時にベクトルを「矢印」と捉えるべきではないのか。実際には矢印として考えたほうがいい例外もあります。たとえば、特徴空間の任意の２点の引き算や足し算をするとき。矢印のメタファーが使えます。あるベクトルAから別のベクトルBを引いたベクトルCは、BからAへ伸びる矢印としてイメージするのは大丈夫です。この性質を利用して、プロンプト芸が成り立つケースもあります。たとえば画像生成系AIで使われるネガティブプロンプトはそういう性質を使っています。しかし、根本的に、我々が普段イメージする二次元の矢印で示されるベクトルと、十次元以上の高次空間のベクトルは、全く異なる性質をもっていると考えるべきです。低次のベクトルと、高次のベクトルでは、共通する要素はあるけれども、それはごく一部に過ぎないということです。例を挙げましょう。 1次元のベクトルは、正負の向きと大きさを持ちます。数直

dambiyori 2023/06/16

あとで読む

リンク

予算30万円台の深層学習用PCの買い方｜shi3z

深層学習をまじめにやるなら、どう考えても専用のPCが必要になる。僕は現在、Memeplexというサービスを運営していて、これはさくらインターネットさんから大量のGPUを借りている。借りたGPUは、さくらインターネットの石狩データセンターで動いている。さらに、ABCIは企画の段階から立ち会って、実際に仕事ではよく使っている。ABCIは5000以上のGPUを擁するGPUクラウド基盤で、その実態はスーパーコンピュータである。 ABCIを使えば、ほとんどの難しいタスクを恐ろしく安い料金で行うことができる。GoogleやAmazon AWSのようなサービスを展開することができない本邦においては、国家が設立し、民間利用可能なABCIは国民にとっての天叢雲剣あめのむらくものつるぎである。それでもなお、手元には深層学習用のPCが必要だ。しかも一台では足りない。 ABCIがいかに安くても、PCほどの利

dambiyori 2022/11/14

あとで読む

リンク

Midjourney/Memeplex(StableDiffusion)などの画像生成AIで思い通りの画像を出すヒント｜shi3z

このnoteの収益を使ってStable Diffusionを使ったWebサービス https://memeplex.appを公開しました。誰でも無料で何枚でもAI作画をすることができます(そのかわり、混み合ってる時は時間がかかると思います)。このnoteで学んだことをぜひ活用して、AIによる新しい時代の風を感じてください。また、本文中にMidjourney、StableDiffusion、DreamStudio、Memeplexなどの言葉が頻出するため、全面的な修正を行うことにしました。StableDiffusionに統一しておきたいと思います。現状(2022/8/28)は、StableDiffusion=DreamStudio/Memeplexと考えて構いません。Memeplexは将来的にStableDiffusion以外のアルゴリズムもサポートする予定だからです。