タグ

ブックマーク / note.com/shi3zblog (12)

  • (マジの)ご家庭にジャービス。完全 Macのみで日本語音声応答するAIを作った|shi3z

    Speech-to-speechは、NVIDIAのGPU搭載マシンがあればローカルで音声認識、応答生成、音声合成ができる画期的なオープンソースツールだった。 しかし一つだけ不満があったのは、これが日語には対応していないということだ。 ワイはコスモポリタンである。 ・・・そう名乗ってしまったから、「そういえばコスモポリタンってなんだろう」と思ってClaude-3に聞いてみた。 コスモポリタンは以下のような意味や用法があります: 1.飲み物としてのコスモポリタン: ウォッカ、クランベリージュース、ライムジュース、トリプルセックを使ったカクテル 1980年代後半に人気が出て、特に映画テレビドラマの影響で広く知られるようになりました 2.思想・概念としてのコスモポリタン: 世界市民主義、国際主義を表す言葉 国境や文化の違いを超えて、世界中の人々と交流し、理解し合うという考え方 狭い地域や国家の

    (マジの)ご家庭にジャービス。完全 Macのみで日本語音声応答するAIを作った|shi3z
    hirokts
    hirokts 2024/08/22
  • もうみんなプログラマーになれるよ|shi3z

    僕の20年来の親友にnpakaというプログラマーがいるんだけど、彼はもう超凄い。何でもすごい。何でも書けるし何でも早い。を書くのもプログラムを書くのも、新しいわけわかんない説明書がバグだらけの環境に慣れるのも早い。 んで、これまではちょっとしたことも難しいことも全部npaka(布留川君)に頼んでたんだけど、最近二人とも独立したからつまんないこと頼むのは悪いなと思って「あれはできるんだっけ」くらいのことは自分で何とかしようかなと思った。 それでChatGPTに「Swiftで⚪︎⚪︎やるにはどうすんの?」と聞いたら、Swiftについてほとんど何も勉強してないのに作りたいものが何となくすぐにできてきちゃって、でもまあやっぱりChatGPTだと知識が古いので詰まったらネットで検索すると、だいたい結局npaka(布留川君)のページが出てきてやはり信頼と実績の大先生(仲間内ではそう呼ばれている)です

    もうみんなプログラマーになれるよ|shi3z
    hirokts
    hirokts 2023/09/11
  • AI Bunchoモデルで何か物語めいたものを生成する|shi3z

    もともと小説を書くためのAIなので物語には強いだろう。しかも日製だし。 ということで大先生が早速試していた。 僕も真似をしてさっそく使ってみたのだが、そのままだとかなり短い文章しか出てこない。使い方に工夫が必要そうである。 そこでこんなコードを書いた。 def b(prompt): input_ids = tokenizer.encode( prompt, add_special_tokens=False, return_tensors="pt" ).cuda() tokens = model.generate( input_ids.to(device=model.device), max_new_tokens=320, temperature=0.6, top_p=0.9, repetition_penalty=1.2, do_sample=True, pad_token_id=tok

    AI Bunchoモデルで何か物語めいたものを生成する|shi3z
    hirokts
    hirokts 2023/08/14
  • AIを学ぶのに必要な最低限の数学の知識は5つだけ!|shi3z

    最近、「AIを理解したくて代数幾何の教科書を勉強しているんですよ」という人によく会う。 五年前くらい前に、note株式会社の加藤社長も「社内で代数幾何学の勉強会を開いてるんですよ」と言っていた。僕はその都度「それは全く遠回りどころか明後日の方向に向かってますよ」と言うのだがなかなか聞き入れてもらえない。 確かに、AI、特にディープラーニングに出てくる用語には、ベクトルやテンソルなど、代数幾何学で使う言葉が多い。が、敢えて言おう。 代数幾何学とAIはほとんど全く全然何も関係していないと。 なぜこのような不幸な誤解が生まれてしまうかの説明は後回しにして、意地悪をしても仕方ないので、AIを理解するために最低限知っておかなければならない用語を5つだけ紹介する。 テンソル(スカラー、ベクトル、行列など)おそらく、「テンソル」という言葉が人々を全ての混乱に向かわせている。 Wikipediaの説明は忘

    AIを学ぶのに必要な最低限の数学の知識は5つだけ!|shi3z
    hirokts
    hirokts 2023/06/16
  • GPTのモデル構造を可視化した|shi3z

    GPTのモデル構造を目で見てみたい! そんな気持ち、わかるでしょ? 技研フリマをやりながら、どうにかこうにか出力したよ ご覧あれ やり方メモ from transformers import AutoTokenizer, AutoModelForCausalLM from torchviz import make_dot tokenizer = AutoTokenizer.from_pretrained("gpt2") from transformers import pipeline, set_seed generator = pipeline('text-generation', model='gpt2') m= generator.model x= m.generate() y= m.forward(x) image = make_dot(y.logits, params=dict(

    GPTのモデル構造を可視化した|shi3z
    hirokts
    hirokts 2023/06/11
  • 完全フリーで3GBのVRAMでも超高速に動く14B大規模言語モデルRWKVを試す|shi3z

    Transformerは分散できる代償として計算量が爆発的に多いという不利がある。 一度みんなが忘れていたリカレントニューラルネットワーク(RNN)もボケーっとしている場合ではなかった。 なんと、GPT3並の性能を持つ、しかも完全にオープンな大規模言語モデルが公開されていた。 そのなもRWKV(RuwaKuvと発音しろと書いてある。ルワクフ?) RWKVはRNNなのでGPUメモリをそれほど大量に必要としない。 3GBのVRAMでも動くという。 時間がない方はビデオをご覧ください 僕の失敗は、何も考えずにgit lfs installでディレクトリごとコピーしようとしたこと。 このディレクトリには過去のモデルデータが全部あるので、ひとつ30GBのモデルデータを何十個もダウンロードしようとしていて終わらなかったのだ。 モデルデータは一とつあれば十分なのでひとつだけにする。 次に、chatのリポ

    完全フリーで3GBのVRAMでも超高速に動く14B大規模言語モデルRWKVを試す|shi3z
    hirokts
    hirokts 2023/03/27
  • GPT-4使ってみた|shi3z

    意外とあっさり公開されたGPT-4。 ChatGPT Plus(月額20ドル)に課金すると使えるらしいので早速使ってみた。 動画は以下 動画を聞き流しながら文を読むのを推奨します まず物語を考えさせてみる。 プロンプト Aという主人公がなんらかの出来事を経験して、自分の能力を使ってA’という状態になった  というのが物語である UberEats配達員を主人公とした物語のあらすじをひとつ考えてみてください これに対する回答 物語のタイトル: 『配達の軌跡:A'への変容』 あらすじ: Aは、ごく普通のUberEats配達員として日々働いていた。ある日、彼が配達をしている途中で、謎の小包が彼のバッグに入っていることに気付く。好奇心に駆られたAは、その小包を開けてしまう。中から現れたのは、謎の古びた護符だった。 その護符を手にした瞬間、Aは突如として特別な能力を手に入れる。彼は時間を操作できるよ

    GPT-4使ってみた|shi3z
    hirokts
    hirokts 2023/03/15
  • ChatGPTをブロックでプログラミングできるようにしてみた(ソースコード付き)|shi3z

    4/19 ソースコードのバグを修正しました 花粉症で午前二時に目が覚めた。 ふと 「ChatGPTの結果を組み合わせて物語を作ったり議論したりするのをPythonで書くの面倒臭くない?」 と思った。 誰かが作っていそうなので探したのだが、僕の観測範囲では世界のどこにもなかったので、とりあえずBlocklyで作ることにした。 今夜19時からは、日ディープラーニング協会が主催する大々的なイベントがあり、connpassとPeatixであわせて6000人近い人が参加するらしい。 そこに登壇するときのネタとして、なんか作っておくか、と思った。 GPT Blocklyの基的な構造 基ブロックは三つ 基ブロックテーマを設定するブロックと、話の流れに対し、ある「人物」として、「提案」もしくは「反論」などを行うブロック。 それと、複数の意見をまとめて要約するブロック である。 意見を述べるブロック

    ChatGPTをブロックでプログラミングできるようにしてみた(ソースコード付き)|shi3z
    hirokts
    hirokts 2023/03/11
  • コンピュータは難しすぎる|shi3z

    コンピュータは非常に便利なのだが、ほとんどのコンピュータユーザーがその能力の1%も使えてないのではないか。そんな気がするのだ。 というか、コンピュータの能力が人類の進歩に比べて上がり過ぎてる。 おかげでゲームAIもビデオ編集も手軽になった。 MacBookの新しいCPUが発表されたのだが、40%高速化したというニューラルエンジンを一体全体何に使えばいいのか、人工知能の研究者である吾輩にもわからないので、これを使いこなすことができる人は将来登場するのだろうか。 コンピュータの能力を真に最大限引き出すには、残念ながらプログラマーになるしかない。しかも、マシン語レベルの最適化ができるプログラマーである。 プログラムさえ丁寧につくればコンピュータの持つ潜在能力は圧倒的に高い。だがコンピュータに比べて人間は頭が悪すぎる。 結局のところ、道具がどれだけ進歩しても使う側の人間の想像力が追いつかないと全

    コンピュータは難しすぎる|shi3z
    hirokts
    hirokts 2023/01/19
  • 10年ぶりに一人でWebサービスを作って思ったこと(エンジニア老人会)|shi3z

    StableDiffusionに対応したGakyoを雑な設計のためわずか数日で10万円くらいのクラウド利用料がかかってしまった。

    10年ぶりに一人でWebサービスを作って思ったこと(エンジニア老人会)|shi3z
    hirokts
    hirokts 2022/08/29
  • 日本語で指示するだけでAIが作画する無料Webサービスを公開しました #Stable Diffusion|shi3z

    お知らせ(8/27 08:08)新サービスに移行しました。より便利に使いやすくなっています。そしてずっと無料です 開発の経緯はこちら https://note.com/shi3zblog/n/n8a3c75574053 夜更かしをしていたらすごい勢いでStable Diffusionが落ちてきて、あまりにうれしいのでこの喜びを皆様と分かち合いたく、無償で公開します。 使い方低コスト運用ですので、テキストボックスに文字を入力したあと、Requestボタンを押して、しばらくしたらリロードしてみるとどこかに自分の入れたものが表示されているはずです。といっても、今回のStableDiffusionはめちゃくちゃ速いので運が悪いと無視されます(そうしないと無限に電気代とサーバー代がかかってしまうので無料故の措置だと思ってください)。 注意事項Requestを連打しないでください。 腕に覚えのある方h

    日本語で指示するだけでAIが作画する無料Webサービスを公開しました #Stable Diffusion|shi3z
    hirokts
    hirokts 2022/08/23
  • Midjourney/Memeplex(StableDiffusion)などの画像生成AIで思い通りの画像を出すヒント|shi3z

    このnoteの収益を使ってStable Diffusionを使ったWebサービス https://memeplex.appを公開しました。誰でも無料で何枚でもAI作画をすることができます(そのかわり、混み合ってる時は時間がかかると思います)。 このnoteで学んだことをぜひ活用して、AIによる新しい時代の風を感じてください。 また、文中にMidjourney、StableDiffusion、DreamStudio、Memeplexなどの言葉が頻出するため、全面的な修正を行うことにしました。StableDiffusionに統一しておきたいと思います。 現状(2022/8/28)は、StableDiffusion=DreamStudio/Memeplexと考えて構いません。Memeplexは将来的にStableDiffusion以外のアルゴリズムもサポートする予定だからです。

    Midjourney/Memeplex(StableDiffusion)などの画像生成AIで思い通りの画像を出すヒント|shi3z
    hirokts
    hirokts 2022/08/10
  • 1