ブックマーク / note.com/shi3zblog (34)

  • 音声からプログラムを自動的に作るautocodeを作った|shi3z

    なんか吾輩の昔のブログを読みたいという酔狂な奴がいて、何でも最近会社を立ち上げたらしくて売上が1億を超えたところらしい。 他ならぬ友が会社を立ち上げて苦労している時に、吾輩の昔のブログのタイトルだけ覚えていて、それが見たいのだという。 吾輩は主にAI学習用に自分のブログのアーカイブを持っている。 持っているのだがHTML形式のため非常に読みにくい。 そこでHTMLタグ除去コードを書こうと思ったのだが、今からそんなもの書くのは芸がないので、まず音声入力を受け取って、それを音声認識した結果をClaude-3に投げてプログラムとして出力するプログラムを書いてみた。 これのミソは、喋るだけでコードが出来上がることである。 実際に使うとこうなる。 python autocode.py Recording... Recording finished. Special tokens have been

    音声からプログラムを自動的に作るautocodeを作った|shi3z
  • Command-R+の衝撃! 100Bモデルで本当にこんなことできんの!?ダウンロードしてローカルで実行可能|shi3z

    Command-R+の衝撃! 100Bモデルで当にこんなことできんの!?ダウンロードしてローカルで実行可能 Transformerの発明者らが起業したCohereAIがとんでもないモデルを出してきた。この業界では毎週のように「えーー!」ということが起きるのだが、その中でも年に1,2回起きる「えーーーっ」が起きたのでブログでも紹介しておきたい。 Command-R+(おそらくコマンダープラスと読むのが正しい)というモデルは、わずか100Bで、GPT-4,Claude-3並と言われるモデルだ。しかし、それを主張するだけのモデルなど腐るほどある。だが、実際に触ってみると期待外れということが多かった。 ところがCommand-R+は、その性能は桁違いである。というか、もはや僕という人間如きがちょっと触ったくらいでは「GPT-4よりいいね」とか「ここら辺甘いね」とか判断がつかなくなってきてる。しか

    Command-R+の衝撃! 100Bモデルで本当にこんなことできんの!?ダウンロードしてローカルで実行可能|shi3z
  • 驚異の1ビットLLMを試す。果たして本当に学習できるのか?|shi3z

    昨日話題になった「BitNet」という1ビットで推論するLLMがどうしても試したくなったので早速試してみた。 BitNetというのは、1ビット(-1,0,1の三状態を持つ)まで情報を削ぎ落とすことで高速に推論するというアルゴリズム。だから正確には0か1かではなく、-1か0か1ということ。 この手法の行き着くところは、GPUが不要になり新しいハードウェアが出現する世界であると予言されている。マジかよ。 https://arxiv.org/pdf/2402.17764.pdf ということで早速試してみることにした。 オフィシャルの実装は公開されていないが、そもそも1ビット(と言っていいのかわからない,-1,0,1の三状態を持つからだ。 論文著者はlog2(3)で1.58ビットという主張をしている)量子化のアルゴリズム自体の研究の歴史は古いので、BitNetによるTransformerの野良実装

    驚異の1ビットLLMを試す。果たして本当に学習できるのか?|shi3z
    manjirou99
    manjirou99 2024/02/29
    ビット数とか薀蓄語りたい人の話はどうでも良い。実装からの検証でCPUとGPUの学習推論速度比が相当縮んだだろう事が重要だ、性能テストのスクリプトを流せ
  • 東浩紀「訂正可能性の哲学」はAI関係者必読だ!|shi3z

    先週、今週とあちこちへ出張が続いているので、移動時間の合間、ネットが途切れる山奥にさしかかったあたりで東浩紀「訂正可能性の哲学」を読んだ。東さんのはいつもそうなのだが、あまりの内容に驚愕した。 そして昨日はたまたま東さんにVisionProを体験させる約束をしていた日なので、会う前に一気に読み終えた。すごい。もっと早く読めばよかった。 東さんのは基的に「凄すぎる」ので、読むと影響を受けすぎてしまってしばらく自分の思考が戻ってこない状態になる。しかし最近の僕は、むしろ忙しすぎて誰かの思考を取り入れたいモードになっていたのだ。 その意味で、まさに今の時代に必要とされているだと思うし、当にすごい。10年前に上梓された「一般意志2.0」の続編でもあり、なおかつアップデートでもある。もちろん読んでなくても全然良い。 特に舌を巻いたのは、落合陽一の「デジタルネイチャー」や成田雄介の「無意識デ

    東浩紀「訂正可能性の哲学」はAI関係者必読だ!|shi3z
    manjirou99
    manjirou99 2024/02/21
    東氏に心酔してる人、申し訳ないけど物凄い騙されやすいんだと思うな。人間がAIを訂正する世界観、その可能性なんて絶望しかない。国連安保理が機能不全で世界大戦間近な様に猿にAIの政治判断を訂正さるべきでない
  • ごめんVisionPro誤解してた (๑˃̵ᴗ˂̵)|shi3z

    朝起きて、「うーんまだ布団から出たくないな」と思ったとき、おもむろにVisionProを被ってみた。 暗い部屋では認識が格段に悪くなるが、なぜPSVRではこういう使い方をしなかったのかわかった。後頭部だ。 PSVRは後頭部にゴツい部品があって、それで寝ながらVRを見るということが少し難しくなってる。VisionProの標準のバンドはこういうときにちょうどいい。 VisionProでTerminalを動かして、継之助の様子を見る。今日も元気に学習しているようだ。 昨日寝落ちした Amazon Primeの「沈黙の艦隊」第五話と六話を見る。音がいい。空間オーディオに対する長年の研究が結実してる感じ。しかもすごくいい音なのだ。 昨日、路上で歩きながら使ってみた(技適の特例申請には移動経路を申告済み)。路上で使うと思わぬ欠点というか盲点にぶちあたる。ウィンドウがついてこないのだ。 他のHMDと違い

    ごめんVisionPro誤解してた (๑˃̵ᴗ˂̵)|shi3z
  • Apple Vision ProはHoloLensの完成形。現時点での限界値|shi3z

    昔は海外の電波を発する新製品は国内で使用できなかったが、今は総務省の技適の特例制度を利用することでいち早く試すことができる。 「海外法令」云々のところで多少つまづいたが、これはFCC IDを検索すれば解決した。 https://fccid.io/BCGA2117 VisionProのFCC IDはBCGA2117だった。 これで準備完了。 吾輩は、かつては1990年代にキヤノンのMR(混合現実感)システムや理化学研究所のSR(代替現実感)システムを試し、大学院の履修生をやっていた頃はVR特講を受講し、学生対抗国際VR(人工現実感)コンテストに参加したこともある。htc Viveでいくつかのデモを作り(ほとんどは非公開)、Oculusもほとんど持ってるくらいはHMD好きである。片目リトラクタブルHMDで自転車の走行を支援するシステムのデモも2008年頃に作った。 2017年には機械学習したM

    Apple Vision ProはHoloLensの完成形。現時点での限界値|shi3z
    manjirou99
    manjirou99 2024/02/09
    enchantmoonすげー知られてる有名じゃん。ヒット作だ
  • プログラミングの超基本的な考え方をド文系の人に説明した動画|shi3z

    哲学者の東浩紀さんと思想史と近代科学史(特にコンピュータ史)のを一緒に書いてみようという企画が今年から立ち上がった。 すると東さんがある日の生放送で、「しかし俺も最低限プログラムくらいかける必要があるんじゃないか。しかし最低限のプログラムとは何か」と言っていたところ、シラスの桂さんが「エラトステネスの篩ふるいとかですかねえ」と言っていて、もうエラトステネスと聞いたら黙ってはいられない吾輩が怒涛の勢いで生放送したところ、東さんが一番乗りで入ってきてくれたのでその場でライブコーディングしながらプログラムの書き方を簡単に教えることにした。 https://shirasu.io/t/zelpm/c/shi3zlab/p/20240105163405 プログラミング言語習得のコツプログラミング言語は、言語であるため、マニュアルを頭からお尻まで読んで内容を暗記するよりも、「これってどうやんの?」「こ

    プログラミングの超基本的な考え方をド文系の人に説明した動画|shi3z
  • Copilot Studioを使ってみた。注意点と実際にかかるお金の話など|shi3z

    Copilot StudioはMicrosoft 365 E5というお高いパッケージに入らないとプレビュー版すら使えないらしい。 仕方ないので会社で入りましたよ。会社に所属してるのは3人だけど、E5だと25人分のアカウントがついてくる。 しかし!!! 金さえ払えば使えるというほどイージーなものではなかったので皆さんにお伝えします。ちなみにE5に入っただけで月額45000円(1800円x25で)になりました(ただし七日間の試用期間中にキャンセルすれば無料に)。 まずMicrosoft365で企業アカウントを作り、会社のメンバー的な人に個人アカウントを発行します(この時点でかなりハードルが高い)。 そしてCopilot Studioのページからリンクに飛べば、企業の個人アカウントでログインできた。やったぜ! しかしログインしても、様子がおかしい。 なんかフローチャートが出てきて、フローチャート

    Copilot Studioを使ってみた。注意点と実際にかかるお金の話など|shi3z
  • GPT-3.5-Turbo / GPT-4-Turbo 1106のJSONモードの使い方|shi3z

    時間未明(午前三時)ものすごいスピードで語られたOpenAI初の開発者向けイベントDevDayで発表されたGPT-4-TurboとGPT-3.5-TurboによるJSONモード。 これはものすごく強力なんだけど、Python APIによる使い方がどこにも描いてないので試行錯誤の末見つけましたので共有いたします。 from openai import OpenAI import openai import os openai.api_key = "<APIキー>" client = OpenAI() def gpt(utterance): #response = openai.chat( response = client.chat.completions.create( #model="gpt-4-1106-preview", model="gpt-3.5-turbo-1106", r

    GPT-3.5-Turbo / GPT-4-Turbo 1106のJSONモードの使い方|shi3z
  • 俺に起業の相談をするな|shi3z

    最近よく聞かれるので改めて言っておく。俺に起業相談をするな。一切受けつけていない。突然事業のアイデアを言われても俺は助けないし助けられない。 俺が相手にするのはUberEatsのユーザーと、昔から一緒に仕事をしている人の紹介だけだ。もうすぐ五十路が見えているというのに新たな人間関係を構築しようとするほど俺は暇でも気長でもない。 相談されるとそれだけで僕の頭脳が無駄に消費される。俺に相談するというのは基的に泥棒である。俺は何か聞いたら自分でも意識しないうちに気の利いた解決策を考えてしまう。俺にとって俺の頭脳は商売道具だから、俺に起業相談をするというのはタダでイラストレーターに絵を描けと言ってるのと同じだ。 相談を受けなくていいようにたくさん記事を書いてるしも書いている。俺の情報を一方的に発信するのは構わないのだが、誰かのへんな考えを聞いて時間を浪費したくない。時間は限られているのだ。

    俺に起業の相談をするな|shi3z
    manjirou99
    manjirou99 2023/10/22
    AIを社長にしよう、いやマジで社長とか経営者とか国家指導者はちゃんと作った哲人AIの方が人より遥かに向いてるはずだ。この方の友人の話を見ても普通なら当たり前のことを人は規模やプレッシャーが大きいと出来ない
  • 注目の日本語大規模モデルLLM-JP 13Bを試す(JSON吐けた)|shi3z

    国立情報学研究所が作ったLLM-JP 13Bが公開されていたので早速試してみた。色々なモデルが公開されているが、全部盛りっぽい 「llm-jp/llm-jp-13b-instruct-full-jaster-dolly-oasst-v1.0」を試す。 マシンはもちろんドスパラ製Memeplexマシン(A6000x2)だ。 import torch from transformers import AutoTokenizer, AutoModelForCausalLM tokenizer = AutoTokenizer.from_pretrained("llm-jp/llm-jp-13b-instruct-full-jaster-dolly-oasst-v1.0") model = AutoModelForCausalLM.from_pretrained("llm-jp/llm-jp-13b

    注目の日本語大規模モデルLLM-JP 13Bを試す(JSON吐けた)|shi3z
  • 無料でGPT4越え!?ついに来たXwin-LM|shi3z

    今日のウィークリーAIニュースではnpaka大先生と一週間のニュースを振り返った。今週もいろいろあったが、なんといってもダークフォース、GPT-4越えと言われるXwin-LMである。中国製。 大先生もまだ試してないというので番組内で一緒に試してみた。 もちろんドスパラ製Memeplexマシン(A6000x2)を使用。 >>> from transformers import AutoTokenizer, AutoModelForCausalLM >>> model = AutoModelForCausalLM.from_pretrained("Xwin-LM/Xwin-LM-7B-V0.1") Downloading (…)lve/main/config.json: 100%|██████████████████| 626/626 [00:00<00:00, 56.2kB/s] [2023

    無料でGPT4越え!?ついに来たXwin-LM|shi3z
    manjirou99
    manjirou99 2023/09/23
    Shi3zさん宮崎駿に生命の侮辱のセリフ言われた時にかわんごと同席してたから、かわんごより技術担当者としての色が濃いからまぁ駿に文句つけられた人の1人やろ。1番かわいそうだったのは直の開発者の中村さんかな
  • OpenInterpreter / ついにAIがガチのアシスタントに!これは凄い、というか凄すぎる|shi3z

    凄いものが出てきてしまった。 ChatGPTの「Code Interpreter」が話題になったが、あれはあくまでクラウド上で動いているだけ。それを模してローカルで動作するようになった「Open Interpreter」は、衝撃的な成果である。 Open Interpreterのインストールは簡単。コマンド一発だ $ pip install open-interpreter起動も簡単 $ interpreter -yこれだけでOK。 あとはなんでもやってくれる。 たとえばどんなことができるのかというと、「AppleとMetaの株価の推移をグラフ化してくれ」と言うとネットから自動的に情報をとってきてPythonコード書いてグラフをプロットしてくれる。 凄いのは、ローカルで動くのでたとえばApplescriptを使ってmacOSで動いているアプリを直接起動したり操作したりできる。「Keynot

    OpenInterpreter / ついにAIがガチのアシスタントに!これは凄い、というか凄すぎる|shi3z
  • プレ・シンギュラリティ、もう始まってない?|shi3z

    毎日AIニュースを追いかけていると、当然、波がある。 「今週は落ち着いてるな」とか「今日はやばいな」とか。 今日は、久々に「やばいな」という日だった。 まず、一日のうちにSOTA(State Of The Art)超えしたという大規模言語モデルを三つくらい見た。明らかにおかしい。 さらに、AttentionとMLPを使わない大規模言語モデルの実装も見た。世界を三次元的に解釈して合理的な質問と答えを行う大規模言語モデルもあれば、4ビット量子化した60モデルは8ビット量子化した30Bモデルよりも高性能という主張がなされたり、Googleは論理回路の設計を強化学習で行なっているという。どれもこれもにわかには信じ難いが、今目の前で起きていることだ。 「シンギュラリティ」の定義には、「AIAIを設計し、改良し続ける」という部分があるが、今のAIは人間も考えているが、実はAIAIを設計している部分

    プレ・シンギュラリティ、もう始まってない?|shi3z
    manjirou99
    manjirou99 2023/07/26
    2030年までに確実にえらい事にはなるし強いAIの成立は最早確定的で僕の興味は生物の特性をAIに与える人がいるか?いるなら近い将来人類が絶滅させられる確率はかなり上がる
  • これぞ革命!?ゼロから大規模言語モデルを学習できるReLORA登場(7/18追記あり)|shi3z

    導入 当に革命的な技術なのか? 「君たちはどう生きるか」で驚いている間にすごい論文が世界の話題を掻っ攫っていた。 その名も「ReLORA」簡単に言えば、「事前学習にLoRAを使う」というものである。 これは当に革命的な発見かもしれないので、僕の仮説も含めて丁寧に説明する。 まず、大前提として、「LoRA」という技術について LoRAは、「Low Rank Adaptation(日語で言うとすれば低階適応)」という技術で、これまでは主にファインチューニングに使われてきた。 ファインチューニングとは、あらかじめ学習されたニューラルネットワークに対して追加で学習させ、概念を強調させたり新しく覚えさせたりする。 たとえば、僕の顔でStableDiffusionをファインチューニングすれば、僕みたいな顔の絵がどんどん出てくる。 言語モデルにおけるLoRAも同様で、新しい概念や「こういうやりとり

    これぞ革命!?ゼロから大規模言語モデルを学習できるReLORA登場(7/18追記あり)|shi3z
  • 学生起業で絶対に失敗しない方法|shi3z

    iUの中村伊知哉先生が、「うちの学生の目標は起業率100%だが大半が就職してしまった」と嘆いていらしたので、「学生起業は基的に失敗しないように教育することができる」という話をして、「そんな方法があるなら教えてくれ」と言われたのだがしばらく書くのを忘れていた。今日は暑くて出かけたくないので書く。 学生起業すべき理由大学の授業は大半が意義がよくわからない。なんのために学ぶのか、それが社会でなんの役に立つのかわからない。当たり前である。社会に出たことがないんだから。だから僕は、18歳で(起業に限らず)働いて、20歳くらいで大学に入学するのをお勧めする。授業の有り難みがまるで違う。二浪してる人なんか沢山いるし。 ただまあ、18歳で働き口を探すのも大変だという話はあるだろうから、親の脛を齧れる学生時代に起業しておくことを強くお勧めする。 なぜ学生起業を勧めるか? 1.社会の仕組みに触れることができ

    学生起業で絶対に失敗しない方法|shi3z
  • AIで人類が滅ぶとか冗談だろと思っていたのだが|shi3z

    昨日、ひょんなことからピープロ作品のフィルムをデジタルアーカイブにして保存するプロジェクトを見に行くことになった。 ちなみに僕はピープロ作品はマグマ大使以外見たことがない。 ライオン丸やザボーガーは生まれる前に終わっていた。 今、ピープロ作品はなぜか株式会社カラーが権利を持っているらしく、冒険王という雑誌のために撮影された当時の作品の6x6判のカラーポジフィルムが発掘されたので、そのデジタルアーカイブを残したいというプロジェクトをクラウドファンディングしているのだという。ちなみにオール・オア・ナッシング方式なので、現在300万円近くまで来ているが、目標の500万円に達しなければ不成立。なんでこんなに高いハードルが課されているのかは不明。 僕は全く見たこともないピープロ作品なのだが、ライオン丸とタイガーセブンといえば、トチオンガーセブンのパクリ元強烈なリスペクト先であるため、頼まれもしないの

    AIで人類が滅ぶとか冗談だろと思っていたのだが|shi3z
  • AIで動画&音楽生成はここまで来た!|shi3z

    AI動画生成が結構いいところまできた。 Runway-MLのGen2も素晴らしいのだが、オープンソースのZeroscope-v2-xlがすごい 音楽musicgenで大体作れる これまで音楽生成には否定的だったが、ここまで作れるなら、DJ機材用のループ素材として十分使える気がする。というか30秒も作れるのでループでは勿体無いというか。「久石譲っぽく」とか「ジョン・ウィリアムズ風」とかでそれっぽいものが出てくる。

    AIで動画&音楽生成はここまで来た!|shi3z
  • VisionOSでプログラミングをほんのちょっとだけ触ってみて思ったこと|shi3z

    VisionOSのSDKが公開されたので出先でダウンロードして早速試してみた。エミュレータはそれだけで楽しい。VisionOSでどんなことができるか想像しやすい。どんなイメージビデオよりも説得力があり、肌触りがある。 VisonOSのSDKはMacApple IDがあれば誰でも無料でダウンロードできる。たぶん。僕は何年も個人アカウントのApple Developer Promgramへの支払いをしてない。 UnityでVisionOSを触る前にSwiftでVisionOSを触ってみる。 触ってみてわかったのは、全く絶望的なくらい、「空間大のiPad」でしかないということ。 プログラミングモデル的にはこれまでiOSアプリを作ってきた人にとってはかなりとっつきやすいだろう。例えば平面的なアプリなら、ほとんどそのまま動きそうである。 反面、例えばお絵描きアプリみたいなのが標準で入っているが、お

    VisionOSでプログラミングをほんのちょっとだけ触ってみて思ったこと|shi3z
  • 数式は触ってみないと何も分からない|shi3z

    数式って不便すぎないか? いやわからん。 俺は数学苦手だから。 でも例えば、プログラミング言語は、現代普通に使われるものだけ挙げても、C#、JavaScriptRubyPythonPHPJavaSwiftとまあ軽く7種類くらい。C系で言えば、C、C++もあるし、C++もバージョンによってはほとんど別物になったりする。プログラミング言語ではない人工言語としても、HTMLSQL、VHDL・・・アセンブリ言語などがあり、使う人は少ないが恩恵に預かってる人が多い言語で言うとLISPやHaskellなんてのもある。 しかもこれらのプログラミング言語は、すべて「同じアルゴリズム」を記述することが可能なのだ。 「同じことを説明するのに複数の方法(言語)がある」と言うことが一体何の意味があるのか、プログラマー以外の人にはわかりにくいだろうが、プログラマーにとっては大問題である。 それぞれのプロ

    数式は触ってみないと何も分からない|shi3z