タグ

ブックマーク / note.com/shi3zblog (48)

  • これは捗る! WebページをGPT-4で日本語で要約して読み上げてくれるChrome拡張|shi3z

    あまりに良かったので即課金した。俺のデイリーAIニュースで活躍しまくり・・・なの、だが、あまりにも便利なのであっという間にポイントを使い果たしてしまった。 また、動画なのだが動画の画像自体にあまり意味がないので当は音声だけ聞き流しながらじっくりと論文体を目で追いかけたい。 そう、まるで優秀でやる気満々の大学生インターンが、隣で興奮気味に「これすごいんですよ」とギャーギャー騒いでるかのような反応を聞き流しながら「ふーん」と眺めたいのだが、NoLangだとそういう目的とはちょっと異なる。 そこで、Claude3を使ってChrome拡張を作ることにした。ちなみにChrome拡張を作るのは生まれて初めてではないが人生で二回目くらいだし前に作ったのは10年前くらいだからもはやChrome拡張素人と言える。 Chrome拡張には三つのファイルが必要だ。 まず、適当なディレクトリを作る。 そこに、以

    これは捗る! WebページをGPT-4で日本語で要約して読み上げてくれるChrome拡張|shi3z
  • 音声からプログラムを自動的に作るautocodeを作った|shi3z

    なんか吾輩の昔のブログを読みたいという酔狂な奴がいて、何でも最近会社を立ち上げたらしくて売上が1億を超えたところらしい。 他ならぬ友が会社を立ち上げて苦労している時に、吾輩の昔のブログのタイトルだけ覚えていて、それが見たいのだという。 吾輩は主にAI学習用に自分のブログのアーカイブを持っている。 持っているのだがHTML形式のため非常に読みにくい。 そこでHTMLタグ除去コードを書こうと思ったのだが、今からそんなもの書くのは芸がないので、まず音声入力を受け取って、それを音声認識した結果をClaude-3に投げてプログラムとして出力するプログラムを書いてみた。 これのミソは、喋るだけでコードが出来上がることである。 実際に使うとこうなる。 python autocode.py Recording... Recording finished. Special tokens have been

    音声からプログラムを自動的に作るautocodeを作った|shi3z
  • ド下手な俺が半日だけ絵を練習してみた|shi3z

    前回、絶望的な画力のなさでAIといえど俺の伝えたいことが伝えられなくて非常に困ったので、もうここは諦めて絵を勉強することにした。人間、何歳になっても勉強できる! 職業柄、「図」はよく描くのだが、「絵」特に、メカではないキャラクターは苦手だった。 学生時代、「漫画アニメーション研究会(まに研)」の幽霊部員だった時も、キャラクターが描けなかったので馴染めなった苦い記憶を持つ。 しかし、時は大AI時代。 AIさんに思い通りの絵を描いてもらうには、俺だって最低限の画力が必要だということを前回痛感したため、このクソ忙しいのに半日だけ絵を練習した、という話。 色々なKindleで買ってみたが、良かったのはこれ。 Kindleで買って感動して、DVD付きの書籍をわざわざもう一冊買い直すくらいハマった。 これは、自主制作のアニメ制作から初めて絵を修行し、最終的にはスタジオジブリの入社試験に合格できるほ

    ド下手な俺が半日だけ絵を練習してみた|shi3z
  • ナナロク世代とAI|shi3z

    理系の学生にちょっとした仕事を頼んだ。 「画像形式をどうするか聞かれたんですけど、ジェーイーピージーとかピーエヌジーとかどれを選べばいいですか」 そうか。理系といっても情報系じゃないから、JPEGをジェイペグと読むことを知らないのか。 ファイル形式の違いは、その形式フォーマットが生まれた背景を理解しないと適切なファイルを選べない。なるほど。 ひょっとすると僕はこのnoteを最近の読者が読むには少し難しく書き過ぎていたのかもしれない。最近は大学の講義が多いので、講義をきっかけに僕に興味をもってくれた学生がいたとしても、僕の記事は読み方さえわからない言葉がたくさん出てきてわけがわからない教科書みたいに見えているのかもしれない。これが老いるということか。 ほとんどの読者は、実はさりげなく置いてけぼりになっているのではないか。それでも今は少子化でナナロク世代(1976年生まれの人)以降の老人の方が

    ナナロク世代とAI|shi3z
  • 噂のノーコードAIシステム開発環境Difyを使ってツールを作ってみた。使った感想|shi3z

    最近にわかに話題のLLMツール「Dify」を僕も使ってみた。 いいところと「?」となったところがあったので纏めておく Difyとは、GUIでワークフローを組むことができるLLM-OPSツールだ。 ComfyUIのようにワークフローが組めたり、GPTsのように自分専用のアシスタントを作れたりできる。 特に、OpenAIのGPTシリーズとAnthropicのClaude-3、そしてCohereのCommand-R+なんかを組み合わせて色々できるところは良いところだと思う。また、ローカルLLMにも対応しているので、企業内でのチャットボットを作るんだったらGPTsよりこっちの方がいいだろう。 元々色々なテンプレートが用意されているが、テンプレだけ使うとGPTsっぽいものを作れる(それだってすごいことだが)。テンプレを改造するだけでも欲しいものが作れる人はいるし、ここはノーコード環境と言える テンプ

    噂のノーコードAIシステム開発環境Difyを使ってツールを作ってみた。使った感想|shi3z
  • 1BitLLMの実力を見る|shi3z

    1BitLLMは当に実現可能なのか?そして、実現されると予告されていることに意味はあるのか? ようやく再現実装に成功した人が現れたので僕も試してみた。 ちなみに1Bit(1.58bit) LLMについての考察はこのページが面白いので一読をお勧めする。 ただし、普通のHuggingFaceのお作法とはかなり違うので注意が必要。 まず、このHuggingFaceリポジトリを丸ごとgit cloneする $ git lfs install $ git clone https://huggingface.co/1bitLLM/bitnet_b1_58-3B $ cd bitnet_b1_58-3Bこれをやらずにいつもの凡例みたいにいきなりpipelineに読み込もうとすると謎のエラーが出て悩まされることになる。海外でも悩んでる人が何人もいるみたいだ。まあ個人的には「こんな説明で誰がわかる?」と思

    1BitLLMの実力を見る|shi3z
  • AI時代に起業するということ|shi3z

    生成AI以前と以後で、会社のあり方は決定的に変化していくのだと思う。 たとえば、昨日はとある会議で、「この(AI)サービスの原価はいくらか」という議論が沸き起こった。 AIサービスなのだから、AIの利用料くらいしかかからないかというとそうでもない。実際、AIを動かすためにはAIそのものにかかるお金以外の人件費がかかる。誰かに売る人の人件費や、システム開発のための人件費や、サポートのための人件費だ。ただ、AIサービスの場合、人件費を極限まで最小化することができる、という点が決定的に違う。 また「AIの利用料」も、「APIの利用料」なのか、ベアメタルサーバーの月額利用料なのか、それとも自社に持っているGPUマシンの電気代なのか、という議論のポイントがある。 あまり多くの人は語らないことだが、実は起業には再現性がある。 つまり、一度でも事業をうまく立ち上げたことがある経験を持つ人は、次も事業をう

    AI時代に起業するということ|shi3z
  • Command-R+の衝撃! 100Bモデルで本当にこんなことできんの!?ダウンロードしてローカルで実行可能|shi3z

    Command-R+の衝撃! 100Bモデルで当にこんなことできんの!?ダウンロードしてローカルで実行可能 Transformerの発明者らが起業したCohereAIがとんでもないモデルを出してきた。この業界では毎週のように「えーー!」ということが起きるのだが、その中でも年に1,2回起きる「えーーーっ」が起きたのでブログでも紹介しておきたい。 Command-R+(おそらくコマンダープラスと読むのが正しい)というモデルは、わずか100Bで、GPT-4,Claude-3並と言われるモデルだ。しかし、それを主張するだけのモデルなど腐るほどある。だが、実際に触ってみると期待外れということが多かった。 ところがCommand-R+は、その性能は桁違いである。というか、もはや僕という人間如きがちょっと触ったくらいでは「GPT-4よりいいね」とか「ここら辺甘いね」とか判断がつかなくなってきてる。しか

    Command-R+の衝撃! 100Bモデルで本当にこんなことできんの!?ダウンロードしてローカルで実行可能|shi3z
  • BitNetでMNISTを学習させて見えてきた性質|shi3z

    かれこれ一ヶ月弱くらいBitNetと格闘している。BitNetは、Microsoftが発明したと主張している1-Bit(1.58ビットとも言われる)量子化ニューラルネットワークのことだ。 僕はその辺に落ちてるコードを使って最初の最初はlossが2くらいまで下がったのだが、そもそもLLMはlossが1を切らないと実用性がない。 それ以降は6とか良くて5とかなのでたまたま最初に試したのがうまく行ったようだ。 しかしいつまで経っても良くならないのでBitNetの性質を根的に見直す必要があるのでは?と思い、初心に帰って論理回路を学習させようとした。 BitNetのコードベースははちさんのコードと、Microsoftの公式な論文の実装を併用した。 まず試したのはこのようなコード from bitnet import * import torch from torch import optim im

    BitNetでMNISTを学習させて見えてきた性質|shi3z
  • デザインの話|shi3z

    デザインという言葉がある。これには色々な意味があって、「design」の「de」とは、ラテン語で「下に」「内から外へ」「遠ざかって」などの意味があるそうだ。signの語源であるsignumは「印」「伝えるもの」といった意味がある。 転じて、「内から外へ伝えるもの」「天から降りてきた印」といった意味になるのだと考えられる。 僕は仕事柄、デザイナーと呼ばれる人たちとの付き合いが色々ある。デザイナーとは呼ばれなくても実際にはデザインの仕事をしている人との付き合いもある。 ただ一つだけ確かなのは、どんな超一流のデザイナーに依頼したとしても、「出てきたデザインは発注者の能力を超えない」ということだ。 今でこそAppleといえばオシャレなものを作ると思われているが、最初の最初、スティーブ・ジョブズにデザインの感覚は皆無だった。 ジョブズは最初、コンピュータを箱に入れて売ることさえ思いつかず、剥き出しの

    デザインの話|shi3z
  • いま「新しい数学」が必要だ。助けて数学者!|shi3z

    最初に言っておくが、僕は数学は全く苦手だ。数学が得意な人から見たらかなり的外れなことを言ってるのかもしれないが、僕にとっては切実な悩みなのである。「そんなのは簡単だよ」という人がいたらどうか教えて欲しい。 点がある。 これを0次元と言う。 点が横に並行移動して伸びて線になる。この線は無限大の長さまで伸びることができる。これを一次元という。 任意の長さ1の線が縦に1だけ動く、正方形になる。これを二次元と言う。 正方形を長さ1だけ今度は奥行方向に伸ばす。立方体になる。これを三次元という。 ここまでに「3つの方向」が出てきた。横、縦、奥行。 そのどれでもない四つ目の方向を考える。ただしこれは「時間軸」ではない。自由に行き来できる縦、横、奥行、ではない四つ目の「方向」だ。 立方体をそっち側の方向に動かす。これを超立方体といい、この空間を4次元という。 この長立方体をさらに「べつの方向」に動かす。こ

    いま「新しい数学」が必要だ。助けて数学者!|shi3z
  • こんなこと書いていいの!?電通のヤバい手口を暴露した電通マンの知られざる悲惨「電通マンぼろぼろ日記」|shi3z

    昨日は技研フリマで昼から飲んでしまい、技研バーが始まる頃には椅子で寝ていた。 まつゆう*と交代して家に帰り、そのまま寝てしまったので午前四時くらいに目が覚めた。 猪瀬直樹の「ラストニュース」を全部読んでしまったので、「ミカドの肖像」を読み始めたが眠くなってしまい、別のを探した。 買った覚えはないのだが、いつの間にかKindleにダウンロードされていた「電通マンぼろぼろ日記」を読み始めたらもう止まらない。一気に読み終わってしまった。 僕は電通とは多少関わりがある。一時期は毎年のように電通の研修で講師をしていたし(今考えるとなぜ僕がそんなことをしていたのか謎すぎる)、多分書に登場するF社とも仕事をしたことがある。 電通の友達とは今でも毎月何かしらで飲んでいる。 僕が格的に企画の基礎を学んだのは電通の仕事が最初で、堺屋太一の「インターネット博覧会(インパク)」向けの企画を作る時だった。 電

    こんなこと書いていいの!?電通のヤバい手口を暴露した電通マンの知られざる悲惨「電通マンぼろぼろ日記」|shi3z
  • 驚異の1ビットLLMを試す。果たして本当に学習できるのか?|shi3z

    昨日話題になった「BitNet」という1ビットで推論するLLMがどうしても試したくなったので早速試してみた。 BitNetというのは、1ビット(-1,0,1の三状態を持つ)まで情報を削ぎ落とすことで高速に推論するというアルゴリズム。だから正確には0か1かではなく、-1か0か1ということ。 この手法の行き着くところは、GPUが不要になり新しいハードウェアが出現する世界であると予言されている。マジかよ。 https://arxiv.org/pdf/2402.17764.pdf ということで早速試してみることにした。 オフィシャルの実装は公開されていないが、そもそも1ビット(と言っていいのかわからない,-1,0,1の三状態を持つからだ。 論文著者はlog2(3)で1.58ビットという主張をしている)量子化のアルゴリズム自体の研究の歴史は古いので、BitNetによるTransformerの野良実装

    驚異の1ビットLLMを試す。果たして本当に学習できるのか?|shi3z
  • 東浩紀「訂正可能性の哲学」はAI関係者必読だ!|shi3z

    先週、今週とあちこちへ出張が続いているので、移動時間の合間、ネットが途切れる山奥にさしかかったあたりで東浩紀「訂正可能性の哲学」を読んだ。東さんのはいつもそうなのだが、あまりの内容に驚愕した。 そして昨日はたまたま東さんにVisionProを体験させる約束をしていた日なので、会う前に一気に読み終えた。すごい。もっと早く読めばよかった。 東さんのは基的に「凄すぎる」ので、読むと影響を受けすぎてしまってしばらく自分の思考が戻ってこない状態になる。しかし最近の僕は、むしろ忙しすぎて誰かの思考を取り入れたいモードになっていたのだ。 その意味で、まさに今の時代に必要とされているだと思うし、当にすごい。10年前に上梓された「一般意志2.0」の続編でもあり、なおかつアップデートでもある。もちろん読んでなくても全然良い。 特に舌を巻いたのは、落合陽一の「デジタルネイチャー」や成田雄介の「無意識デ

    東浩紀「訂正可能性の哲学」はAI関係者必読だ!|shi3z
  • ごめんVisionPro誤解してた (๑˃̵ᴗ˂̵)|shi3z

    朝起きて、「うーんまだ布団から出たくないな」と思ったとき、おもむろにVisionProを被ってみた。 暗い部屋では認識が格段に悪くなるが、なぜPSVRではこういう使い方をしなかったのかわかった。後頭部だ。 PSVRは後頭部にゴツい部品があって、それで寝ながらVRを見るということが少し難しくなってる。VisionProの標準のバンドはこういうときにちょうどいい。 VisionProでTerminalを動かして、継之助の様子を見る。今日も元気に学習しているようだ。 昨日寝落ちした Amazon Primeの「沈黙の艦隊」第五話と六話を見る。音がいい。空間オーディオに対する長年の研究が結実してる感じ。しかもすごくいい音なのだ。 昨日、路上で歩きながら使ってみた(技適の特例申請には移動経路を申告済み)。路上で使うと思わぬ欠点というか盲点にぶちあたる。ウィンドウがついてこないのだ。 他のHMDと違い

    ごめんVisionPro誤解してた (๑˃̵ᴗ˂̵)|shi3z
  • VisionPro以後|shi3z

    ピピピッ・・・ピピピッ 電子音がする。アラームだ。寝ぼけ眼を擦りながらメガネを見る。 メガネの表面には、現在時刻が表示されている。 「げ、もう七時半!?」 布団から飛び起きてパジャマを脱ぐ。メガネをかけると、今日の最初の会議まで残り28分と表示される。 歯磨きをして、朝風呂に入りながら今日のニュースをチェックする。 寝てる間に何があっただろう? 「アイナー、AI関連のニュースは?」 メガネに映る画面の片隅に女性の形をしたエージェントアプリを呼び出す。 アイナー・・・AINaAは、Augmented Intuisive Navigator and Automatorの頭字語だ。 自作のもので、24時間新しいAIニュースやReplicateで公開されたAIをチェックし、評価し、報告する価値があると判断したものだけを選別する。 <<一時間ほど前に、10テラトークン長のペンタモーダルモデルが公開さ

    VisionPro以後|shi3z
  • Apple Vision ProはHoloLensの完成形。現時点での限界値|shi3z

    昔は海外の電波を発する新製品は国内で使用できなかったが、今は総務省の技適の特例制度を利用することでいち早く試すことができる。 「海外法令」云々のところで多少つまづいたが、これはFCC IDを検索すれば解決した。 https://fccid.io/BCGA2117 VisionProのFCC IDはBCGA2117だった。 これで準備完了。 吾輩は、かつては1990年代にキヤノンのMR(混合現実感)システムや理化学研究所のSR(代替現実感)システムを試し、大学院の履修生をやっていた頃はVR特講を受講し、学生対抗国際VR(人工現実感)コンテストに参加したこともある。htc Viveでいくつかのデモを作り(ほとんどは非公開)、Oculusもほとんど持ってるくらいはHMD好きである。片目リトラクタブルHMDで自転車の走行を支援するシステムのデモも2008年頃に作った。 2017年には機械学習したM

    Apple Vision ProはHoloLensの完成形。現時点での限界値|shi3z
  • プログラミングの超基本的な考え方をド文系の人に説明した動画|shi3z

    哲学者の東浩紀さんと思想史と近代科学史(特にコンピュータ史)のを一緒に書いてみようという企画が今年から立ち上がった。 すると東さんがある日の生放送で、「しかし俺も最低限プログラムくらいかける必要があるんじゃないか。しかし最低限のプログラムとは何か」と言っていたところ、シラスの桂さんが「エラトステネスの篩ふるいとかですかねえ」と言っていて、もうエラトステネスと聞いたら黙ってはいられない吾輩が怒涛の勢いで生放送したところ、東さんが一番乗りで入ってきてくれたのでその場でライブコーディングしながらプログラムの書き方を簡単に教えることにした。 https://shirasu.io/t/zelpm/c/shi3zlab/p/20240105163405 プログラミング言語習得のコツプログラミング言語は、言語であるため、マニュアルを頭からお尻まで読んで内容を暗記するよりも、「これってどうやんの?」「こ

    プログラミングの超基本的な考え方をド文系の人に説明した動画|shi3z
  • 一人の男の行動が、人類を変えた Stay hungry. Stay foolishとタカヤノリコとワタナベマリナ|shi3z

    一人の男の行動が、人類を変えた Stay hungry. Stay foolishとタカヤノリコとワタナベマリナ かなり不勉強な人間でも、スティーブ・ジョブズの名前くらいは知っているだろう。Appleを創業し、追放され、再び戻り、世界で最も成功した企業にした人物だ。このスティーブ・ジョブズが最も影響を受けた人物がスチュアート・ブランドである。 スチュアート・ブランドは当時のヒッピー達のカリスマであり、ジョブズがスタンフォード大学で行った有名なスピーチを締め括った「Stay hungry.  Stay foolish」は、まさにブランドの言葉だ。ハングリーであれ。バカであれ。とでも訳せばいいだろうか。 スチュアート・ブランドという人物は極めて特異な人物である。 そんな人物がシリコンバレーにいたことすらまるで不思議なほどだ。 ブランドを有名にした最初の事件は、「なぜ我々は地球全体の写真をまだみ

    一人の男の行動が、人類を変えた Stay hungry. Stay foolishとタカヤノリコとワタナベマリナ|shi3z
  • Copilot Studioを使ってみた。注意点と実際にかかるお金の話など|shi3z

    Copilot StudioはMicrosoft 365 E5というお高いパッケージに入らないとプレビュー版すら使えないらしい。 仕方ないので会社で入りましたよ。会社に所属してるのは3人だけど、E5だと25人分のアカウントがついてくる。 しかし!!! 金さえ払えば使えるというほどイージーなものではなかったので皆さんにお伝えします。ちなみにE5に入っただけで月額45000円(1800円x25で)になりました(ただし七日間の試用期間中にキャンセルすれば無料に)。 まずMicrosoft365で企業アカウントを作り、会社のメンバー的な人に個人アカウントを発行します(この時点でかなりハードルが高い)。 そしてCopilot Studioのページからリンクに飛べば、企業の個人アカウントでログインできた。やったぜ! しかしログインしても、様子がおかしい。 なんかフローチャートが出てきて、フローチャート

    Copilot Studioを使ってみた。注意点と実際にかかるお金の話など|shi3z