yuisekiのブックマーク - はてなブックマーク

音声からプログラムを自動的に作るautocodeを作った｜shi3z

なんか吾輩の昔のブログを読みたいという酔狂な奴がいて、何でも最近会社を立ち上げたらしくて売上が1億を超えたところらしい。他ならぬ友が会社を立ち上げて苦労している時に、吾輩の昔のブログのタイトルだけ覚えていて、それが見たいのだという。吾輩は主にAI学習用に自分のブログのアーカイブを持っている。持っているのだがHTML形式のため非常に読みにくい。そこでHTMLタグ除去コードを書こうと思ったのだが、今からそんなもの書くのは芸がないので、まず音声入力を受け取って、それを音声認識した結果をClaude-3に投げてプログラムとして出力するプログラムを書いてみた。これのミソは、喋るだけでコードが出来上がることである。実際に使うとこうなる。 python autocode.py Recording... Recording finished. Special tokens have been

yuiseki 2024/06/20

あとで読む

リンク

噂のノーコードAIシステム開発環境Difyを使ってツールを作ってみた。使った感想｜shi3z

最近にわかに話題のLLMツール「Dify」を僕も使ってみた。いいところと「?」となったところがあったので纏めておく Difyとは、GUIでワークフローを組むことができるLLM-OPSツールだ。 ComfyUIのようにワークフローが組めたり、GPTsのように自分専用のアシスタントを作れたりできる。特に、OpenAIのGPTシリーズとAnthropicのClaude-3、そしてCohereのCommand-R+なんかを組み合わせて色々できるところは良いところだと思う。また、ローカルLLMにも対応しているので、企業内でのチャットボットを作るんだったらGPTsよりこっちの方がいいだろう。元々色々なテンプレートが用意されているが、テンプレだけ使うとGPTsっぽいものを作れる(それだってすごいことだが)。テンプレを改造するだけでも欲しいものが作れる人はいるし、ここはノーコード環境と言えるテンプ

yuiseki 2024/05/09

あとで読む

リンク

東浩紀「訂正可能性の哲学」はAI関係者必読だ!｜shi3z

先週、今週とあちこちへ出張が続いているので、移動時間の合間、ネットが途切れる山奥にさしかかったあたりで東浩紀「訂正可能性の哲学」を読んだ。東さんの本はいつもそうなのだが、あまりの内容に驚愕した。そして昨日はたまたま東さんにVisionProを体験させる約束をしていた日なので、会う前に一気に読み終えた。すごい。もっと早く読めばよかった。東さんの本は基本的に「凄すぎる」ので、読むと影響を受けすぎてしまってしばらく自分の思考が戻ってこない状態になる。しかし最近の僕は、むしろ忙しすぎて誰かの思考を取り入れたいモードになっていたのだ。その意味で、まさに今の時代に必要とされている本だと思うし、本当にすごい。10年前に上梓された「一般意志2.0」の続編でもあり、なおかつアップデートでもある。もちろん読んでなくても全然良い。特に舌を巻いたのは、落合陽一の「デジタルネイチャー」や成田雄介の「無意識デ

yuiseki 2024/02/21

あとで読む

リンク

Apple Vision ProにGPT-4Vを組み合わせて指差したものを説明してもらったり、目の前にいる人物の感情を推定させたりする｜shi3z

Apple Vision ProにGPT-4Vを組み合わせて指差したものを説明してもらったり、目の前にいる人物の感情を推定させたりする Apple Vision Proは作業環境として理想的だ。このブログもVisionProとMacBookProで書いてる。 VisionProをかけてMacBookProを見るとMacBookProの上に「Connect」という単語が出てくる。これだけですごい。「Connect」を押すとMacの画面が消え、代わりに大スクリーンがポップアップする。圧倒的に作業しやすい。・・・というか、これならもうMacBook Airでよくないか?わざわざProを持ち歩く必要性が・・・まあいいか。それはそれとして、すげー便利なんだがやはりAI機能が弱い。あと、まだVisionProではかな漢字変換が使えない(のに、JIS配列のHHKBは認識する)。ブログを書いたり

yuiseki 2024/02/11

リンク

ごめんVisionPro誤解してた (๑˃̵ᴗ˂̵)｜shi3z

朝起きて、「うーんまだ布団から出たくないな」と思ったとき、おもむろにVisionProを被ってみた。暗い部屋では認識が格段に悪くなるが、なぜPSVRではこういう使い方をしなかったのかわかった。後頭部だ。 PSVRは後頭部にゴツい部品があって、それで寝ながらVRを見るということが少し難しくなってる。VisionProの標準のバンドはこういうときにちょうどいい。 VisionProでTerminalを動かして、継之助の様子を見る。今日も元気に学習しているようだ。昨日寝落ちした Amazon Primeの「沈黙の艦隊」第五話と六話を見る。音がいい。空間オーディオに対する長年の研究が結実してる感じ。しかもすごくいい音なのだ。昨日、路上で歩きながら使ってみた(技適の特例申請には移動経路を申告済み)。路上で使うと思わぬ欠点というか盲点にぶちあたる。ウィンドウがついてこないのだ。他のHMDと違い

yuiseki 2024/02/11

リンク

Apple Vision ProはHoloLensの完成形。現時点での限界値｜shi3z

昔は海外の電波を発する新製品は国内で使用できなかったが、今は総務省の技適の特例制度を利用することでいち早く試すことができる。「海外法令」云々のところで多少つまづいたが、これはFCC IDを検索すれば解決した。 https://fccid.io/BCGA2117 VisionProのFCC IDはBCGA2117だった。これで準備完了。吾輩は、かつては1990年代にキヤノンのMR(混合現実感)システムや理化学研究所のSR(代替現実感)システムを試し、大学院の履修生をやっていた頃はVR特講を受講し、学生対抗国際VR(人工現実感)コンテストに参加したこともある。htc Viveでいくつかのデモを作り(ほとんどは非公開)、Oculusもほとんど持ってるくらいはHMD好きである。片目リトラクタブルHMDで自転車の走行を支援するシステムのデモも2008年頃に作った。 2017年には機械学習したM

yuiseki 2024/02/10

あとで読む

リンク

単一GPUで動画・画像・音声・テキスト対応のマルチモーダルモデルを訓練して推論!?何を言ってるかわかねーと思うが、俺も何を見ているのかわからねえ｜shi3z

お正月なのですがAIは待ってはくれないので毎日「デイリーAIニュース」だけは続けている今日この頃。中国のテンセントがとんでもないオープンソースをぶっ込んできた。 https://crypto-code.github.io/M2UGen-Demo/ 動画、画像、音楽、テキストという四つのモードを学習させた「マルチモーダル」モデルで、しかもベースはllama-7Bということで、V100 32GB一つで推論可能(CPUのRAMは49GB以上必要)どころか学習も可能。ホントかよ!! しかもしれっと日本語でも命令できるし。ほんとにテクノっぽい音楽が流れるなんかこの研究の名前はかなり控えめに「音楽理解できるマルチモーダルモデル」みたいに書いてあるんだけど、とんでもない。実際にはこれは「どんな情報も入力できるマルチモーダルモデル」のプロトタイプである。 MU2GENのモデル構造図音声、画像、動画とい

yuiseki 2024/01/05

リンク

Copilot Studioを使ってみた。注意点と実際にかかるお金の話など｜shi3z

Copilot StudioはMicrosoft 365 E5というお高いパッケージに入らないとプレビュー版すら使えないらしい。仕方ないので会社で入りましたよ。会社に所属してるのは3人だけど、E5だと25人分のアカウントがついてくる。しかし!!! 金さえ払えば使えるというほどイージーなものではなかったので皆さんにお伝えします。ちなみにE5に入っただけで月額45000円(1800円x25で)になりました(ただし七日間の試用期間中にキャンセルすれば無料に)。まずMicrosoft365で企業アカウントを作り、会社のメンバー的な人に個人アカウントを発行します(この時点でかなりハードルが高い)。そしてCopilot Studioのページからリンクに飛べば、企業の個人アカウントでログインできた。やったぜ! しかしログインしても、様子がおかしい。なんかフローチャートが出てきて、フローチャート

yuiseki 2023/11/18

あとで読む

リンク

俺に起業の相談をするな｜shi3z

最近よく聞かれるので改めて言っておく。俺に起業の相談をするな。一切受けつけていない。突然事業のアイデアを言われても俺は助けないし助けられない。俺が相手にするのはUberEatsのユーザーと、昔から一緒に仕事をしている人の紹介だけだ。もうすぐ五十路が見えているというのに新たな人間関係を構築しようとするほど俺は暇でも気長でもない。相談されるとそれだけで僕の頭脳が無駄に消費される。俺に相談するというのは基本的に泥棒である。俺は何か聞いたら自分でも意識しないうちに気の利いた解決策を考えてしまう。俺にとって俺の頭脳は商売道具だから、俺に起業の相談をするというのはタダでイラストレーターに絵を描けと言ってるのと同じだ。相談を受けなくていいようにたくさん記事を書いてるし本も書いている。俺の情報を一方的に発信するのは構わないのだが、誰かのへんな考えを聞いて時間を浪費したくない。時間は限られているのだ。

yuiseki 2023/10/23

リンク

注目の日本語大規模モデルLLM-JP 13Bを試す(JSON吐けた)｜shi3z

国立情報学研究所が作ったLLM-JP 13Bが公開されていたので早速試してみた。色々なモデルが公開されているが、全部盛りっぽい「llm-jp/llm-jp-13b-instruct-full-jaster-dolly-oasst-v1.0」を試す。マシンはもちろんドスパラ製Memeplexマシン(A6000x2)だ。 import torch from transf ormers import AutoTokenizer, AutoModelForCausalLM tokenizer = AutoTokenizer.from_pretrained("llm-jp/llm-jp-13b-instruct-full-jaster-dolly-oasst-v1.0") model = AutoModelForCausalLM.from_pretrained("llm-jp/llm-jp-13b

yuiseki 2023/10/22

リンク

Mistral-Instruct-7Bで日本語WikipediaからJSON形式でクイズを作ることに成功した｜shi3z

高性能と名高いMistral-Instruct-7Bで日本語WikipediaからJSON形式でクイズを作ることに成功。これで日本語版データセットの開発が捗るはず。とりあえず機内での実験のためGGUF(8bit)で試した。GGUFで動くならGPUならもっと動くだろう >>> data={"prompt":"""<s>[INS]以下の説明文を読みなさい[/INS] ... 樋口真嗣（ひぐちしんじ、1965年9月22日 - ）は、日本の特技監督・映画監督・映像作家・装幀家。 ... ガイナックス、GONZO、Motor/lieZを経てオーバーロード所属。アニメ特撮アーカイブ機構副理事長や、IT企業のユビキタスエンターテインメントにおいてチーフ・ビジョナリー・オフィサーも務める。 ... 愛称は「シンちゃん」（由来などは#人物像で詳述）。妻は、スタジオジブリでのハーモニー処理をしている高屋

yuiseki 2023/10/08

あとで読む

リンク

Mistral-7Bを日本語で試す｜shi3z

フランスのスタートアップが公開したMistral-7Bが、Llama2 13B超えだと言うので日本語で試してみました。試す前の注意事項としては、transf ormersがpipにない超最新版じゃないと動かない。 $ pip install git+https://github.com/huggingface/transf ormers.gitそんで試す。ちなみに今アメリカにいるのだが、ngrok使うと自宅にあるドスパラ製Memeplexマシンに直接アクセスできるので死ぬほど便利である。これでもう日本に帰る必要がなくなった。 from transf ormers import AutoModelForCausalLM, AutoTokenizer device = "cuda" # the device to load the model onto model = AutoModelForC

yuiseki 2023/10/01

リンク

無料でGPT4越え!?ついに来たXwin-LM｜shi3z

今日のウィークリーAIニュースではnpaka大先生と一週間のニュースを振り返った。今週もいろいろあったが、なんといってもダークフォース、GPT-4越えと言われるXwin-LMである。中国製。大先生もまだ試してないというので番組内で一緒に試してみた。もちろんドスパラ製Memeplexマシン(A6000x2)を使用。 >>> from transf ormers import AutoTokenizer, AutoModelForCausalLM >>> model = AutoModelForCausalLM.from_pretrained("Xwin-LM/Xwin-LM-7B-V0.1") Downloading (…)lve/main/config.json: 100%|██████████████████| 626/626 [00:00<00:00, 56.2kB/s] [2023

yuiseki 2023/09/23

あとで読む

リンク

OpenInterpreter / ついにAIがガチのアシスタントに!これは凄い、というか凄すぎる｜shi3z

凄いものが出てきてしまった。 ChatGPTの「Code Interpreter」が話題になったが、あれはあくまでクラウド上で動いているだけ。それを模してローカルで動作するようになった「Open Interpreter」は、衝撃的な成果である。 Open Interpreterのインストールは簡単。コマンド一発だ $ pip install open-interpreter起動も簡単 $ interpreter -yこれだけでOK。あとはなんでもやってくれる。たとえばどんなことができるのかというと、「AppleとMetaの株価の推移をグラフ化してくれ」と言うとネットから自動的に情報をとってきてPythonコード書いてグラフをプロットしてくれる。凄いのは、ローカルで動くのでたとえばApplescriptを使ってmacOSで動いているアプリを直接起動したり操作したりできる。「Keynot

yuiseki 2023/09/08

あとで読む

リンク

ChatGPT/Co-Pilotで改めてわかる「プログラミング」とはどんな作業だったのか｜shi3z

最初にプログラミングを始めた時は、学校にリファレンスマニュアルを持って行って全てのページを丸暗記した。丸暗記が目的だったわけではなく、読んで知識を吸収していくのが楽しくてしょうがなかった。 PC-9801のN88-BASICリファレンスマニュアルは、読み物としてとても良くできていた。各ステートメントの紹介があり、パラメータの説明があり、ごく簡単なサンプルコードも書いてあった。大体見開き一ページで一つのステートメントの説明なので読みやすかったし、ベーマガかなんかで読む呪文のようなコマンドの意味を詳細まで知れて楽しかった。だがこれを「楽しい」と思う人は少数派のようだった。僕のクラスメートのうち、相当数の人が親にパソコンを買ってもらい、BASICに挑戦したが、全くその世界に馴染めず結局ゲーム機になって行った。僕も親父がゲームなんかを買ってきたら話は変わっていたかもしれないが、親父の教育方針で

yuiseki 2023/09/08

リンク

24時間AIハッカソン開催決定!賞金10万円｜shi3z

その場で出されたテーマをもとに24時間でAIを使用した作品を作る、24時間AIハッカソンの募集が開始されました。賞金は優勝10万円。準優勝(2チーム)5万円。4070搭載マシン2台が無償で貸し出されます。場所は秋葉原ベルサール2F。 9月1日から募集開始で、9月30日に締め切られます。最大10チームまで。審査員に、Gyazo、Scrapbox、HelpFeel、POBox、iPhoneの日本語入力インターフェースなど、数々のユーザーインターフェースを発明してきた増井俊之慶應義塾大学教授と、IT エンジニア兼漫画家の千代田まどか(ちょまど)さんを迎え、AIフェスティバル会期中に発表会を行います。腕に覚えのある人はお誘い合わせの上、是非ご応募下さいチーム参加のみで、単独参加はできません。仲間が欲しい人は技研バーで探すのも手かと(昨日技研バーでチームがいくつもできてました) https://

yuiseki 2023/09/05

リンク

LINEの3.6B言語モデルで遊んだら爆笑した｜shi3z

LINEから36億(3.6B)パラメータの大規模言語モデル(LLM)が公開されたので早速遊んでみた。正確には遊んだのは昨日のデイリーAIニュースなのだが、面白かったのでこちらにも転載する。細かいやり方は大先生のページを参照のこと。例によってこんな関数を書いた def line(prompt): # 推論の実行 input_ids = tokenizer.encode(prompt, add_special_tokens=False, return_tensors="pt") tokens = model.generate( input_ids.to(device=model.device), min_length=50, max_length=300, temperature=1.0, do_sample=True, pad_token_id=tokenizer.pad_token_i

yuiseki 2023/08/17

あとで読む

リンク

AI Bunchoモデルで何か物語めいたものを生成する｜shi3z

もともと小説を書くためのAIなので物語には強いだろう。しかも日本製だし。ということで大先生が早速試していた。僕も真似をしてさっそく使ってみたのだが、そのままだとかなり短い文章しか出てこない。使い方に工夫が必要そうである。そこでこんなコードを書いた。 def b(prompt): input_ids = tokenizer.encode( prompt, add_special_tokens=False, return_tensors="pt" ).cuda() tokens = model.generate( input_ids.to(device=model.device), max_new_tokens=320, temperature=0.6, top_p=0.9, repetition_penalty=1.2, do_sample=True, pad_token_id=tok

yuiseki 2023/08/14

リンク

Llama2ベースのLLaVAが画像のプロンプトを考えられるようになった｜shi3z

画像から物語を考えられるとか頭がおかしいと思っていたのだが、そういう頭のおかしいAIえーあいが大好物である吾輩は、なんとかそのクレイジーAIジャーニーを我が物にしようと画策していた。近い物でLLaVAというものがあって、最近LLaVAがLlama2ベースのものになって大幅にバージョンアップしたというのでドスパラさんちのご家庭用PC(A6000x2)に入れてみた。まあコマンドライン書くほどでもないが $ git clone https://github.com/haotian-liu/LLaVA.git $ cd LLaVA $ pip install -e . $ python -m llava.serve.cli \ --model-path liuhaotian/llava-llama-2-13b-chat-lightning-preview \ --image-file "htt

yuiseki 2023/08/12

リンク

高次元ベクトルを「矢印」とイメージするのがちょっとしっくりこない理由｜shi3z

なぜAIを考える時にベクトルを「矢印」と捉えるべきではないのか。実際には矢印として考えたほうがいい例外もあります。たとえば、特徴空間の任意の２点の引き算や足し算をするとき。矢印のメタファーが使えます。あるベクトルAから別のベクトルBを引いたベクトルCは、BからAへ伸びる矢印としてイメージするのは大丈夫です。この性質を利用して、プロンプト芸が成り立つケースもあります。たとえば画像生成系AIで使われるネガティブプロンプトはそういう性質を使っています。しかし、根本的に、我々が普段イメージする二次元の矢印で示されるベクトルと、十次元以上の高次空間のベクトルは、全く異なる性質をもっていると考えるべきです。低次のベクトルと、高次のベクトルでは、共通する要素はあるけれども、それはごく一部に過ぎないということです。例を挙げましょう。 1次元のベクトルは、正負の向きと大きさを持ちます。数直

yuiseki 2023/06/18

あとで読む

リンク

はてなブックマーク

タグ

ブックマーク / note.com/shi3zblog (25)

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第3週）

今週のはてなブックマーク数ランキング（2024年7月第2週）

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス