最近、ローカルLLMがアツくなっているという話をtwitterでチラホラ見かける。 ローカルLLMって何じゃ?というと、オープンに公開されているモデルのウエイトをDLしてきて手元のPC上で推論させる事である。 オープンなAIモデルとは逆の存在として、モデルがDLできないクローズなAIモデルもある。 OpenAIやAnthropicのような最先端AI企業のクローズなAIモデルに比べて、オープンに公開されているオープンなAIモデルの性能は今でもかなり後れを取っている。 だから去年の間はあくまでAIの本命はChatGPTのようなクローズモデルであって、オープンなAIモデルなんて眼中にありませんみたいな風潮が無くはなかった。だが最近は風向きが少々変わってきている。 GPTのAPI高い問題 & OpenAIがAIベンチャー皆殺しにしてしまう問題 まず「結局GPTのAPIを叩いてサービス運営して成功し
2.3k{icon} {views} 複数のLLM(GPT/Claude3)とArxivの検索APIをRAGで統合し、論文サーベイの自動生成を作りました。検索結果の前処理や、サーベイ特有のプロンプトエンジニアリングやソートが重要で、最適化手法として古くからある巡回セールスマン問題(TSP)が有効に機能しました。また、生成部分ではGPTよりClaude3の明確な有効性を確認できました。 できたもの Arxivの検索APIを使って検索拡張生成(RAG)したらサーベイを自動生成できた やっていること Arxivの検索ワードをGPT-4-Turboで生成 ArxivのAPIを叩いてヒューリスティックでフィルタリング OpenAIのEmbedding APIを叩く Embeddingに対して巡回セールスマン問題(TSP)を解いてソートをかける 論文の要旨をGPT-3.5-Turboで要約 ソートした
中学英語レベルの純日本人理系大学生が、1ヶ月ちょいでAI駆使して卒論7割終わらせながらTOEIC 900超えた話PythonAITOEICChatGPTclaude はじめに データサイエンティストを目指して日々勉強している、慶應大学理工学部4年生(2023.11.14時点) 取得資格、コンペ優勝経験など、リアルタイムの情報は👇👇👇をみてね X: @A7_data←こういう者です。 プロフィールページ👇👇👇 ※全て、個人の意見です。個人差もあります。 TOEICとは TOEICは、Test of English for International Communicationの略で、非英語圏の人々がビジネスシーンで英語を使う能力を測るためのテスト。 リスニングとリーディングの2つのセクションで構成されており、それぞれ495点満点、合計990点が最高得点。 TOEICスコアは、企業
わかるよ。すげえわかる。AI絵師(笑)が憎いよな? あいつらは、俺ら絵師(俺みたいな弱小絵師は含まれないかもしれんが)の作品を無断で学習したAIを使って、一本も線を引かずに「俺らAI絵師っす!まだペン持ってるんすかwww教師データごちっすwwwwww」みたいに煽ってきてな?すげえわかる。弱小絵師の俺なんかでよければ200%その憎しみに寄り添ってやれるよ。憎いよなあいつら。 でもさ、頼むからAI絵師(笑)を叩くのを即刻やめてくれ。お願いだから。少なくともオープンな場で叩くのをやめてくれ。 みんながAI絵師(笑)叩きに励めば励むほど、俺らの置かれている状況はどんどん不味くなっていく。俺はそのことを知って欲しくて今回これを書いている。 (AI絵師を叩くなという文章を書く以上、これ以降はAI絵師のあとに(笑)をつけません) ●我々の目標は「社会的合意の元にルールを作る」ことであるべき『失敗の本質』
日本はAIの学習を行うのに必要不可欠なGPUを十分に調達できていないという記事があった。 https://wirelesswire.jp/2023/08/85203/ 一本調子な煽り文体はどうにかならないのかとは思ったのだが、記事に対する反論をネットで一通り読んでみて驚いた。内容が幼稚すぎる。 ChatGPTがあるんだから今さら同じのを作っても意味がない 要するに日本は自国でのAIの研究開発は諦める。そして他国企業が開発したモデルだけを使わせていただくような縛りプレイをこの先もずっと続けていこうじゃないかという意見だ。 「ボクは足し算なんか勉強しなくてもいいんだ。だって隣の花子ちゃんは掛け算や割り算もできるんだから、困ったら答えを聞けばいいんだもん」という頭の悪い小学生の言い訳のような意見だが、困ったことになぜか一定の支持を集めている。 当然のことながらOpenAIのモデルは英語やアメリカ
毎日AIニュースを追いかけていると、当然、波がある。 「今週は落ち着いてるな」とか「今日はやばいな」とか。 今日は、久々に「やばいな」という日だった。 まず、一日のうちにSOTA(State Of The Art)超えしたという大規模言語モデルを三つくらい見た。明らかにおかしい。 さらに、AttentionとMLPを使わない大規模言語モデルの実装も見た。世界を三次元的に解釈して合理的な質問と答えを行う大規模言語モデルもあれば、4ビット量子化した60モデルは8ビット量子化した30Bモデルよりも高性能という主張がなされたり、Googleは論理回路の設計を強化学習で行なっているという。どれもこれもにわかには信じ難いが、今目の前で起きていることだ。 「シンギュラリティ」の定義には、「AIがAIを設計し、改良し続ける」という部分があるが、今のAIは人間も考えているが、実はAIがAIを設計している部分
えーっと、note初記事です。つたない内容でしかもメッチャ長文ですがお付き合いください。 今回はタイトルにあるように、Stable DiffusionのプロンプトをChatGPTで生成する、今までとはちょっと違うやり方をご紹介します。 簡単なレクチャーも含むのでかなりのテキスト量ですが、最後まで目を通していただければ良いことがきっとあります。 はじめにまずこれからお伝えする技法は現時点でGPT4の使用が前提となっています。(追記:Bingでも可能になりました) 3.5では、私の技量が至らず安定した結果が得られていません。 しかしながら、先だってこの手法をお伝えした有志の方々が3.5及びBingでの実現を模索されていることを予めお伝えしておきます。 今回の手法を発見した経緯とネタバレことの発端は遡ること1か月前、プロンプトを自動でジャンル分けしてデータベースに流し込み、逆にそこからプロンプト
Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold Abstract Synthesizing visual content that meets users' needs often requires flexible and precise controllability of the pose, shape, expression, and layout of the generated objects. Existing approaches gain controllability of generative adversarial networks (GANs) via manually annotated training data or a prior 3D
チャット、文章生成、翻訳、コーディングなどさまざまなタスクをこなす万能型ジェネレーティブAIツールである「ChatGPT」。同じ土俵では競合は少ないものの、翻訳、要約、ライティング、コーディングなど各機能に特化して見ると、競合は多数存在する。どのような競合がいるのか、4つの特化型ジェネレーティブAIの現状を探ってみたい。 細谷 元 バークリー音大提携校で2年間ジャズ/音楽理論を学ぶ。その後、通訳・翻訳者を経て24歳で大学入学。学部では国際関係、修士では英大学院で経済・政治・哲学を専攻。国内コンサルティング会社、シンガポールの日系通信社を経てLivit参画。興味分野は、メディアテクノロジーの進化と社会変化。2014〜15年頃テックメディアの立ち上げにあたり、ドローンの可能性を模索。ドローンレース・ドバイ世界大会に選手として出場。現在、音楽制作ソフト、3Dソフト、ゲームエンジンを活用した「リア
私は趣味で機械学習を学ぶ初学者であり、説明に間違いや勘違いがある可能性があります。そういった点がありましたらコメントで指摘していただけると助かります。 また、so-vits-svcやRVCは論文ベースでの技術発表が無いため、以下はコードや周辺情報からの想像を含みます。 修正履歴 2023/04/15 RVCの動作について誤りがあったので修正しました。nadare🌱さんご指摘ありがとうございます。 AIボイスチェンジャーとは ある発話音声の入力を特定の話者が発話したような声質の発話音声に変換するための、深層学習を使用したアプローチがそう呼ばれている印象です。 以前から、深層学習を用いたリアルタイムボイスチェンジャーはMMVCなどが存在していました。 最近(2022年11月頃から2023年4月頃)では、Retrieval-based-Voice-Conversion 通称RVC や、Soft
ChatGPTは「手前の文に確率的にありそうな続きの文字を繋げるAI」 まず最初にChatGPTの仕組みについて。 深津さんによるとChatGPTは、「手前の文に確率的にありそうな続きの文字をどんどん繋げていくAIである」とのこと。 例えば「昔々」という入力に対して、確率的にありそうな続きの文字は「あるところに」であるという具合に、続きそうな文字をただ出してくれるAIなんだそうです。 これを誤解していると求めているような回答がなかなか得られないので、ChatGPTに自分が求めている回答してもらうためには、確率的にありそうな続きの文字を出す方向性を狭めていくような質問をする必要があるそうなんですね。
「Otter」「DeepL翻訳」「Grammarly」など、便利なAIツールを駆使して英文ライティングに挑戦 近年は人工知能(AI)を活用した自動翻訳や自動添削ツールが増えています。Otter、DeepL翻訳、Grammarlyなど、自分の英語力の足りない部分を補ってくれる便利なAIツールを駆使して、英文ライティングに挑戦してみましょう。 英文ライティングに自信がない人に助け舟リーディングやスピーキングの練習に比べると、後回しになってしまいがちなライティングですが、単なる語彙力や文法力だけでなく、表現の豊富さや、文章の構造など、総合的な語学力が求められる、非常に高度な分野だと言えます。英語の上達を目指している人ならば、常日頃からライティング力を高める勉強をしておきたいものです。 とはいえ、誰もがそんなに律儀で計画的とは限らないのが現実です。実際には、「来週までに英語で資料を準備しておかねば
今年3月に政府のAI戦略が年間25万人を目標にAI人材を育てるとぶち上げたのに続いて、教育再生会議が全ての大学生がAIなどの基礎的な素養を身につけられるように標準カリキュラムを作成することを提言した。ガートナーが2017年1月に産業界で2020年末時点で30万人以上のIT人材(原典を確認したところAI人材ではなかったようですね)が不足するといったらしいのだが、今からカリキュラムをいじったところで2030年くらいにならないとAIネイティブな新入社員は入ってこないし、その頃まで深層学習が流行っているのか、NVidiaが残ってるのか、PythonやTensorFlowが広く使われているのか、GAFAがどうなっているかなんてさっぱり見当がつかない。 残念ながら私たちは2010年代に深層学習の実用化の局面で米国に負けたのであって、いまから教育をいじるといったって泥棒を捕らえて縄を綯うような話である。
Google DeepMind、マシンが周囲を認識するために、2D画像から3Dシーンを推定する教師なし視覚認識ニューラルネットワーク「GQN」を発表 2018-06-15 Google DeepMindは、マシンが周囲を認識するために、2D画像からシーンの3Dモデルを生成する視覚認識フレームワーク「Generative Query Network(GQN)」システムを発表しました。 GQNは、事実上何も知らないエージェントが、シーンの複数の静的2D画像を見て、それの合理的に正確な3Dモデルを再構築するシステムです。 シーンの内容を人間がラベル付けすることなく、あらゆる角度からシーンを推定しレンダリングします。マシンが、その部屋なりを動きながら収集した2D画像を基に、関係性や規則性などを学び、見えない部分も含めオブジェクトの位置や色などを推定し再現します。 以下のような単一の視点から正確な3
[37選]機械学習ライブラリやフレームワークは? 国内AI活用サービスのアーキテクチャを大調査! Webのアーキテクチャ大調査の第二弾は「AI活用サービス」編。プログラミング言語や機械学習のライブラリをはじめ、フレームワークやツールの選定・設計もサービスによって異なります。ぜひ参考にしてください。 2017年4月に掲載したアーキテクチャ大調査の第二弾! 今回は、人工知能(機械学習、深層学習、画像処理など)を活用したWebサービス・アプリを提供しているベンチャーを中心に、36のサービスで使用されているプログラム言語やフレームワーク、その他さまざまな開発ツールなどをヒアリングのうえまとめました。選定理由を記述いただいた12のサービスでは、それもあわせて紹介しています。 前回との違いは、当然ですがTensorFlowやKerasといった機械学習のライブラリが挙げられていること。また、技術領域もH
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く