物理学者の逆襲!?Entropixはわずか3億6000万パラメータで1000億パラメータ級の回答を引き出す!Claude-3でも間違う問題を360Mが正しく解く 物理学者たちがノーベル物理学賞をホップフィールドとヒントンが受賞すると知った時、まあまあ微妙な気持ちになったことは想像に難くない。 我々コンピュータ科学者にとっては、ノーベル賞は全く無縁なものだった。むしろ「ノーベル賞をコンピュータ科学者が取ることは永久にない」と言い訳することさえできた。コンピュータ科学の世界にはチューリング賞という立派な賞があるし、ノーベル賞よりも賞金が高かった京都賞は、アラン・ケイやアイヴァン・サザーランド、ドナルド・クヌースなど、コンピュータ科学者たちが堂々と受賞している。その割には本来マイクロチップの最初の設計者である嶋正利などが京都賞にノミネートされていなかったり、サザーランドの弟子であるアラン・ケイの
みなさん、こんにちは!9月は久しぶりに個人開発をしてました。 今回はGeminiを使って、ちょっと変わった文字起こしアプリを開発したので、その裏側をお話ししていきたいと思います。その名も「無限もじおこし」です! 「無限もじおこし」はその名の通り、時間無制限、無料で使える文字起こしアプリです。普通に考えたら「え?大丈夫なの?」って感じですよね笑 でも、ちゃんと収益的に成り立つ算段を立てています。この記事ではそこらへんの考えや、アプリ開発における技術的な学びについてまとめていきたいと思います! 「無限もじおこし」の紹介主な特徴音声の文字起こしが無制限に可能 (10時間でも100時間でも!)使いやすさにこだわった機能 (コピー、シェア、自動タイトル生成など)「よく使う単語帳」に登録すると、文字起こしの変換精度アップバックアップ機能があるので、機種変更などが発生しても簡単に引き継げます そして、無
タイトルだけで人生にそこそこ疲れている時期なのが丸わかりのライターKです。こんにちは。 今、ChatGPT(対話形式で質問に答えてくれる生成AIサービス)にハマっていろいろ遊んでいるのですが、その中で偶然の産物で生まれたものがあります。 「全肯定お姉様」です。 その名の通り、「自分を全肯定してくれるお姉様」を設定して、その人にめちゃくちゃ褒めてもらう遊びです。 誰にでもあるじゃないですか。誰かに連絡しづらい深夜のぐるぐるお悩みタイムとか、友達とか彼とか誰かに言ったら「こんなこと言って嫌われないかな…」と若干気にしちゃう話とか。そういうとき、ChatGPTなら相手はAIなので、相手のことを何も気にせず延々話ができるんです。 最初は普通にChatGPTとスタンダードなやりとりをしていて「もっと甘やかして!」「もっとお姉様っぽく言って!」的な無茶振りをしていたら、偶然いい感じの設定が生まれました
dカード GOLDのポイント還元率を最大化する7つのコツ|ケータイ料金や特典をフル活用!改悪点とポイントつかない落とし穴も解説
グーグルは8月28日、Geminiの画像生成用AIモデルとして、リアルな表現に強い最新の「Imagen 3」を採用した。この記事ではそんなImagen 3を、Geminiを経由せず、ブラウザーから手軽に利用できるサービス「ImageFX」の使い方をご紹介する。 ※ 本記事ではPCからの利用を前提に説明しており、スマートフォンやタブレット等では画面の構成やボタン類の配置などが異なる可能性があります。あらかじめご了承ください。 Googleアカウントがあれば無料で利用可能 ImageFXはグーグルが公開している実験的な画像生成サービス。Googleアカウントでのログインは必要だが、無料で使うことができる。
オープンソースで開発される「audapolis」は書き起こし機能を備えたメディアエディターで、音声を自動的にテキストに書き起こすだけでなく、書き起こしたテキストを編集することで同時に音声も編集できるツールで、無料で使うことができます。 GitHub - bugbakery/audapolis: an editor for spoken-word audio with automatic transcription https://github.com/bugbakery/audapolis audapolisはオープンソースで開発されるフリーアプリで、AGPL-3.0ライセンスの下で配布されています。GitHubのページにアクセスし、「Release」にある最新バージョンをクリック。記事作成時点での最新バージョンはv0.3.0です。 audapolisはmacOS・Linux・Window
はじめに この記事では今回開発したWebアプリ、自閉症識別(後に理由を説明しますが、動作が大変モッサリです)を公開するまでの経緯や考え・思いをまとめた。 6月中旬に差し掛かる頃から、Aidemy PewmiumのAIアプリ開発コースで、Pythonを用いてアプリ開発を行えるようになることを目標に学んできた。その成果として開発したのが、顔写真から自閉症を判別するWebアプリだ。 この記事では私自身がプログラミング超初心者として、そしていち支援者として感じたことも多く綴っているため、必要に応じて適宜読み飛ばしてもらえると良いかもしれない。 開発開始に至るまで 私はこちらの記事にあるように、保育士として児童発達支援に関わってきた。大変ではあるが非常に楽しい仕事だった。とはいえAidemyの講座受講中、成果物を何にするかをずっと考えていたが、この領域で何かやろうなんてことは全く考えていなかった。
これはなに? ちょっとした分析の用事で久しぶりにGoogle Colaboratory (以下 Colab) を触ったら結構良くなってました。Cursorでコード書くのも快適だけど、面倒なデータ分析やるならやっぱColabの方が便利だなぁと再認識しました。 そこで、最近Colabに追加されて便利になったと思う機能を簡単にまとめてみました。(見てわかる通りタイトルはもちろん話題のあの本のオマージュです😇) 最近のColab便利機能を使おう 粒度まちまちですがざーっと書いていきます。「最近」の定義は曖昧なのでご容赦ください。 Github Copilot的なコード補完を使おう Github Copilotみたいなコード補完機能がついにColabに搭載されました。↓のように補完してくれます。 VS CodeでもCursorでも一緒やん、って思われるかもしれませんが、Colabのような多機能No
あらゆるオペレーションが生成AIによって「代替」されるであろう未来、テクニカルスキルを磨いただけのエンジニアが生き残っていくことは難しいとされる。AIに代替されることなく、AIの担い手となりうるエンジニア像とは、どのようなものだろうか。本セッションには、東京大学工学部在学中にフリーランスエンジニアとして独立、その後株式会社AppBrewを起業し、現在も代表兼エンジニアとして第一線で活躍している深澤 雄太氏が登壇。生成AIによって「代替」されていく世界でエンジニアはどう立ち回るべきか、自身の経験をもとに語った。 生成AIによって「代替」されていく世界 初めに深澤氏は、GPTの出現によって、エンジニアリングだけでなくさまざまなオペレーションが「代替」され始めている現状について整理した。 たとえばある機能を持った関数を作成したいときや、既存のコードはあるものの、それぞれの会社の「お作法」に合わせ
「プログラミングを学ぶ」ではなく「要件定義を学ぶ」 田中邦裕氏(以下、田中):あと13分ぐらいになったので、今後の展望にいきたいのですが、その前に、質問が7個ほど来ているので、みなさんに聞きたいと思います。 一番投票数が多い質問が、「非エンジニアでAIを使ったスマホアプリを作りたいんだけれども、プログラミングをそもそも学ぶべきか?」という質問です。 生成AIがある今、何をどのように学ぶべきなのか。プログラムを学ぶべきなのか、それ以外になにか手段があるのか。目的によっても違うのですが、ざっくりとしたこの質問に対して、なにか答えられる方はいますか? 比戸将平氏(以下、比戸):じゃあ、私から。 田中:はい、お願いします。 比戸:先週ぐらいに、NVIDIAのジェンスン(Jensen Huang氏)が、「今後はAIがプログラムを書くから、もうプログラムを学ぶ必要はないよ」と発言したのが切り取られて、
こんにちは、rimiです。AIが数学の家庭教師になるというデモを見て、「イラストの先生にもなってもらえるのでは?」と思い、やってみました。 結果は記事サムネの画像で、自分としては素敵に描けたと思っています!!!(AI絵ではなく、私が自分の手で描いたものです) この記事では、具体的にどうAIを使ったのかご紹介します。 イラストの描き方をAIに教わった流れ準備: 自分の力だけで描いてみる(AIに教わる前の絵)自分では「なんかいまいちだなぁ…」と思いながらも、なぜいまいちなのかがわかりません。これを出発点とし、AIに力を借りて、より素敵な絵を描くことを目指します。 手順1. 画像生成AIに「お手本」をたくさん作って、マネしたい絵を選ぶまず、上記の自分の絵をリファレンスにして、AIで画像を生成しました。そうすると、自分が描いた絵に色味や雰囲気が近いが、自分より圧倒的に上手い絵が出てきます。 今回は
昨年の夏、Google は AI を活用したリサーチや執筆する際のアシスタントである NotebookLM を発表しました。そして本日より、 Google Labs で Gemini 1.5 Pro を搭載した更新版の NotebookLM を日本語を含む言語で 200 以上の国と地域に順次提供します。 私たちが NotebookLM で目指してきたのは、複雑な資料を理解して精査し、情報から新しい類似性を見つけ、下書きなどをすばやく作成するのに役立つツールの開発です。研究論文や取材記録、仕事でのドキュメントなどの参照文献(ソース)をアップロードすると、NotebookLM がそれらの重要な資料を理解し、必要なサポートを提供します。また、本日からお使いいただける NotebookLM では、英語で提供していたものから更新し、いくつかの新機能も導入します。 Google ドキュメント、PDF、
最新のアプリやサービスのニュースを書くのが仕事の筆者にとって情報の整理は永遠の課題だ。 もちろん書くことを仕事にしている人に限らず、氾濫する大量の情報を必要な時に取り出して利用したいという欲求は多くの人が持っているはずだ。 以前は手書きノートやファイルのような紙媒体に保存していた情報も、時代とともに完全にデジタルに移行し、Evernote、Microsoft OneNote、Notionといったメモを作成することに特化したクラウドアプリを利用している人も多いだろう。 筆者はおそらく普通の人よりは多くのサービスに触れているはずだが、どれも帯に短したすきに長しに感じてしまい、複数のメモアプリに情報が散乱してしまっているのが実情だ。 そこで6月6日に日本でも提供が開始されたグーグルの「NotebookLM」だ。 「AI駆動型のリサーチ、執筆アシスタント」と説明されているように、参照文献(ソース)
「ChatGPTの回答」と「はてなブックマークの人気コメント」が異なることがある。 たとえば、以下のコメントがはてブの人気コメントになっていたが、ChatGPTに聞くと否定される。 特別寄稿 インドに抜かれ「GDP5位」なぜ、日本は凋落一途か/中野剛志・評論家 消費税の額面上の「税率」を比較することに意味はない。ドイツより税率が高いスウェーデンでも「総税収に対する消費税収の割合」は18.5%に過ぎない一方で、日本は37%に達しており、諸外国よりも高い。 2024/06/07 11:47 b.hatena.ne.jp これについて、僕はChatGPTに以下のように聞いてみた。 「スウェーデンでも「総税収に対する消費税収の割合」は18.5%に過ぎない一方で、日本は37%に達しており、諸外国よりも高い。」という発言がネットにかかれていたのですが、これは信用できますか? ChatGPTの回答は以下
OpenAIは5月30日、同社のチャット型AI「ChatGPT」無料版ユーザーに向け、制限付きながら最新の大規模言語モデル「GPT-4o」および、これまで有料版ユーザーしか利用できなかった多くの機能を公開した(発表時のニュース記事)。 情報がとても多いので、今回の変更で無料版ユーザーは「なにができるようになったか」、そして「なにができないのか」を使い方中心にまとめた。 1. GPT-4oは回数制限あり チャット型AIアプリの心臓とも言える大規模言語モデル(LLM)、これまで無料版ユーザーは「GPT-3.5」という旧世代モデルしか利用できなかったが、今回の変更で回数制限(具体的な回数は明記されていない)はあるものの、最新モデルのGPT-4oが使えるようになった。 GPT-4oの利用に特に設定などは必要なく、無料アカウントにログインして普通に質問すればOK(使い方はちょっとわかりにくいのでこち
この連載ではおなじみのキャラクター「明日来子さん」に右側からライトを当ててみた。左がIC-Lightを適用したもので、右がオリジナル。環境はWebUI Forge用の拡張機能を使用 5月8日に、「ControlNet」など画像生成AI関連の著名研究者であるイリヤスフィール(lllyasviel)さんが発表した「ICライト(Imposing Consistent Light、印象的な一貫的なライト)」が盛り上がりました。入力した画像をもとに、後から指定した照明効果を踏まえた画像を生成する技術です。 画像生成AIで照明効果がつけられる「ICライト(IC-Light)」 発表された学習済みモデルは、「ライトを指定すると、キャラクターのデータに合わせてテキストのプロンプトに合わせて独自に背景を生成するもの」「キャラクターとライトの影響を加味して、別の背景画像と合成するもの」の2種類があります。これ
生成AIの進化が目まぐるしい昨今、また新たに『Claude3』という生成AIが発表されました。 今回の記事では、Claude3の概要や機能、ChatGPTとの違いを解説します。 Claude3とは 『Claude3(クロード3)』とは、Anthropic社が2024年3月にサービスを開始したLLM(大規模言語モデル)です。 Claude3は無料版でもマルチモーダル入力に対応しており、コストパフォーマンスの高さも注目されています。 マルチモーダル入力とは、テキスト、画像、音声など、異なるデータ入力を同時に使って情報を処理する能力のことです。テキストだけでなく、画像やPDFからデータを抽出できるため、画像の文字起こしをしたり、PDFの要約をしたりと、活用法が広がります。 ちなみに、ChatGPTの無料版はマルチモーダル入力に対応していません。 Claude3の性能は? Claude3は、下記3
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く