ahat1984のブックマーク - はてなブックマーク

AI、ついにパソコンを使えるようになってしまう　Anthropic「Claude 3.5 Sonnet」新機能

AI企業のAnthropicは10月23日、大規模言語モデル「Claude 3.5 Sonnet」の刷新と、新モデル「Claude 3.5 Haiku」の導入を発表した。Claude 3.5 Sonnetには、AIモデルが人間のようにコンピューターを操作できるようになる新機能「コンピューター使用」が追加された。アップデート版のClaude 3.5 Sonnetは、特にコーディング分野で大きく性能を伸ばし、業界ベンチマークで広範囲にわたる改善を示した。SWE-benchの検証済みタスクでは、前バージョンの33.4%から49.0%へと性能が向上し、他のすべての公開モデルを上回る結果となった。新たに導入されるClaude 3.5 Haikuは、前世代の最大モデルであるClaude 3 Opusと同等の性能を持ちながら、コストと速度は前世代のHaikuと同等を維持している。特にコーディングタス

ahat1984 2024/10/23

AI

リンク

AIが考える“アイドル”がリアルすぎた　グーグル「Imagen 3」なぜ高品質? (1/5)

グーグルが8月中旬、チャットAIサービス「Gemini」で使える画像生成AIモデルを「Imagen 3」に更新。グーグルの画像生成AIサービス「ImageFX」でImagen 3を試した人たちが驚き、「これはとんでもない」と騒ぎになりました。実際にImageFXを試してみると、性能が高いことは間違いありません。現在は、1日40回程度までは無料で使用することができます。 ※一部の配信先では画像や図表等が正確に表示されないことがあります。その場合はASCII.jpに掲載の記事をご確認いただければ幸いですフィルターはとても厳しく、女性を出すのは難しいただし、コンテンツフィルターがとても厳しく、暴力的な画像や性的な画像、また未成年者に見えるような画像を出すこともできないようになっています。2023年12月に前バージョンの「Imagen 2」が出されたときも「厳しすぎる」と評価がありました。特に

ahat1984 2024/09/16

AI

リンク

PowerShellで面倒なオブジェクトはPSCustomObjectに変換するのが早道

PSCustomObjectとはそもそもなんぞや PowerShellのパイプラインは、オブジェクトを流すようになっている。なので、複雑な情報はPowerShellのオブジェクトにすると、あとの処理が簡単になる。そのためにあるのが、「PSCustomObject」と呼ばれる汎用のオブジェクトだ。このオブジェクトであれば、Format-*や*-ObjectといったPowerShellの汎用コマンドを適用できる。逆に言えば、PowerShellの汎用コマンドは、フラットな構造のオブジェクトを想定しており、プロパティの値がオブジェクトになっているようなものは扱いにくい。このような場合に、PSCustomObjectを作ってフラットな構造にすることで、以後は処理しやすくなる。なお、PSCustomObjectの基本的なことは、Microsoftのサイトにページ（https://learn.m

ahat1984 2024/09/09

powershell

リンク

「Stable Diffusion」開発者たちが新たな画像生成AI「FLUX.1」を発表　迷走するStability AIと対照的な展開に

画像生成AIモデル「Stable Diffusion」の共同開発者たちによって設立されたベンチャー企業「Black Forest Labs（BFL）」は8月1日（現地時間）、高品質な画像生成能力と多様な出力が特徴の最新の画像生成AIモデル「FLUX.1」を発表した。 Stable Diffusionの共同開発者が設立 Black Forest Labs（BFL）は、オープンソースの画像生成AIモデル「Stable Diffusion」の共同開発者として知られるRobin Rombach氏、Patrick Esser氏、Andreas Blattmann氏によって2024年に設立された新興企業。Andreessen Horowitz（a16z）を筆頭とする投資家から3100万ドルの資金を調達したことで注目を集めている。 3つのモデルを展開 We are excited to announce

ahat1984 2024/08/10

AI

リンク

Windows Terminalで採用されたCascadia Codeフォントを使うとプログラムを書くとき断然見やすい (1/2)

現在のWindowsのフォントは、アウトラインフォント形式のOpenTypeをメインにしている。OpenTypeは、1997年にTrueTypeの拡張として発表された。TrueType形式のアウトラインデータに加え、CFF/Type2というPostScript用のアウトライン形式を含めることができる点がTrueTypeと異なる。ここでは、OpenTypeフォントであるCascadia Codeを例に、フォントの概要やアプリケーションからのフォントfeature機能の利用について解説する。そもそもCascadia Codeフォントとは？ Cascadia Codeフォントとは、Windows Terminalと同時に開発されたオープンソースのフォントである。Windows Terminalと同時にインストールされるが、単体でもインストール可能だ。このフォントを例に持ち出したのは、オープン

ahat1984 2024/08/04

フォント

リンク

NTTドコモ「dアカウント」一から作り直した方がいいのでは (3/3)

ドコモにとっては「ahamo」も災難に NTTドコモに関しては、dアカウントだけでなくオンラインストアや契約においても長年の継ぎ足し継ぎ足しで使い勝手が悪くなっている印象だ。オンラインでの不具合をコールセンターのスタッフの尽力で何とか解消している感もある。こういう状況を見ていると「一度、作り直した方がいいのではないか」と進言したくもなってくるのだ。 NTTドコモにとってもうひとつ災難だったのが「ahamo」だろう。 ahamoは企画当初、ソフトバンクのワイモバイルやKDDIのUQモバイルのようにNTTドコモの「サブブランド」として開発されていたようだ。本来であれば、過去のしがらみを断ち切り、シンプルでわかりやすい料金体系やサービスだけでなく、オプションもできるだけなくし、契約などのシステムもできるだけシンプルに構築できたはずだ。 ahamoのオンラインシステムを、既存のNTTドコモとは

ahat1984 2024/08/03

ドコモ

リンク

チャットAI「Claude」すごい新機能「Artifacts」の使い方、全部教えます (1/6)

Anthropicは6月21日、同社の開発する大規模言語モデル「Claude」シリーズの最新版となる「Claude 3.5 Sonnet」を発表。利用制限はあるものの同社のチャット型AIサービス「Claude.ai」で無料で利用可能になった。同時にユーザーがClaudeとやり取りしながらコンテンツを作成できる新機能「Artifacts」が、さらに25日にはプロジェクトごとに資料やプロンプトを集約できる「Project」が実装された。この記事では、新機能Artifactsを使うときに知っておきたいことをメインに紹介する。なお、Claude 3.5 Sonnetの前の世代である大規模言語モデル「Claude 3」シリーズおよび「Claude.ai」については、こちらの記事に。Claude 3.5 Sonnetについての基本的なスペックなどはこちらの記事に詳しい。 Artifactsのキモは

ahat1984 2024/07/06

AI

リンク

AI動画の品質が仕事に使えるレベルになってきた (1/4)

Luma AIが6月12日に公開した動画生成AIサービス「Dream Machine」が、月に無料で30回まで試せることもあって、大きな話題となっています（「ついに来た! 無料で試せる動画生成AI『Luma Dream Machine』」参照）。ただ、技術情報は出ておらず、どういう関係や経緯で出しているかは一切不明です。 ※記事の配信先によっては動画や図版がうまく表示されないことがあります。その場合はASCII.jp掲載の記事をご覧ください手軽に高品質な動画が生成できる「Luma AI」のサービス Luma AIはこの連載でも何回か紹介してきたように、大量の写真から3Dモデルを生成するサービスからスタートし、昨年12月には3Dモデル生成サービス「Genie」で参入しているAIスタートアップ企業です（連載第41回「3Dスキャンの進化がすごい」参照）。生成AIの3D化技術で先行していることか

ahat1984 2024/07/05

AI

リンク

「1億台の常時接続」を実現せよ！ Nintendo Switchのプッシュ通知システム全面刷新の裏側 (1/3)

アマゾンウェブサービスジャパンは、2024年6月20日と21日、国内最大の年次イベントである「AWS Summit Japan」をハイブリッドで開催。150を超えるセッションが展開された。本記事では、ニンテンドーシステムズによるセッション「Nintendo Switch向けプッシュ通知システムのリプレイス事例」をレポートする。登壇したのは、同社システム開発部の林愛美氏と坂東聖博氏だ。 2017年のNintendo Switchの発売とあわせてリリースされた「プッシュ通知システム」。同社は、長期運用を見据えて、よりクラウドネイティブなシステムへのリプレイスを決定するが、大量のTCP接続を維持するための様々な課題が立ちふさがった。本セッションでは、AWS FargateやNetwork Load Balancer（NLB）といったAWSのマネージドサービスを用いた、“最大1億台”級

ahat1984 2024/06/27

aws

リンク

情報整理の決定版「NotebookLM」が最高すぎる。こういうのがほしかったのよ！！ (1/7)

最新のアプリやサービスのニュースを書くのが仕事の筆者にとって情報の整理は永遠の課題だ。もちろん書くことを仕事にしている人に限らず、氾濫する大量の情報を必要な時に取り出して利用したいという欲求は多くの人が持っているはずだ。以前は手書きノートやファイルのような紙媒体に保存していた情報も、時代とともに完全にデジタルに移行し、Evernote、Microsoft OneNote、Notionといったメモを作成することに特化したクラウドアプリを利用している人も多いだろう。筆者はおそらく普通の人よりは多くのサービスに触れているはずだが、どれも帯に短したすきに長しに感じてしまい、複数のメモアプリに情報が散乱してしまっているのが実情だ。そこで6月6日に日本でも提供が開始されたグーグルの「NotebookLM」だ。「AI駆動型のリサーチ、執筆アシスタント」と説明されているように、参照文献（ソース）

ahat1984 2024/06/15

AI

リンク

画像生成AIが爆速で進化した2023年をまとめて振り返る (1/5)

Stability AIが画像生成AI「Stable Diffusion」を公開したのは2022年8月のこと。すさまじい勢いで発展してきた画像生成AIの1年を振り返ってみようと思います。初めに見てもらいたいのは「これが無料でいいのか!? “爆速生成AI”がペイントソフトに革命を起こした」で紹介した、KritaとGenerative AI for Kritaを組み合わせて作成した設定資料的な画像です。キャラクターの3面図のサンプル。Vroidで簡単な3Dで当たり（左）として、右の画像を作成する。それを元に、プロンプトや画像に描き込んだりして、最終画像を作成していく。2枚目には前面図の頭部のカチューシャや、胸部分のフリルがなかったりするが、そこに色を加筆して、プロンプトで指示すると、最終画像にそれが追加されるのをリアルタイムに確認しながら修正できる（筆者作成） Stable Diffusi

ahat1984 2024/06/09

AI

リンク

アップル、高度な言語理解を持つ新型AIモデル「MM1」を発表

アップルの研究チームは3月14日、画像とテキストを理解し処理する能力を持つマルチモーダル大規模言語モデル「MM1」を発表した。今のところ論文のみの公開で、一般公開の時期は明かされていない。一部ベンチマークではGPT-4Vをも凌ぐ性能を発揮複数（30億、70億、300億）のパラメータサイズを備えるMM1は、10億以上の画像および30兆語以上のテキスト、GitHubのコード例などの多様なデータセットを用い、教師なし学習と教師あり学習を組み合わせる独自の方法で学習され、多様なタスクに対して高い精度を示すという。各種ベンチマークの結果によると、30億および70億パラメーターのモデルはそれぞれのモデルサイズにおいて過去最高を記録。特にVQAv2（画像理解）、TextVQA（画像内のテキスト情報）、ScienceQA（科学知識）、MMBench（マルチモーダル）、MathVista（数学）などの

ahat1984 2024/03/19

LLM

リンク

PowerShellの今を見る　2つあるPowerShellはどっち使えばいい？ (1/2)

PowerShellに関しては、2021年に1回まとめたのだが、あれから3年も経過したので最新情報も含めて、簡単に解説したい。なお、それぞれのこれまでの経緯などは、過去記事に記載しているので参考にしてほしい。 ●あらためて「PowerShell」の現状と登場後の経緯を整理する https://ascii.jp/elem/000/004/052/4052789/ 結論から言えば、PowerShellには、Windowsに同梱されている「Windows PowerShell」と、ユーザーがインストールする必要がある「PowerShell」がある。コマンドラインを使う頻度が高いようならば、最新のPowerShellをインストール、そうでなければWindows PowerShellで十分である。 PowerShellのインストーラーなどに表示される奇妙な人物イラストを見たことがある人もいるだろう。

ahat1984 2024/03/18

powershell

リンク

「ExcelでChatGPTを再現するシート」が想像以上に素晴らしかった (1/4)

先日本サイトで「めちゃくちゃ重いけど動くぞ！Excelで『GPT-2』を再現したスプレッドシート」というニュースを執筆したのだが、実際に触ってみたところ想像以上に素晴らしかったのでレポートする。「Spreadsheets-are-all-you-need」とは記事で紹介した「Spreadsheets are all you need」とは、Excelの標準的なスプレッドシート機能を使ってGPT2（ChatGPTの先祖）のフォワードパス（入力から出力までのプロセス）をExcelの中で完全に実装したものだ。と言ってももちろんExcel内で「ChatGPT」的な会話ができるわけではない。ChatGPTの心臓である大規模言語モデル（LLM）のごくごく基本的な機能をシミュレートできるだけだ。本シートの説明文には「開発者でない人でも本物のLLMが内部でどのように機能しているのかを、最小限の抽象

ahat1984 2024/03/09

LLM

リンク

「100fps以上も可能」爆速すぎる画像生成AI技術、日本人研究者ら開発

AITuber「しずく」開発者としても知られる、あき先生ことakio kodaira氏を筆頭にした研究グループは12月21日、リアルタイム画像生成を実現するために最適化されたパイプライン「StreamDiffusion」を発表。従来の画像生成パイプラインと比べて飛躍的な速度向上を実現している。ノイズ除去をバッチ処理で高速化「Stable Diffusion」をはじめとする画像生成AIモデルの高性能化は著しいが、メタバース、オンラインストリーミングなど高スループットと低レイテンシーが必要な環境ではまだ力不足だ。 StreamDiffusionは新しいアプローチを採用し、従来の連続的なノイズ除去をバッチ処理のプロセスに変換することで、高スループットストリームを実現。さらに、GPUの利用効率を向上させるため、従来の分類器フリーガイダンス（CFG）に代わり、残差分類器フリーガイダンス（RCFG

ahat1984 2023/12/23

画像

リンク

伊藤園「おーいお茶」CMに生成したAIタレントを起用

伊藤園が「お～いお茶カテキン緑茶」のテレビCMにAIタレントを起用した。AIタレント事業を手がける企業AI modelが、自社のAIタレントが採用されたことを10月3日に公表した。 CMに登場するAIタレントの名称は明らかにされていない。CMはテレビのほか、伊藤園の公式YouTubeチャンネルでも公開されており、本物の人間と見分けがつかないレベルの仕上がりだ。 AI modelによると、AIタレントが登場するテレビCMは日本初になるという。同社は発表に際して「AI 技術で生成したAI model（AIモデル）を活用して、モデル撮影の創造性や表現の豊かさを広げて、そこから得られる新しい価値などを提供していくことで、広告やファッションなど様々な業界の発展に貢献していきます」と述べている。「お～いお茶カテキン緑茶」シリーズは伊藤園が9月4日より販売を開始した製品。同シリーズはテレビCM以外

ahat1984 2023/10/14

AI

リンク

Windowsではプロセスからプログラムに関するさまざまな情報が得られる (1/2)

Microsoftが提供するSysinternalsの「Process Explorer」を使うと、ジョブオブジェクトを調べることができる。Optionメニューの「Configure Color」でJobsのチェックボックスをオンにする。ジョブでグループ化されているプロセスに指定した色がつくコンピューターでは、プログラムを実行するとメモリに読み込まれて「プロセス」になる。プロセスからはさまざまな情報が得られる。今回は、プロセスから情報を取得する方法について解説する。その前に、プロセスや関連の用語が混乱しているので、1回整理しておこう。そもそもWindowsにおける「プロセス」とは「プログラム」とは命令の連なりであり、これを記録したものが実行ファイルだ。ほとんどのプログラムは、実行ファイルという形を持つが、プログラムがプログラムを作って、実行ファイルという形を経ずに実行させることもでき

ahat1984 2023/10/03

windows

リンク

マイクロソフト、軽量かつ高性能な大規模言語モデル「phi-1」を発表

Microsoft ResearchのAI研究チームは6月20日（現地時間）、わずか13億パラメーターと従来のものよりもサイズが小さいにも関わらず「GPT-3.5（1750億パラメーター）」を上回る成績を収めたTransf ormerベースの大規模言語モデル「phi-1」を発表した。このモデルは間もなく「Hugging Face」で公開される予定だといいう。ベンチマークでGPT-3.5を凌駕「Textbooks Are All You Need」と題された研究論文によると、このモデルは8台のA100（NVIDIAの高性能GPU）でわずか4日間かけて訓練され、インターネット上から取得した60億トークンの「教科書品質」データセットと、GPT-3.5で生成した10億トークンの微調整用「練習問題」データセットが使用された。サイズが小さいにもかかわらず、phi-1はLLMの性能を測定するためのベ

ahat1984 2023/06/24

AI

リンク

画像生成AIに2度目の革命を起こした「ControlNet」 (1/4)

画像生成AI「StableDiffusion」の進化が止まりません。昨年8月にオープンソースとしてリリースされてから、世界中のプロアマ問わず多数の人たちが様々な研究成果を反映させ、毎日と言っていいほど新機能を誰かが発表するという状況が起きています。 StableDiffusion登場当初は、画像の品質のランダム性が高く、構図やポーズなどを指定できないという弱点を抱えていました。1枚の画像をもとに画像を生成する「i2i（image2image）」である程度コントロールすることはできても、「キャラクターに特定のポーズをとらせる」といったことは非常に難しかったんですね。その状況を一変させる新機能が今年2月に登場しました。その名も「ControlNet」。プロンプトによる制約を克服するための、とてつもないポテンシャルを持つ技術でした。Stable Diffusionに次ぐ「2度目の炸裂」と言って