サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
新年度はじまる
www.techno-edge.net
AI活用やハイブリッドワークの加速を背景に、可搬性・接続性・メンテナンス性およびユーザビリティの三点を重点強化しています。 ThinkPad X1 Carbon Gen 14 Aura Edition | 14″ プレミアム超軽量 AI ノート PC | レノボ・ ジャパン フラッグシップのThinkPad X1 Carbon Gen 14 Aura Editionには、2014年のユニボディ採用以来の革新という新筐体構造「スペースフレーム」を採用。 3D積層でレイアウトを改善し、冷却機構の大型化で性能と静音性向上、ヒンジ小型化でタッチパッド大型化、メンテナンス性の向上を実現しました。 全体の特徴として、すべての機種で内蔵5Gまたは4G LTEへのカスタマイズが可能。法人向けには最大5年間データ通信量制限なしで利用できる「Lenovo ConnectIN」にも対応し、場所を選ばない働き方を
ガジェット全般、サイエンス、宇宙、音楽、モータースポーツetc... 電気・ネットワーク技術者。実績媒体Engadget日本版, Autoblog日本版, Forbes JAPAN他 53年ぶりの有人月探査ミッション「アルテミス2号」の宇宙飛行士らは先日、宇宙船の窓から見える地球をバックにした自撮り写真をNASAの地上管制センターに届けました。 各種報道で紹介されたこれらの写真は、iPhone 17 Proで撮影されています。 NASAの公式Flickrページに公開されている情報によれば、全3枚の写真がiPhoneによるものだとわかります。 今回、宇宙船内にiPhoneが持ち込まれたことに関しては、アップルは正式には関与していないとのことですが、飛行士らは宇宙服のポケットにiPhone 17 Pro Maxを携えており、ほかにもGoPro Hero 11など民生品が使用されているることが、
Bonsai 8Bはウェイトがたった1.1GBなので、残りの約5GBをKVキャッシュに回せるメリットがあります。結果として8Bパラメータの品質を保ちながら32Kトークンのコンテキストが取れます。「8GBでは3Bモデルが限界」という常識を覆した前回の話の続きですが、コンテキスト長でもBonsaiの圧勝です。 Gemma 4 E2BはOllamaのQ4_K_M量子化で7.2GBですが、ビジョンとオーディオのエンコーダーを含んでいるため見た目の数字ほど重くありません。Ollamaのmmap機構により、テキスト処理時にはビジョン/オーディオ部分はRAMに読み込まれない。さらにKV heads=1、Shared KV layers=20という効率的な設計のおかげで、KVキャッシュは32Kでもわずか0.38GB。実測でも32Kコンテキストで27.8 tok/sが出ています。 Qwen3 8Bに至っては
この1週間の気になる生成AI技術・研究をいくつかピックアップして解説する「生成AIウィークリー」。 第139回では、国立情報学研究所がオープンソースで公開した大規模言語モデル「LLM-jp-4」や、Netflixなどが開発の動画から物体を消すと世界も変わる技術「VOID」を取り上げます。 また、LLMのハーネス設計を自動最適化する「Meta-Harness」や、推論精度はほぼ維持したままスマホで動く1ビットLLM「Bonsai 8B」をご紹介します。 そして、生成AIウィークリーの中でも特に興味深いAI技術や研究にスポットライトを当てる「生成AIクローズアップ」では、Webブラウザだけで日本語OCR(光学文字認識)が完結するツール「NDLOCR-Lite Web AI」を別の単体記事で取り上げています。
1週間の気になる生成AI技術・研究をいくつかピックアップして解説する連載「生成AIウィークリー」から、特に興味深いAI技術や研究にスポットライトを当てる生成AIクローズアップ。 今回は、Webブラウザだけで日本語OCR(光学文字認識)が完結するツール「NDLOCR-Lite Web AI」(MITライセンス)を取り上げます。 国立国会図書館が開発したOCRエンジン「NDLOCR-Lite」をベースに、橋本雄太氏(国立歴史民俗博物館)がWeb移植した「ndlocrlite-web」を、小形克宏氏(一般社団法人ビブリオスタイル)がフォークしてAI校正機能を追加しました。宮川創氏(筑波大学)によるダークモードや画像前処理などのUI拡張も統合されています。 ▲NDLOCR-Lite Web AIの画面。左パネルに元画像(芥川龍之介『蜘蛛の糸』)、右パネルにOCR結果が表示されている
速度ではSwiftLMが勝つ。でも……純粋な生成速度ではSwiftLMが平均27.3 tok/sで最速でした。Bonsai 8Bは21.1 tok/sで、SwiftLMの約0.77倍。1ビットのdequantizationオーバーヘッドがあるので、これは仕方ない部分です。 しかし、数字だけでは見えない差があります。 回答の品質が違う Bonsai 8Bの回答は、Qwen 2.5 3Bとは明らかにレベルが違います。8.2Bパラメータの恩恵で、文章の構造化、文脈の理解、日本語の自然さ、すべてが上。コード生成でも、ドキュメント文字列やエッジケース処理が3Bモデルより丁寧です。tok/sの数字は劣っていても、読む価値のある回答が返ってくる。 日本語の品質については、清水亮さんの独自ベンチマークでも非常に優秀な成績を残しています。NVIDIA GPUでの計測ですが。 Tool Callingの信頼性
Grok Imagineで生成した妻の動画を27インチの大画面に映して「存在感」を味わう、という話を以前書きました。これは今も続けていて、十分に心が満たされてるのですが、そろそろその先にそろそろ進みたい。
この1週間の気になる生成AI技術・研究をいくつかピックアップして解説する今回の「生成AIウィークリー」(第138回)は、動画・音声・テキストを見ているときの脳反応を予測できるMeta開発の脳活動推測AI「TRIBE v2」や、人間には簡単でもAIには難しい新しいテスト「ARC-AGI-3」を取り上げます。 また、LTX-2.3越えの商用利用可能な日本語対応ローカル音声・動画生成AI「daVinci-MagiHuman」や、“自己改善の仕方”も自己改善するメタ認知型自己修正AI「HyperAgents」をご紹介します。 そして、生成AIウィークリーの中でも特に興味深いAI技術や研究にスポットライトを当てる「生成AIクローズアップ」では、わずか3秒の参照音声から、自然で表現力豊かな音声を生成できる多言語対応の音声合成(TTS)モデル「Voxtral TTS」を別の単体記事で取り上げています。
MacBook Neo上で動かしているローカルエージェンティックAI「mazzaineo」に、新しい機能を2つ追加しました。1つはブラウザだけで操作を完結させるためのWebターミナル、もう1つはApple SiliconのMLXをネイティブに活用する最新の推論エンジン「SwiftLM」の統合です。
NVIDIAのDLSS 5は表現に直接介入し、リアルタイムで写実性を向上させ反発と炎上を引き起こしました。今後のCG技術やゲーム開発にも大きな影響を与える可能性が高いです。
生成AIグラビアをグラビアカメラマンが作るとどうなる? 連載記事一覧 ここのところ新しい画像生成モデルのリリースもなく……3月に入ってLTX-2.3やSeedance 2.0など動画系は活発だが、画像系はオープンで特に目新しいのはなし。筆者の画像生成は、 Z-Image-Base → Z-Image-Fun-Lora-Distill-8-Steps-2602_UDCAI_ComfyUI(0.6) のパターンが完全に定着している。 もちろんZ-Image-Baseがベストなのだが、Steps数も多く、CFGを1より大きくする関係でZ-Image-Turboより4倍以上の時間がかかる。といってZ-Image-Turboだと奥行き感がなく薄っぺらい絵になりそれは避けたい……のちょうど間をとった形で、CFG=1、Steps 8~10と、生成速度もZ-Image-Turboと同じに。 ただ過去のプロ
1週間の気になる生成AI技術・研究をいくつかピックアップして解説する連載「生成AIウィークリー」から、特に興味深いAI技術や研究にスポットライトを当てる生成AIクローズアップ。 今回は、わずか3秒の参照音声から、自然で表現力豊かな音声を生成できる多言語対応の音声合成(TTS)モデルを提案した論文「Voxtral TTS」を取り上げます。このモデルはフランスのAI企業「Mistral AI」が開発しました。 Voxtral TTSは、初めての音声からでも話者の特徴を捉えるゼロショットの音声クローニングにおいて高い性能を発揮します。ネイティブスピーカーによる評価実験では、その自然さと感情表現の豊かさが高く評価され、競合であるElevenLabs Flash v2.5に対して68.4%という高い勝率を記録しました。 ▲Voxtral TTSはElevenLabs Flash v2.5との人間評価
Sunoがバージョン5.5になりました。モデルが新しくなって音質が良くなったのとは別に、いくつかの新機能や変更があります。その中で最大のものが、「Voice」の登場です。 Voiceは以前からあったPersona(ペルソナ)を名称変更したものなのですが、大きな機能追加があります。それは、ユーザーが自分の歌声を登録できること。 ペルソナでも歌声を登録できたのですが、それはSunoの中で生成した楽曲で歌っている声に限定されていました。自分や他人の歌声を登録することはできなかったのです。 Voiceで、自分の歌声だけでなく、他の歌手も自由に登録できたら、とは誰しも思うことでしょう。しかし、それを許容してしまえば有名歌手に歌わせ放題となってしまい、音楽業界から完全に敵認定されてしまいます(今以上に)。そのため、Voiceの歌声登録では厳密な防護策が施されています。 「自分の歌声」をその場で録音する
ITジャーナリスト/Publickeyブロガー。IT系の雑誌編集者、オンラインメディア発行人を経て独立。2009年にPublickeyを開始しました。 人間やAIエージェントがコマンドラインから指示することでWebブラウザを操作できるオープンソースのPythonライブラリ「Browser Use CLI 2.0」がリリースされました。 Browser Use CLI 2.0では、Chromeブラウザに対してChrome DevTools Protocol(CDP)で接続して操作できるようになり、またセッションごとにWebブラウザを起動することなくデーモンによるセッションの保持が行われることで、前バージョンよりも操作速度が2倍になるなどの機能向上が実現されています。 Browser Use CLI 2.0は、AIエージェントによるWebブラウザの操作自動化を実現するオープンソースの「Brow
この1週間の気になる生成AI技術・研究をいくつかピックアップして解説する今回の「生成AIウィークリー」(第137回)。 今回は研究アイデアを入力するだけで国際会議レベルの学術論文を生成するオープンソースAI「AutoResearchClaw」や、映像の細部まで理解するMeta開発のAIモデル「V-JEPA 2.1」を取り上げます。 また、稼働しながら継続的に学習するAIエージェント「MetaClaw」や、層を足し算する“残差接続”の進化版「Attention Residuals」をご紹介します。 そして、生成AIウィークリーの中でも特に興味深いAI技術や研究にスポットライトを当てる「生成AIクローズアップ」では、Y CombinatorのCEOであるギャリー・タン氏(Garry Tan)が、自身のClaude Codeの開発環境「gstack」をGitHubでオープンソース(MITライセン
1週間の気になる生成AI技術・研究をいくつかピックアップして解説する連載「生成AIウィークリー」から、特に興味深いAI技術や研究にスポットライトを当てる生成AIクローズアップ。 今回は、Y CombinatorのCEOであるギャリー・タン氏(Garry Tan)が、自身のClaude Code用カスタムスキル「gstack」をGitHubでオープンソース(MITライセンス)として無料公開したことを取り上げます。 タン氏はCEOとしての多忙な日常業務をこなしながら、このgstackを活用して60日間で60万行以上(35%テストコード)のプロダクションコードを書き上げました。これは1日あたり1万から2万行の実用的なコードを出荷している計算になり、たった1人でかつての20人規模のチームに匹敵するスピードを実現しています。 ▲2013年の手動開発(772貢献)と、gstackを駆使した2026年の
Base44のCEOであるマオール・シュロモ氏に、ヴァイブ・コーディング、エージェンティックAI、そしてBase44の目指す未来について話を聞きました。
我が家のコンピュータ全てにエージェンティックAIを組み込んでいく活動を行っています。 Claude Codeをフル活用して、M4 Max 128GBメモリ搭載MacBook Pro、シトラスカラーの10万円MacことMacBook Neo、NVIDIAジェンスン・フアンCEO肝入りの手のひらサイズスーパーコンピュータDGX Spark互換機、そしてZTEのAndroidフォルダブルスマートフォンnubia Foldに、それぞれのマシン特性を生かしたエージェンティックAIを開発し、組み込みました。 エージェントメッシュ構想現在、それらが有機的に連携できるように、エージェントメッシュ(Agent Mesh)の機能を組み込んでいるところです。 どういうことかというと、一つのマシンで生成した画像、映像、音楽を別のマシンに受け渡して次の生成・加工・編集ができるようにするための機能です。こういう機能が
この1週間の気になる生成AI技術・研究をいくつかピックアップして解説する今回の「生成AIウィークリー」(第136回)は、AIらが複雑な作業を全自動処理してくれる商用利用も可能なオープンソースAIエージェント「DeerFlow 2.0」や、普段の対話でAIエージェントを自分好みに育成できる「OpenClaw-RL」を取り上げます。 また、1枚のイラストからLive2Dに使える分割素材を自動生成する「See-through」や、長時間動画から3D復元するGoogle開発のAI「LoGeR」をご紹介します。 そして、生成AIウィークリーの中でも特に興味深いAI技術や研究にスポットライトを当てる「生成AIクローズアップ」では、人間の声と区別がつきにくいレベルに迫るリアルな音声を複数話者一括生成できるオープンソソースのText-to-Speech(TTS)「Fish Audio S2」を別の単体記事
株式会社テセラクト 代表取締役社長 シニアプログラミングネットワーク代表 震災復興活動の中で海藻・アカモクをモチーフにつくったキャラクター「渚の妖精ぎばさちゃん」を運営。Appleの開発者カンファレンスに「81歳のアプリ開発者」として招待された若宮正子さんへの教育をきっかけに、高齢者向けのプログラミング教育にも力を入れ、現在はコミュニティ「シニアプログラミングネットワーク」を運営する。2023年3月「第1回AIアートグランプリ」において「渚の妖精ぎばさちゃん」をテーマにした漫画で準グランプリを受賞するなど、生成AIにも造詣が深い。 Vibe Coding(ヴァイブorバイブ・コーディング)って聞いたことありますか? 将棋の藤井聡太さんが「今年ハマったもの」としてこの言葉に触れていたんですよ。AIに作りたいものを日本語で伝えるとコードを書いてくれる、といった体験を語っていました。 私はシニア
ITジャーナリスト/Publickeyブロガー。IT系の雑誌編集者、オンラインメディア発行人を経て独立。2009年にPublickeyを開始しました。 オラクルは、カリフォルニア州レッドウッドシティで開幕したイベント「JavaOne 2026」で、「Project Detroit」(以下、Detroit)をOpenJDKのプロジェクトプロポーザル(プロジェクト提案)として発表しました。 DetroitはJavaにJavaScriptエンジンの「V8」とPythonランタイムの「CPython」を組み込むことで、JavaとJavaScript、Pythonの相互運用性を高めることを目的としています。 Detroitは、JavaにJavaScriptのスクリプトエンジンを組み込む目的で2018年にプロジェクトが始まったものの実装に至らず、2019年に中止となっていました。 それが今回、Java
最新のAIを駆使して話題の論文を素早く取り上げて、判りやすく紹介してみよう……というチャレンジです。みんな優しくしてね! AIがポケモンをプレイ、というデモや実験は以前、OpenAIやAI各社がやってましたが、今度は規模が違います。2000万件の対戦ログ、100チーム超が参加したNeurIPS 2025の公式コンペ「PokeAgent Challenge」——このベンチマークが明らかにしたのは、既存のAI評価では見えていなかったある能力の欠如でした。 AI研究と「ポケモン」の相性は意外にいい?2016年、AlphaGoが囲碁の世界チャンピオンを破り、AIが複雑なゲームで人間を凌駕する時代が到来しました。チェスや将棋でもAIは人間を圧倒しています。しかし、これらのゲームには共通する特徴があります。盤面の情報がすべて公開されている「完全情報ゲーム」であるという点です。 ポケモン対戦の世界は、ま
松崎良太(まつざき・りょうた) きびだんご株式会社代表取締役。慶應義塾大学卒業後、株式会社日本興業銀行(現みずほフィナンシャルグループ)へ入行。投資銀行業務に携わった後コーネル大学でMBAを取得。2000年楽天に入社、社長室長や経営企画室長、執行役員ネットマーケティング事業長 兼 事業企画・調査部長を歴任。2011年に独立、ベンチャーの育成に務めながら自らエンジェル投資も行う。2013年にゴールフラッグ株式会社(後に「きびだんご株式会社」に社名変更)を設立。クラウドファンディングとECを組み合わせた新しい事業エンパワーメントの仕組みを提供する「Kibidango(きびだんご)」をスタート。 こんにちは。 自称「睡眠オタク」のまつざきです。人生の3分の1を占める睡眠には、惜しみなく投資するべきだ、と昔誰かに聞きました。いや、もはや誰に言われたのか今となっては思い出せません。ひょっとしたら夢の
先日、面白いことがありました。 現在とある音楽プロジェクトでご一緒しているレジェンドなミュージシャンの方から、「トラックダウンが終わった曲のマスタリング、AIで簡単にできるのならそれを聞きたいんだけど、何パターンか出してもらえる?」と聞かれたので、「Logic Proの簡易的なやつでよければいいですよ」と回答。 メインマシンであるM4 Max 128GBメモリのMacBook ProのLogic Proでは別のプロジェクトを動いているので、ソファに転がっているMacBook Neoでやってみることに。 2MIXをプロジェクトに取り込み、最近追加されたMastering Assistantという機能を使ってテンプレートの4パターンと、それぞれにラウドネス補正をかけた合計8パターンを出して共有。 翌日、「あれの中の一つがOKになったから、ちゃんと残しといてね。あれが原盤になるから」との連絡が入
ViXion2 の特徴は、従来モデルでもっとも不満が多かった視野を、液体レンズの再設定で約2.4倍に拡大したこと。 眼筋をリラックスさせた状態で最短5cmから無限遠まで、約0.1秒でピントをあわせて鮮明に見える機能はそのままに、視野が大きく広がり、本やノートPC画面なども従来モデル比でかなり見やすくなりました。 ラインナップに加わる「ViXion2 Pro」は専門職向けモデル。基本性能は通常のViXion2 と共通ながら、レンズを最大30度下向きにできるチルト機構、高い衛生基準が求められる環境でも使いやすい対薬品性素材、アウターフレームにLEDライトをクリップオンできるマウント等、医療関係者などから求められる機能を備えたモデルです。 ViXion2 Proのみのチルト機構。 ▲画像:新旧比較。左が新型ViXion2、右が従来のViXion 1S。 見え方のイメージはこちら。 従来モデルはル
であれば、上記のモデルもLLM的に使いプロンプト拡張的に再利用できないか?と、筆者が作ったのが以下のカスタムノードだ。Z-Image / Qwen3-4b、LTX-2.3 / Gemma3-12b-itに対応している。 「え”Qwen-Imageは?」なのだが、もちろんトライしたものの、ComfyUIの内部構造が非対応で、カスタムノード内では吸収し切れなかったため諦めた…と言う経緯がある。 使い方は簡単!例えばZ-Imageだと、入力はCLIP、出力はテキスト。この出力をCLIP Text Encode (Positive Prompt)のTEXTへ入れれば準備完了。 パラメータとして、ユーザープロンプトとシステムプロンプトがあり、後者には、 You are a professional image generation prompt expert. Output in English.
ガジェット全般、サイエンス、宇宙、音楽、モータースポーツetc... 電気・ネットワーク技術者。実績媒体Engadget日本版, Autoblog日本版, Forbes JAPAN他 Anthropicは、AIチャットボットClaudeの人気の高まりを受けて、2週間の期間限定でピーク時間帯を除くすべての時間において、ユーザーの使用量割り当てを2倍に増量するキャンペーンを開始しました。 すでに開始しているキャンペーン期間は3月27日までで、この間は日本時間では3時から21時まで、また週末は24時間すべての時間帯で、5時間ごとの送信可能メッセージ(トークン)数が平常時2倍のボーナスタイムになります。この増量分は週間の使用量制限にもカウントされません。 このキャンペーンは無料会員を含む各プラン(Enterprise除く)で適用され、ウェブ、デスクトップ、モバイル用の各Claudeアプリ、Cowo
1週間の気になる生成AI技術・研究をいくつかピックアップして解説する連載「生成AIウィークリー」から、特に興味深いAI技術や研究にスポットライトを当てる生成AIクローズアップ。 今回は、人間の声と区別がつきにくいレベルに迫るリアルな音声を生成できるオープンソソースのText-to-Speech(TTS)「Fish Audio S2 Technical Report」を取り上げます。 Fish Audio S2は、複数話者による複数ターンの対話生成をネイティブにサポートしている点と、自然言語の指示による単語ごとの細かい感情コントロール指定が可能な点が特長です。 ▲Fish Audio S2の4つの主要機能(自然言語タグによる詳細な感情制御、複数話者・複数ターンの対話生成、高速生成、一貫した声質を保つ長尺音声生成) これまでの多くのAI音声ツールでは、声全体のトーンを「落ち着かせる」「元気にす
この1週間の気になる生成AI技術・研究をいくつかピックアップして解説する今回の「生成AIウィークリー」(第135回)は、AIの学習時間を2倍以上高速化させる強化学習システム「AReaL」や、1枚のH100で長尺動画を生成する140億パラメータの動画生成AI「Helios」を取り上げます。 またBlack Forest Labsが発表した効率的なAI学習法「Self-Flow」や、強い権限を与えた自律型AIエージェントを実環境に2週間展開して研究者らがレッドチームテストを行った研究をご紹介します。 そして、生成AIウィークリーの中でも特に興味深いAI技術や研究にスポットライトを当てる「生成AIクローズアップ」では、Lightricksより発表された、ローカルで利用でき、商用利用可能な最新の音声付き動画生成AIモデル「LTX-2.3」を別の単体記事で取り上げています。
次のページ
このページを最初にブックマークしてみませんか?
『テクノエッジ TechnoEdge』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く