PKSHA製基盤モデルの特徴とは? 「Transformer」ではなく「RetNet」だから実現できた“3つの強み” 生成AIブームの今、注目のキーワードが「基盤モデル」だ。大量のデータを事前学習したAIモデルのことで、少しのチューニングを施せば、さまざまなタスクに対応できる。米OpenAIの「GPT-4」といった生成AIも包含する概念だ。 さまざまな企業が生成AIを使った業務効率化を試行錯誤する中、各AIベンダーたちの間では基盤モデルの開発競争が激化している。そこでこの特集では、基盤モデルを開発するAIベンダーに一問一答メールインタビューを実施。開発状況や独自の強みなどを探っていく。 今回は、日本マイクロソフトの技術支援の元で、独自の基盤モデルを開発する、AIベンチャー・PKSHA Technology(東京都文京区)に話を聞いた。 PKSHA Technologyの基盤モデルの特徴や強
GPT-4などの大規模言語モデルは非常に高い性能を有していますが、各モデルがどのような思考を経て応答を出力しているのかは開発者ですら把握できていません。新たに、OpenAIが大規模言語モデルの思考を読み取る手法を開発し、GPT-4の思考を1600万個の解釈可能なパターンに分解できたことを発表しました。 Extracting Concepts from GPT-4 | OpenAI https://openai.com/index/extracting-concepts-from-gpt-4/ Scaling and evaluating sparse autoencoders https://cdn.openai.com/papers/sparse-autoencoders.pdf 一般的なソフトウェアは人間の設計に基づいて開発されているため、各機能の仕組みを理解した上で機能を修正したり安
はじめに This Kanji doesn't exist (一部ありそうですが...) diffusionモデルを作成して、漢字を生成した記録になります Diffusionモデルを実際にPythonで動かして、学習方法を理解することが目的です 詳しい理論や数式の導出は説明はしておりません 多様でありながら単純であり、かつ簡単に準備できる学習データとして"漢字"を利用しました コードはこちらを参考にしており、ネットワーク部分はそのまま利用しています https://github.com/tcapelle/Diffusion-Models-pytorch もくじ ライブラリのインポート 漢字データセットの作成 拡散過程 逆拡散過程 学習コード 結果 漢字生成 0. ライブラリのインポート 学習で利用するライブラリをインポートします。 学習はGoogle Colaboratoryで実施しました
概要Stable Diffusionのimg2imgを使用して、いわゆる「AIで作ったフォント」を作りました。フォント名は「まじなのセルフィ」です。今回で4回目です。 今回はプロンプトをImg2Textで生成してもらいました。つまりAIが元のフォントの画像の説明を生成し、それを自分自身に適用してImg2Imgを回しています。言葉だと説明しずらいので画像をぺたり。プロンプトの自己再適用がカメラの自撮りのように思えたので、このフォント名にしました。プロンプト考えるの面倒・・・興味本位の研究ですね。 まじなのセルフィのつくりかた仮名とアルファベットと約物で、全然違う形が生成されて面白かったです。仮名は角ばっていてところどころ崩れたような形ですね。アルファベットには毛筆で描いたような線の強弱やハライが見られ、アルファベットの約物には漢字っぽい何かが見えます。プロンプトの"chinese chara
今回はAlibabaの研究チームによって開発された英語以外の文字を生成できるAIモデル、AnyTextを動かしてみます。 AnyTextとは Alibabaグループによって開発された、文字も生成できる画像生成モデルです。Stable Diffusion 1.5をベースに作られていて、プロンプトで指示をすれば英語、中国語、韓国語、日本語で文字を生成できるのが特徴です。下のような画像たちが生成できるそうです。 この図はAnyTextの仕組みです。この研究とStable Diffusion 1.5の繋ぎこみは図中のText Control Netによって行われているようです。 動かしてみる Huggingfaceデモ Huggingfaceに公式がデモを用意してくれているのでそれを触ってみます。 プロンプトを書いて、 今回は「日本語学習中」と書かれた黒板の前に立つアライグマを生成してみます 文字
subcharacterに関しては,BERTやELMoといった文脈情報を扱える言語モデルでの検証はまだ少ないようで,さっと調べた感じだと見つけられませんでした。 論文間にまたがって分割単位が同じ部分がわかるように,分割ごとに色合いを変えた図を作成しました(見易さを優先し,作成した図の次元サイズ等は簡略化しています)。 論文リンクは下部の参考文献に記載しています。 1.Sub-character Neural language Modeling in Japanese (Nguyen et al.) 漢字の表現方法を部首(shallow)・さらに部首より小さい単位(deep)に分解。 言語モデルは単方向のLSTM 言語モデルのパープレキシティーの良さの順は,shallow > deep > baselineとなった。 論文内で紹介されている漢字の4つのデータセットを見ると,同じ漢字でもそれぞ
こんにちは、MLBお兄さんこと松村です。 昨年の MLB 全体ドラフト1位のポール・スキーンズ投手がメジャーデビューしました。予想通りの豪速球でした。 2024年4月29日についにテクニカルプレビューが開始となった GitHub Copilot Workspace ですが、ゴールデンウィーク中に私のアカウントでも利用可能となっていたため、試してみたことを書いていきます。 利用開始まで この記事を書いている時点では、 GitHub Copilot Workspace の利用には待機リスト (Waitlist) への登録が必要であり、その通過を待つ必要があります。 そのため GitHub Copilot Workspace を利用したい方は、こちらから登録を行いましょう。 githubnext.com ゼロからアプリを作ってみる 今回は練習として私がコードを書くこと無く、 C# の簡単なアプリ
そんな事もあり、4月10日は新しいフォントがいくつか発表された。今年の目玉はなんといっても「和文バリアブルフォント」であろう。 われわれが普段使用するフォントは、同じデザインでも細いもの、太いもの、横が詰まったものなどがそれぞれ個別のフォントとして提供され、1つのファミリーを形成している。 一方バリアブルフォントは、そうした文字の変形を1つのフォントで提供していこうという比較的最近のフォントフォーマットで、米Adobe/米Apple/米Google/米Microsoftが共同開発した。フォントパラメータとして、太さや字幅がバリアブルで変更できるため、従来はファミリーで提供しなければならなかったフォントデータが、1つのフォントで小さく提供できるというメリットがある。 もちろんデザインする側も、細いか太いかの2択ではなく「中間」も選べるし、縦長、横長も選べるので、表現の幅が広がるわけである。た
This post is an introduction to FontTools and modern font development more generally. It is written from the perspective of a beginner/intermediate font designer & developer (me, Stephen Nixon / @ArrowType), intended as an approachable introduction to font development for designers or developers hoping to better understand some common processes & tools of font development. Basically, this is an at
ITジャーナリスト/Publickeyブロガー。IT系の雑誌編集者、オンラインメディア発行人を経て独立。2009年にPublickeyを開始しました。 Appleは、3月5日付でリリースされたiOS 17.4、iPadOS 17.4、現在ベータ版のmacOS Sonoma 14.4などにバンドルされるWebブラウザ「Safari 17.4」で、日本語の縦書き表示が可能になったことを明らかにしました。 AppleはこのSafari 17.4で、過去21年間使われてきたレンダリングエンジンであるWebkitのレガシーなラインレイアウトエンジンをついに廃止し、インラインレイアウトエンジンの全面的な書き換えを完了したことを報告しています。 これにより、最新のWeb標準での相互運用性が向上し、インラインレイアウトのバグが減り、パフォーマンスが向上し、安定性が改善され、新しい機能をはるかに簡単に実装で
AIの技術的進化において、テキストによる画像生成はそのほかの分野に比べて視覚的に「わかりやすく凄い」というのも相まって、広く認知されるようになった。約6年前は鳥の姿形をようやく制御できるかできないか(※1)という具合だったのにもかかわらず、現在では鳥に限らず様々なコンテンツを、美しく高解像度に生成できるようになった。 しかし、文字の完全な描写には未だ困難が伴っている。試しにAdobeが提供する画像生成AI『Firefly』にSign with the words "Real Sound" painted on it(訳:"Real Sound"という文字の描かれた看板)と入力して画像を生成してみよう。 こちらの期待に反して看板に描かれているのはすべて大文字であり、SOUNDの"N"が抜けてしまった。 この生成はなぜ失敗してしまったのか、そしてAIが文字を生成することはなぜ難しいのか。本記事
今年も株式会社モリサワから新しいフォントブック「モリサワ総合書体見本帳 2023–2024」が制作・刊行されました。これを記念してSNSキャンペーンを実施しています。この見本帳には、2023年の新書体を含むMorisawa Fontsの書体が網羅されており、ユーザーが求める表現や特徴に合わせてフォントを選べるよう工夫されています。この見本帳はMorisawa Fontsの契約者にも配布される予定に加え、11月24日から特製カバーつきの別装丁版として1,320円(税込)で全国の書店で販売されます。 ユーザーのニーズに応じたフォント選択「モリサワ総合書体見本帳 2023–2024」は、2023年の新書体を含むMorisawa Fontsを網羅しています。ユーザーが「つくりたい表現」や「特徴」に基づいてフォントを選べるように工夫したデザインが特徴です。親しみやすいカテゴリー分けすることで、制作物
株式会社モリサワは、カワサキモータース株式会社が初めて手がけた電動モーターサイクルおよびハイブリッドモーターサイクルにオリジナルフォントを開発、提供した。 カワサキが、モーターサイクル用にオリジナルフォントを採用するのは今回が初めて。カワサキ初の電動モーターサイクルであるNinja e-1とZ e-1およびハイブリッドモーターサイクルNinja 7 Hybridにふさわしいデザインを実現するべく、プロデザイナー御用達のフォントを提供するモリサワにオリジナルフォント開発が依頼された。 今回採用されたのは、「Kawasaki Type001」と「Kawasaki Type002」の2つのフォントで、TFTメーターの時計部分に「Kawasaki Type001」、それ以外のスピード、ギアポジション、バッテリー表示などに「Kawasaki Type002」が使用されている。また、車両の状態や走行ロ
Google DeepMindが視覚および言語を行動に変換できる学習モデル「Robotic Transformer 2(RT-2)」を2023年7月28日に発表しました。RT-2を搭載したロボットは「イチゴを正しいボウルに入れて」「机から落ちそうな物を持ち上げて」といった指示を実行できる他、学習データに含まれていない指示も高い精度で実行可能です。 RT-2: New model translates vision and language into action https://www.deepmind.com/blog/rt-2-new-model-translates-vision-and-language-into-action What is RT-2? Google DeepMind’s vision-language-action model for robotics http
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く