1.4/50 Summilux ASPH, Leica M10P, RAW Midjourney、ChatGPTと立て続けに強烈なアプリケーションが出てきて、Diffusion model(拡散モデル)やtransformer architectureに基づくいわゆるGenerative AI(生成系AI)がそこらで話題だ。ガンガン画像を生み出すことで一気に注目を集めたMidjourneyはクリエーター寄りだけれど、11月末、対話型で答えを返してくれるChatGPT*1が出てきたときに*2、あまりの回答力にDS協会*3のスキル定義委員会でもひとしきり話題になり、僕も自分の研究会の学生たちに「君ら、深く考えずにまずは使い倒したほうがいいよ」と早々にアドバイスした。使わないことには凄さも課題も何もわからないからだ。 すると二週ほど前のゼミで、ある卒業を控えた学生が ChatGPTがないと生きて
注意機構(英: attention mechanism)またはアテンション(英: Attention)は系列信号の重み付き統合である。 アテンションの基本は次のモデル式で表される。 系列信号に対し、 番目の信号 からベクトル値 とスカラ重み を計算し、系列全長にわたって重み付け和したものがアテンションである。系列の特定時刻に大きな重みを置くことを動物における注意に例えてアテンションと名付けられた。アテンション はベクトルの和で求められるため系列長に関わらず同じshapeを持ち、また と は動的に算出される。ゆえにアテンションは可変長系列を入力に取れる。 ニューラルネットワークの分野ではLSTMやGRUなどの回帰型ニューラルネットワークにアテンション機構を追加したモデルが高性能な自然言語処理システムで採用されてきた。 ゲート付き RNN はトークンを順次処理し、各トークンの後に表示されるデー
BERT 以前の多くの言語モデルは事前学習に単方向性(英: unidirectional)のタスクを採用しており[4]、学習された表現も単方向の文脈しか考慮しないものであった。この制約は文脈レベルの表現が必要なタスクの性能へ大きなペナルティを与えうる。 後述するMLM により双方向に依存するモデルを採用可能になったことから、BERT ではネットワークとして双方向性の Transformerアーキテクチャ (Bidirectional Encoder[5] of Transformer) を採用した[6]。すなわち self-attention による前後文脈取り込みと位置限局全結合による変換を繰り返すネットワークを用いている。 BERTは、トークン化にWordPieceを使用して、各英単語を整数コードに変換する。その語彙数は30,000である。語彙に含まれないトークンは、「不明」(unkn
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く