nikkie-ftnextのブックマーク - はてなブックマーク

JSAI2024参加記録 - 英語帝国を打倒しよう
僕の発表は金曜の9:40~ Aホールであります。よろしくお願いします～ 28日、火曜日 [1G3-GS-6-04] 連続表現を用いたSpeech-to-Text対話モデルの構築 HUBERT特徴量を入力として、テキストを出力するモデルを学習。そのモデルの事前学習にLLMを用いる。モデルは音声認識タスクで事前学習→対話タスクで学習という順序で利用 rinnaも同じようなことをしているらしい。音声認識で学習したモデルが事前学習済みモデルとして利用されることもあるのかな？ https://rinna.co.jp/news/2023/12/20231207.html [1B4-GS-2-03] 宝くじ仮説の観点からの Grokking の理解 Grokking：暗記→汎化が起きたという現象なぜこんなことが起こるの？→モデルの構造が変化しているのではないかと仮説を立てた。実際、重みの刈込のみで、暗
nikkie-ftnext 2024/05/28
リンク
入力と出力から辿るtransformer(計算量等) - yasagurenlp’s diary
はじめに transf ormerの仕組みについてはほとんど勉強したことが無く、どうも理解が怪しかったので改めて勉強し直すことにしました。特に気になっていたのは、並列化と推論時の計算量です。それぞれ以下のような話をしていた時に顕在化しました。友人Aとの会話自然言語処理が専門ではない友人にモデルの歴史を雑談程度に話していて、その時に、「LSTMとかの逐次的な系列変換モデルからtransf ormerになって、並列処理ができるようになったから凄い事起きたんだよ～」と言ったら、「どうやって並列化してるの？」と聞かれてごまかした。先輩Bさんとの会話 Bさんとの会話の中で「transf ormerの推論はO(n2)で～～(うんぬんかんぬん)」という話が出てきた。その時にあれ？そういえばなんでn3ではなくn2なんだろう？と思った。「なんか上手くやるとn2になる」みたいな話があった気がするのだが、完全に
nikkie-ftnext 2023/11/16
リンク
1

はてなブックマーク

タグ

ブックマーク / yasagurenlp.hateblo.jp (2)

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第1週）

月間はてなブックマーク数ランキング（2024年6月）

今週のはてなブックマーク数ランキング（2024年6月第5週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

タグ

ブックマーク / yasagurenlp.hateblo.jp (2)

JSAI2024参加記録 - 英語帝国を打倒しよう

入力と出力から辿るtransformer(計算量等) - yasagurenlp’s diary

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第1週）

月間はてなブックマーク数ランキング（2024年6月）

今週のはてなブックマーク数ランキング（2024年6月第5週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス