ブックマーク / yasagurenlp.hateblo.jp (2)

  • JSAI2024参加記録 - 英語帝国を打倒しよう

    僕の発表は金曜の9:40~ Aホールであります。よろしくお願いします~ 28日、火曜日 [1G3-GS-6-04] 連続表現を用いたSpeech-to-Text対話モデルの構築 HUBERT特徴量を入力として、テキストを出力するモデルを学習。そのモデルの事前学習にLLMを用いる。モデルは音声認識タスクで事前学習→対話タスクで学習という順序で利用 rinnaも同じようなことをしているらしい。音声認識で学習したモデルが事前学習済みモデルとして利用されることもあるのかな? https://rinna.co.jp/news/2023/12/20231207.html [1B4-GS-2-03] 宝くじ仮説の観点からの Grokking の理解 Grokking:暗記→汎化が起きたという現象 なぜこんなことが起こるの?→モデルの構造が変化しているのではないかと仮説を立てた。実際、重みの刈込のみで、暗

    JSAI2024参加記録 - 英語帝国を打倒しよう
  • 入力と出力から辿るtransformer(計算量等) - yasagurenlp’s diary

    はじめに transformerの仕組みについてはほとんど勉強したことが無く、どうも理解が怪しかったので改めて勉強し直すことにしました。特に気になっていたのは、並列化と推論時の計算量です。それぞれ以下のような話をしていた時に顕在化しました。 友人Aとの会話 自然言語処理が専門ではない友人にモデルの歴史を雑談程度に話していて、その時に、「LSTMとかの逐次的な系列変換モデルからtransformerになって、並列処理ができるようになったから凄い事起きたんだよ~」と言ったら、「どうやって並列化してるの?」と聞かれてごまかした。 先輩Bさんとの会話 Bさんとの会話の中で「transformerの推論はO(n2)で~~(うんぬんかんぬん)」という話が出てきた。その時にあれ?そういえばなんでn3ではなくn2なんだろう?と思った。「なんか上手くやるとn2になる」みたいな話があった気がするのだが、完全に

    入力と出力から辿るtransformer(計算量等) - yasagurenlp’s diary
  • 1