gengohouseのブックマーク - はてなブックマーク

BERTでの語彙追加~add_tokenに気をつけろ!~ - Retrieva TECH BLOG

こんにちは。レトリバの飯田(@meshidenn)です。TSUNADE事業部研究チームのリーダーをしており、マネジメントや論文調査、受託のPOCを行なっています。みなさんは、BERTなどの学習済み言語モデルに対して語彙を追加したくなることはありませんか？諸々の論文(こちらやこちらやこちら)により、特定ドメインやrare-wordの語彙を追加することによって、性能が上がることが知られています。そこで、語彙を追加しようと思い、Transf ormersのTokenizerの仕様を見ると、add_tokens という関数があります。これを使えば、tokenizerに語彙を追加できるので、あとはembedding側にも新しい語彙を受け取れるようにすれば万事解決です！とは、うまくいかないので、今回はこの辺りについて、ちょっとした解説をします。 add_tokensの問題点なにがうまくいかな

gengohouse 2023/05/17

リンク

特定のドメインのテキストから同義語候補を取り出すために色々検証した話 - Retrieva TECH BLOG

こんにちは。リサーチャーの勝又です。私はレトリバで自然言語処理、とくに要約や文法誤り訂正に関する研究の最新動向の調査・キャッチアップなどを行っております。今回の記事では、特定のドメインのテキストから同義語候補を取り出そうと色々試みた結果をまとめました。特定のドメインのテキストから同義語候補を取り出したい問題設定評価について分散表現獲得手法 BLINK LUKE 検証実験設定分散表現獲得手法詳細データ検証の評価方法結果まとめ特定のドメインのテキストから同義語候補を取り出したい最近は自然言語処理の分野でも大規模ニューラルネットワークを用いた手法が話題となっています。とくにChatGPTやそれに関連する話題は至る所で耳にします。それはそれとして、自然言語処理の現場では同義語辞書が欲しい状況はまだまだ存在すると思います。とくに、特定の狭いドメインのテキストの場合

gengohouse 2023/03/07

リンク

BERTを用いた教師なし文表現 - Retrieva TECH BLOG

こんにちは。レトリバの飯田(@meshidenn)です。TSUNADE事業部研究チームのリーダーをしており、マネジメントや論文調査、受託のPOCを行なっています。今回は、教師なしの文表現作成手法SimCSEを紹介します。背景・概要手法要因実験 NLIタスクによる実験クラスタリングによる実験終わりに背景・概要自然言語処理は、昨今様々な領域へ応用することが期待されていますが、特に企業での応用においては、ラベル設計が出来ず、教師あり手法が使えない場面に遭遇することが多々あります。そんな場面で、きっと助けになってくれるのが教師なし手法です。特に、文の類似度については、様々なタスクやデータ作成に際して便利に使える場合があります。近年、BERTなどの大規模事前学習済み言語モデルが出てきていましたが、教師なしの文類似度タスクの場合、BERTを使って単語をベクトルに変換し、そのベクトル

gengohouse 2021/10/12

リンク

ACL2021のBest PaperのVOLTを日本語文書分類で試してみた結果...！ - Retrieva TECH BLOG

こんにちは。リサーチャーの勝又です。私はレトリバで自然言語処理、とくに要約や文法誤り訂正に関する研究の最新動向の調査・キャッチアップなどを行っております。今回の記事では、先日開催された自然言語処理のトップカンファレンスである、ACL-IJCNLP2021でBest Paperとなった、VOLT（VOcabulary Learning approach via optimal Transport）を日本語文書分類で試してみた話をします。概要 VOLTとは？ VOLTの概要 VOLT内部の尺度であるMUVについて VOLTのアルゴリズム実験実験設定日本語文書分類タスクについて分類モデルのハイパーパラメーターについて VOLTのハイパーパラメーターについて実験結果 VOLTを使用しなかった場合と使用した場合の比較 VOLTを使用せずに最適な語彙サイズを決めるまとめ概要一般

gengohouse 2021/09/01

リンク

TransformersのPipelinesで日本語固有表現抽出 - Retrieva TECH BLOG

こんにちは。TSUNADE事業部研究チームリサーチャーの坂田です。本記事では、Hugging Face 社が開発しているTransf ormersのPipelinesという仕組みを使って日本語の固有表現抽出を行う方法をご紹介します。 Transf ormersとは？日本語学習済み言語モデル Pipelines Trainer 固有表現抽出とは？実際に日本語NERTを試してみる必要な各種依存ライブラリのインストール使用するデータ日本語固有表現抽出データセットでのFine-tuning Pipelinesを使った固有表現抽出実行例おわりに参考 Transf ormersとは？ Transf ormersはHuggingFace社が公開しているPython用ライブラリで、BERTを始めとするTransf ormer系の言語モデルを使用する際のデファクトスタンダードになっています。また、最

gengohouse 2021/08/31

リンク

日本語話し言葉BERTを作成、公開します！ - Retrieva TECH BLOG

こんにちは。カスタマーサクセス部リサーチャーの勝又です。私はレトリバで自然言語処理、とくに要約や文法誤り訂正に関する研究の最新動向の調査・キャッチアップなどを行っております。今回の記事では、国立国語研究所様との共同研究で作成した日本語話し言葉BERTとその利用方法について紹介します。概要 BERTの簡単な説明話し言葉BERT作成方法書き言葉BERTの文法を表現する部分のみをCSJで追加学習書き言葉BERTに対して、話し言葉データを用いた分野適応実験文法を表現する部分のみを追加学習することの有効性の確認話し言葉データを用いた分野適応を行うことの有効性の確認日本語話し言葉BERTの公開ご利用方法まとめ概要近年、自然言語処理の分野ではBERT（Bidirectional Encoder Representations from Transf ormers）と呼ばれるモ

gengohouse 2021/04/02

リンク

とりあえず動かしてみる自然言語処理入門　~ BERT MLM 編 ~ - Retrieva TECH BLOG

こんにちは。カスタマーサクセス部　研究チームリサーチャーの坂田です。レトリバでは、主にPoCやPoC支援ツールの開発、話し言葉関連の研究に取り組んでいます。今回は、最近自然言語処理に興味を持ち始めた方に向けてPythonを使ってBERTを試す方法をご紹介します。 BERTとは？ BERT自体に関しては、Web上に分かりやすい解説記事が既に多く存在していますので、ごく簡単な説明とさせて頂きます。 BERTは、2018年の10月にGoogleから発表され、2019年の6月のNAACL 2019に採択されました。大規模な文書群から、それぞれの語彙がどのような使われ方をしているのかを統計的な言語モデルの学習を行います。 BERTでは、言語モデルの学習に、以下の2つのタスクを解きます Masked Language Model (MLM) 文書中の単語をランダムに隠し、それが何なのかを当てるタ

gengohouse 2020/11/27

リンク

はてなブックマーク

タグ

ブックマーク / tech.retrieva.jp (7)

お知らせ

今週のはてなブックマーク数ランキング（2024年9月第4週）

今週のはてなブックマーク数ランキング（2024年9月第3週）

今週のはてなブックマーク数ランキング（2024年9月第2週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス