ブックマーク / tech.retrieva.jp (7)

  • BERTでの語彙追加~add_tokenに気をつけろ!~ - Retrieva TECH BLOG

    こんにちは。レトリバの飯田(@meshidenn)です。TSUNADE事業部 研究チームのリーダーをしており、マネジメントや論文調査、受託のPOCを行なっています。 みなさんは、BERTなどの学習済み言語モデルに対して語彙を追加したくなることはありませんか? 諸々の論文(こちらやこちらやこちら)により、特定ドメインやrare-wordの語彙を追加することによって、性能が上がることが知られています。 そこで、語彙を追加しようと思い、TransformersのTokenizerの仕様を見ると、add_tokens という関数があります。これを使えば、tokenizerに語彙を追加できるので、あとはembedding側にも新しい語彙を受け取れるようにすれば万事解決です! とは、うまくいかないので、今回はこの辺りについて、ちょっとした解説をします。 add_tokensの問題点 なにがうまくいかな

    BERTでの語彙追加~add_tokenに気をつけろ!~ - Retrieva TECH BLOG
  • 特定のドメインのテキストから同義語候補を取り出すために色々検証した話 - Retrieva TECH BLOG

    こんにちは。 リサーチャーの勝又です。 私はレトリバで自然言語処理、とくに要約や文法誤り訂正に関する研究の最新動向の調査・キャッチアップなどを行っております。 今回の記事では、特定のドメインのテキストから同義語候補を取り出そうと色々試みた結果をまとめました。 特定のドメインのテキストから同義語候補を取り出したい 問題設定 評価について 分散表現獲得手法 BLINK LUKE 検証 実験設定 分散表現獲得手法詳細 データ 検証の評価方法 結果 まとめ 特定のドメインのテキストから同義語候補を取り出したい 最近は自然言語処理の分野でも大規模ニューラルネットワークを用いた手法が話題となっています。 とくにChatGPTやそれに関連する話題は至る所で耳にします。 それはそれとして、自然言語処理の現場では同義語辞書が欲しい状況はまだまだ存在すると思います。 とくに、特定の狭いドメインのテキストの場合

    特定のドメインのテキストから同義語候補を取り出すために色々検証した話 - Retrieva TECH BLOG
  • BERTを用いた教師なし文表現 - Retrieva TECH BLOG

    こんにちは。レトリバの飯田(@meshidenn)です。TSUNADE事業部 研究チームのリーダーをしており、マネジメントや論文調査、受託のPOCを行なっています。今回は、教師なしの文表現作成手法SimCSEを紹介します。 背景・概要 手法 要因 実験 NLIタスクによる実験 クラスタリングによる実験 終わりに 背景・概要 自然言語処理は、昨今様々な領域へ応用することが期待されていますが、特に企業での応用においては、ラベル設計が出来ず、教師あり手法が使えない場面に遭遇することが多々あります。そんな場面で、きっと助けになってくれるのが教師なし手法です。特に、文の類似度については、様々なタスクやデータ作成に際して便利に使える場合があります。 近年、BERTなどの大規模事前学習済み言語モデルが出てきていましたが、教師なしの文類似度タスクの場合、BERTを使って単語をベクトルに変換し、そのベクトル

    BERTを用いた教師なし文表現 - Retrieva TECH BLOG
  • ACL2021のBest PaperのVOLTを日本語文書分類で試してみた結果...! - Retrieva TECH BLOG

    こんにちは。 リサーチャーの勝又です。 私はレトリバで自然言語処理、とくに要約や文法誤り訂正に関する研究の最新動向の調査・キャッチアップなどを行っております。 今回の記事では、先日開催された自然言語処理のトップカンファレンスである、ACL-IJCNLP2021でBest Paperとなった、VOLT(VOcabulary Learning approach via optimal Transport)を日語文書分類で試してみた話をします。 概要 VOLTとは? VOLTの概要 VOLT内部の尺度であるMUVについて VOLTのアルゴリズム 実験 実験設定 日語文書分類タスクについて 分類モデルのハイパーパラメーターについて VOLTのハイパーパラメーターについて 実験結果 VOLTを使用しなかった場合と使用した場合の比較 VOLTを使用せずに最適な語彙サイズを決める まとめ 概要 一般

    ACL2021のBest PaperのVOLTを日本語文書分類で試してみた結果...! - Retrieva TECH BLOG
  • TransformersのPipelinesで日本語固有表現抽出 - Retrieva TECH BLOG

    こんにちは。TSUNADE事業部研究チームリサーチャーの坂田です。 記事では、Hugging Face 社が開発しているTransformersのPipelinesという仕組みを使って日語の固有表現抽出を行う方法をご紹介します。 Transformersとは? 日語学習済み言語モデル Pipelines Trainer 固有表現抽出とは? 実際に日語NERTを試してみる 必要な各種依存ライブラリのインストール 使用するデータ 日語固有表現抽出データセットでのFine-tuning Pipelinesを使った固有表現抽出 実行例 おわりに 参考 Transformersとは? TransformersはHuggingFace社が公開しているPython用ライブラリで、BERTを始めとするTransformer系の言語モデルを使用する際のデファクトスタンダードになっています。また、最

    TransformersのPipelinesで日本語固有表現抽出 - Retrieva TECH BLOG
  • 日本語話し言葉BERTを作成、公開します! - Retrieva TECH BLOG

    こんにちは。 カスタマーサクセス部リサーチャーの勝又です。 私はレトリバで自然言語処理、とくに要約や文法誤り訂正に関する研究の最新動向の調査・キャッチアップなどを行っております。 今回の記事では、国立国語研究所様との共同研究で作成した日語話し言葉BERTとその利用方法について紹介します。 概要 BERTの簡単な説明 話し言葉BERT作成方法 書き言葉BERTの文法を表現する部分のみをCSJで追加学習 書き言葉BERTに対して、話し言葉データを用いた分野適応 実験 文法を表現する部分のみを追加学習することの有効性の確認 話し言葉データを用いた分野適応を行うことの有効性の確認 日語話し言葉BERTの公開 ご利用方法 まとめ 概要 近年、自然言語処理の分野ではBERT(Bidirectional Encoder Representations from Transformers)と呼ばれるモ

    日本語話し言葉BERTを作成、公開します! - Retrieva TECH BLOG
  • とりあえず動かしてみる自然言語処理入門 ~ BERT MLM 編 ~ - Retrieva TECH BLOG

    こんにちは。カスタマーサクセス部 研究チームリサーチャーの坂田です。 レトリバでは、主にPoCやPoC支援ツールの開発、話し言葉関連の研究に取り組んでいます。 今回は、最近自然言語処理に興味を持ち始めた方に向けてPythonを使ってBERTを試す方法をご紹介します。 BERTとは? BERT自体に関しては、Web上に分かりやすい解説記事が既に多く存在していますので、ごく簡単な説明とさせて頂きます。 BERTは、2018年の10月にGoogleから発表され、2019年の6月のNAACL 2019に採択されました。 大規模な文書群から、それぞれの語彙がどのような使われ方をしているのかを統計的な言語モデルの学習を行います。 BERTでは、言語モデルの学習に、以下の2つのタスクを解きます Masked Language Model (MLM) 文書中の単語をランダムに隠し、それが何なのかを当てるタ

    とりあえず動かしてみる自然言語処理入門 ~ BERT MLM 編 ~ - Retrieva TECH BLOG
  • 1