タグ

ブックマーク / kajyuuen.hatenablog.com (4)

  • 辞書とルールで固有表現抽出器を作れるライブラリfunerを公開しました - 農園

    概要 こんにちは@kajyuuenです。 辞書とルールによる固有表現抽出(Named Entity Recognition; NER)を実現するライブラリfunerを作りました。 github.com 辞書とルールによって抽出した固有表現をこんな感じで確認できます。 tokens 東京 出身 の 吉田 は 4 月 から JR で 働く 。 ============================================================================================= gold_label B-LOC O O B-PER O B-DATE I-DATE O B-ORG O O O ------------------------------------------------------------------------------

    辞書とルールで固有表現抽出器を作れるライブラリfunerを公開しました - 農園
  • 日本語文書分類・固有表現抽出タスクに対するData Augmentationの性能検証 - 農園

    概要 こんにちは@kajyuuenです。 記事では日語データセットに対して、Data Augmentation(データ拡張)を行い、モデルの性能が向上するか検証します。 今回は文書分類と固有表現抽出の2つのタスクに対して、実験を行いました。 その結果、文書分類タスクでは学習に用いた文章数が500文, 2000文, 5000文のどの場合においても性能が向上し、Data Augmentationなしのモデルと比べて、最大2.5ポイントAccuracyが向上しました。 固有表現抽出タスクでは50文, 150文, 500文に対してData Augmentationの効果を検証しました。 文章数によっては性能が下がった場合もありましたが、Data Augmentationによって最も性能が向上したケースではF1が2.7ポイント向上しました。 データ拡張に用いたライブラリdaajaやData Au

    日本語文書分類・固有表現抽出タスクに対するData Augmentationの性能検証 - 農園
  • 日本語自然言語処理のData Augmentationライブラリdaajaを作りました - 農園

    概要 こんにちは@kajyuuenです。 日語自然言語処理のData Augmentationライブラリdaajaを作成しました。 この記事ではdaajaが実装しているData Augmentation手法についての解説とその使い方について紹介します。 ソースコードは以下のリポジトリで公開しています。 github.com また、このライブラリはPyPIに公開しているのでpip install daajaでインストールが可能です。 はじめに Data Augmentationとは Data Augmentationとは元のデータから新しいデータを生成し、データ数を増やす手法です。 日語ではデータ拡張という名前で知られています。 ラベル付きデータを擬似的に増やすことによって、アノテーションコストを必要とせずにモデルの汎化性能や精度の向上が期待できます。 対応している手法 現在daajaは

    日本語自然言語処理のData Augmentationライブラリdaajaを作りました - 農園
  • 部分的アノテーションが利用可能な固有表現抽出モデル Fuzzy-LSTM-CRFの実装 - 農園

    概要 固有表現タスクにおいて重要な役割を持つCRF(条件付き確率場)ですが,CRFでは全ての単語に対してラベルが付けられている必要があるため,アノテーションコストが高くなる傾向があります.そこで,今回は部分的アノテーションコーパスを利用可能な固有表現抽出モデルFuzzy-LSTM-CRFを実装し,その性能について実験してみました. CRFとFuzzy CRF まず通常のCRFとFuzzy CRF(Partial CRF)の違いについて説明します. 通常のCRFでは,系列に対応するラベル列の確率が最大になるように学習を行います. この確率は系列に対応するラベル列のスコアをと定義すると以下のように定義されます. 損失関数は上式から対数を取った となり,これが最大になるように学習を行うのが通常のCRFです. しかし,この損失関数ではラベル列に少しでも欠損があると学習を行うことが出来ません.そこで

  • 1