2021年2月3日のブックマーク (4件)

  • Python向け自然言語処理ライブラリ「spaCy 3.0.0」がリリース

    spaCy 3.0.0」では、新機能としてマルチタスク学習をサポートするトランスフォーマーベースのパイプラインや、18以上の言語用に再トレーニングされたモデルファミリーと5つのトランスフォーマーベースパイプラインを含む計58のトレーニング済みパイプラインが追加されている。 ほかにも、サポートされているすべての言語用に再トレーニングされたパイプラインとともに、マケドニア語とロシア語用の新しいコアパイプライン、新しいトレーニングワークフローと構成システム、PyTorch、TensorFlow、MXNetといった機械学習フレームワークを使用したカスタムモデル、前処理からモデル展開までのエンドツーエンドのマルチステップワークフローを管理するためのspaCyプロジェクトが実装された。 機能改善としては、データバージョン管理(DVC)、Streamlit、Weights&Biases、Rayなどとの

    Python向け自然言語処理ライブラリ「spaCy 3.0.0」がリリース
  • 自然言語処理のかさ増し手法 Easy Data Augmentation の日本語版を実装する - Qiita

    このEasy Data Augmentationをgitで公開されている英語版の実装コードをベースに、日語版を実装してみました。 【参考コード】 github eda_nlp 【参考記事】 日語自然言語処理のData Augmentation 自然言語処理のData Augmentation手法 (Easy Data Augmentation) 日語版の実装 環境:Google Colaboratory 下準備 同義語検索用関数の定義 同義語の検索が必要となる手法があるため、日語WordNetをDLして同義語検索用関数を定義します。関数の内容詳細については過去の記事を参照ください。 日語WordNetを使用した類義語検索 / リスト化 import gzip import shutil import sqlite3 import pandas as pd import rando

    自然言語処理のかさ増し手法 Easy Data Augmentation の日本語版を実装する - Qiita
  • 「サラリーマン川柳」をテキストマイニングしてみた。(試論) - ideagram

    毎年、哀愁ただようおじさんの姿を思い起こさせる悲哀の文芸コンクール「サラリーマン川柳」。今年もそろそろ募集が開始する時期です。 優秀作品には、その年のホットなキーワードが詠み込まれることが多い印象がありますので、入選する歌の17文字を予想してみます。 サラリーマン川柳を分析(テキストマイニング)してみた まずは、先人たちの詠んだ歌について、過去の傾向を調べてみようと思い、 サラリーマン川柳の過去作品をテキストマイニングしてみました。 テキストマイニングとは、文章の中に含まれる言葉を品詞に分解することで、特徴的なキーワードを抽出して、そのキーワード間の関係性を見ることができる分析です。 たとえば、「我輩は可愛いである。名前はまだ無い。」という一文を品詞に分解すると、「我輩(名詞)/は(助詞)/可愛い(形容詞)/(名詞)/で(助動詞)/ある。(助動詞)/名前(名詞)/は(助詞)/まだ(副詞

    「サラリーマン川柳」をテキストマイニングしてみた。(試論) - ideagram
  • GPT-2におけるテキスト生成

    はじめにMachine Learning部門の江間見です。ストックマークでは、自然言語処理技術の研究開発を行っています。 昨今、OpenAIからGPT-3が発表され、生成系モデルが大きな注目を集めています。 そこで、記事では、弊社で作成している生成系モデルの紹介をいたします。 自然言語処理におけるテキスト生成自然言語処理(NLP)は、人間の言語(自然言語)とコンピュータの相互理解、特に大量の自然言語データをコンピュータに処理および分析させるための研究分野です。 今回紹介するテキスト生成は、この自然言語処理の研究分野の一つです。 テキスト生成の応用例の一つは、スマートフォンのキーボードでの次の単語の予測です。このタスクはまさに​​言語モデルが行うことと同様です。言語モデルは、単語のリストを受け取り、次の単語を予測します。 図1の例では、言語モデルが「今日は」という単語を受け取り、次の単語で

    GPT-2におけるテキスト生成