gengohouseのブックマーク / 2021年2月3日

gengohouse id:gengohouse

2021年2月3日のブックマーク (4件)

Python向け自然言語処理ライブラリ「spaCy 3.0.0」がリリース
「spaCy 3.0.0」では、新機能としてマルチタスク学習をサポートするトランスフォーマーベースのパイプラインや、18以上の言語用に再トレーニングされたモデルファミリーと5つのトランスフォーマーベースパイプラインを含む計58のトレーニング済みパイプラインが追加されている。ほかにも、サポートされているすべての言語用に再トレーニングされたパイプラインとともに、マケドニア語とロシア語用の新しいコアパイプライン、新しいトレーニングワークフローと構成システム、PyTorch、TensorFlow、MXNetといった機械学習フレームワークを使用したカスタムモデル、前処理からモデル展開までのエンドツーエンドのマルチステップワークフローを管理するためのspaCy プロジェクトが実装された。機能改善としては、データバージョン管理（DVC）、Streamlit、Weights＆Biases、Rayなどとの
gengohouse 2021/02/03
リンク
自然言語処理のかさ増し手法 Easy Data Augmentation の日本語版を実装する - Qiita
このEasy Data Augmentationをgitで公開されている英語版の実装コードをベースに、日本語版を実装してみました。【参考コード】 github eda_nlp 【参考記事】日本語自然言語処理のData Augmentation 自然言語処理のData Augmentation手法 (Easy Data Augmentation) 日本語版の実装環境：Google Colaboratory 下準備同義語検索用関数の定義同義語の検索が必要となる手法があるため、日本語WordNetをDLして同義語検索用関数を定義します。関数の内容詳細については過去の記事を参照ください。日本語WordNetを使用した類義語検索 / リスト化 import gzip import shutil import sqlite3 import pandas as pd import rando
gengohouse 2021/02/03
リンク
「サラリーマン川柳」をテキストマイニングしてみた。（試論） - ideagram
毎年、哀愁ただようおじさんの姿を思い起こさせる悲哀の文芸コンクール「サラリーマン川柳」。今年もそろそろ募集が開始する時期です。優秀作品には、その年のホットなキーワードが詠み込まれることが多い印象がありますので、入選する歌の17文字を予想してみます。サラリーマン川柳を分析（テキストマイニング）してみたまずは、先人たちの詠んだ歌について、過去の傾向を調べてみようと思い、サラリーマン川柳の過去作品をテキストマイニングしてみました。テキストマイニングとは、文章の中に含まれる言葉を品詞に分解することで、特徴的なキーワードを抽出して、そのキーワード間の関係性を見ることができる分析です。たとえば、「我輩は可愛い猫である。名前はまだ無い。」という一文を品詞に分解すると、「我輩（名詞）／は（助詞）／可愛い（形容詞）／猫（名詞）／で（助動詞）／ある。（助動詞）／名前（名詞）／は（助詞）／まだ（副詞
gengohouse 2021/02/03
リンク
GPT-2におけるテキスト生成
はじめにMachine Learning部門の江間見です。ストックマークでは、自然言語処理技術の研究開発を行っています。昨今、OpenAIからGPT-3が発表され、生成系モデルが大きな注目を集めています。そこで、本記事では、弊社で作成している生成系モデルの紹介をいたします。自然言語処理におけるテキスト生成自然言語処理（NLP）は、人間の言語（自然言語）とコンピュータの相互理解、特に大量の自然言語データをコンピュータに処理および分析させるための研究分野です。今回紹介するテキスト生成は、この自然言語処理の研究分野の一つです。テキスト生成の応用例の一つは、スマートフォンのキーボードでの次の単語の予測です。このタスクはまさに言語モデルが行うことと同様です。言語モデルは、単語のリストを受け取り、次の単語を予測します。図1の例では、言語モデルが「今日は」という単語を受け取り、次の単語で
gengohouse 2021/02/03
リンク
- 2021年2月5日
- 2021年2月3日
- 2021年2月2日