[B! Python][GINZA] mahler-5のブックマーク

mahler-5 id:mahler-5

PythonとGINZAに関するmahler-5のブックマーク (3)

Python自然言語処理テクニック集【基礎編】
自分がよく使用する日本語自然言語処理のテンプレをまとめたものです。主に自分でコピペして使う用にまとめたものですが、みなさんのお役に立てれば幸いです。環境はPython3系、Google Colaboratory（Ubuntu）で動作確認しています。 Pythonの標準機能とpipで容易にインストールできるライブラリに限定しています。機械学習、ディープラーニングは出てきません！テキストデータの前処理が中心です。前処理系大文字小文字日本語のテキストにも英語が出てくることはあるので。 s = "Youmou" print(s.upper()) # YOUMOU print(s.lower()) # youmou 全角半角日本語だとこちらのほうが大事。全角半角変換のライブラリはいくつかありますが、自分はjaconv派。 MIT Licenseで利用可能です。 import jaco
mahler-5 2021/04/08
GINZA

spaCy

自然言語処理

あとで読む

python
リンク
ja_GinzaとspaCy
オープンソースの自然言語処理ライブラリの代表格はNLTKと呼ばれるフレームワークでした。近年、 Explosion AI 社が開発した Python/Cython で実装されたオープンソースの自然言語処理ライブラリ spaCy が公開されました。MIT ライセンスで利用が可能です。多くの言語をサポートし、学習済みの統計モデルと単語ベクトルが付属しています。研究用ではなく製品作成環境での本番利用を念頭に開発されていることも NLTK などの自然言語処理ライブラリと異なるところです。また、最近までは spaCy の学習済みモデルには日本語に対応したものがなく、バックエンドでMeCab を用いて形態素解析を行っていました。その結果、spaCy を利用して記述された自然言語処理のアプリケーションやライブラリでは日本語の文書を処理することができない状況が続いていました。 2019年4月に、リクル
mahler-5 2021/03/15
GINZA

spaCy

Python
リンク
はじめての自然言語処理 spaCy/GiNZA を用いた自然言語処理 | オブジェクトの広場
前回は BERT についてその概要と使い方を紹介しました。今回は自然言語処理ライブラリである spaCy と spaCy をフロントエンドとする日本語NLPライブラリの GiNZA について紹介します。 1. 始めに本記事では欧米で有名な自然言語処理ライブラリである spaCy とリクルートと国立国語研究所の共同研究成果である日本語NLPライブラリ GiNZA について紹介します。記事の前半では、spaCy と GiNZA の概要と日本語を処理する際の基本的な機能／操作について説明します。後半では、spaCy で提供される文章分類機能について、前回までに紹介した手法も含めて精度を比較してみます。 2. spaCy と GiNZA の概要 spaCy は Explosion AI 社の開発する Python/Cython で実装されたオープンソースの自然言語処理ライブラリで MIT ライセ
mahler-5 2021/02/21
spaCy

python

自然言語処理

形態素解析

GINZA
リンク
1