gengohouseのブックマーク - はてなブックマーク

はじめての自然言語処理 spaCy/GiNZA を用いた自然言語処理 | オブジェクトの広場

前回は BERT についてその概要と使い方を紹介しました。今回は自然言語処理ライブラリである spaCy と spaCy をフロントエンドとする日本語NLPライブラリの GiNZA について紹介します。 1. 始めに本記事では欧米で有名な自然言語処理ライブラリである spaCy とリクルートと国立国語研究所の共同研究成果である日本語NLPライブラリ GiNZA について紹介します。記事の前半では、spaCy と GiNZA の概要と日本語を処理する際の基本的な機能／操作について説明します。後半では、spaCy で提供される文章分類機能について、前回までに紹介した手法も含めて精度を比較してみます。 2. spaCy と GiNZA の概要 spaCy は Explosion AI 社の開発する Python/Cython で実装されたオープンソースの自然言語処理ライブラリで MIT ライセ

gengohouse 2023/04/14

リンク

はじめての自然言語処理 BRIO による抽象型要約の検証 | オブジェクトの広場

今回は BRIO を使って抽象型要約に挑戦してみようと思います。 BRIO は特定のモデルに依存しない手法で、論文では PEGASUS と BART を使って実験をしています。今回は T5 を使って BRIO を試し、素の T5 と比較してみましょう。 1. はじめに今回は BRIO1 を使って抽象型要約に挑戦してみようと思います。そういえば、この連載で要約モデルを扱うのは初めてですね。要約には大きく分けて抽出型と抽象型の二種類があります。簡単に説明すると、抽出型は長い文章全体から重要そうな文をつまみ食いして短くする手法、抽象型は Seq2seq モデルで文章全体の意味をとらえた短い要約文を生成する手法です。過去に抽出型要約は LexRank2 や劣モジュラ関数を使った手法3などを試したことがある(この連載の記事にはしてません)のですが、抽象型要約は試したことがなく、やってみたい

gengohouse 2022/10/31

“はじめての自然言語処理第23回 BRIO による抽象型要約の検証”

リンク

はじめての自然言語処理文章ベクトル化モデルと ResNet50 で CLIP 風のモデルを作る | オブジェクトの広場

今回は前回の文章ベクトル化モデルを使って CLIP 風のモデルを作ります。CLIP は画像とテキストを同じ多次元ベクトル空間にエンコードするモデルで、テキストによる画像検索や Zero shot での画像分類が可能です。簡素化された（非公式）実装が公開されているので、日本語で動かして見ましょう。 1. はじめに今回は前回の文章ベクトル化モデルを使って CLIP 風のモデルを作ります。CLIP1 は OpenAI が発表した画像とテキストを同一多次元ベクトル空間にエンコードするモデルで、テキストによる画像検索や Zero shot での画像分類が可能です。オリジナルの CLIP は (画像,テキスト) の 4 億ペアを使い、バッチサイズ 32,768 でスクラッチから学習したようなので、とても Colab では動かせません。また公式実装2も公開されていますが、こちらは事前学習済みのモデル

gengohouse 2022/03/05

リンク

はじめての自然言語処理 ByT5 と Charformer の検証 | オブジェクトの広場

トークナイザを使わない自然言語処理モデルである ByT5 と Charformer のご紹介です。従来の自然言語処理では多くの場合で文章を単語（あるいはサブワード）単位に分かち書きして処理しましたが、今回のモデルは直接、生のテキストを処理します。それでは実際に動かして単語（サブワード）ベースのモデルと比較してみましょう。 1. はじめに今回は今年5月と6月に発表された ByT51 と Charformer2 の紹介をしたいと思います。一本の記事で 2 つのモデルを扱うのは、この連載では珍しいのですが、この二つはよく似ているというか、Charformer は「ByT5 にもう一工夫加えたもの」くらいの認識なので、一度にさばいてしまいましょうということで。さて、この二つのモデルの特徴ですが「分かち書きをしない」という点に尽きます。今まで、この連載では BERT や T5 等の Tran

gengohouse 2022/02/16

リンク

はじめての自然言語処理類似文書検索の手法と精度比較 | オブジェクトの広場

自然言語処理とは、人間が自然に使っている英語や日本語などの言語をコンピュータで処理する技術です。自然言語処理でできることには機械翻訳、要約生成、感情分析などがありますが、今回は比較的シンプルな例として類似文書検索に焦点を当ててみたいと思います。類似文書検索はテーマとしては真新しいものではありませんが、本記事では単語の分散表現を用いる手法や Watson Discovery も含めた各種の類似文書検索手法について、日本語データに対して精度比較試験をした結果を紹介します。複数の手法を同一の日本語データで比較した記事はあまり見ないので面白いのではないでしょうか。 1. 始めに本記事では類似文書検索の各手法について、単語の分散表現を用いる手法や Watson Discovery も含めて精度比較試験をした結果を紹介します。まず各手法の概要を紹介しますが、ここでは数学的な細かい説明などは省くので概

gengohouse 2022/01/20

リンク

はじめての自然言語処理 spaCy 3.0 で Transformer を利用する | オブジェクトの広場

今更ですが今年の2月に spaCy 3.0 が公開されました。 3.0 で導入された新機能の中で目玉と言えるのは、やはり Hugging Face Transf ormers (以下、単にTransf ormers) のサポートや PyTorch, Tensorflow との連携になるでしょう。今回はその辺りを実際に学習を動かしながら紹介したいと思います。 1. はじめに今回は今年の2月に公開された spaCy 3.0 の話です。 spaCy は第4回でも紹介しましたが、研究者向けというよりは自然言語処理アプリ開発者向けのオープンソース自然言語処理ライブラリになります。日本語を含めた様々な言語の学習済みモデルが存在しており、 spaCy をインストールして、学習済みモデルをダウンロードするだけで、分かち書き、品詞や依存関係の推定、単語や文の類似度の判定など様々な機能を使用することができます。

gengohouse 2021/06/29

リンク

はじめての自然言語処理 T5 によるテキスト生成の検証 | オブジェクトの広場

前回はテキストマイニングの手法と OSS を用いた実践について紹介しました。今回は、Google の T5(Text-to-Text Transfer Transf ormer) によるテキスト生成について、学習や推論のコード例と実験結果を交えてご紹介します。 1. はじめに本記事では Google の T5(Text-to-Text Transfer Transf ormer) 1によるテキスト生成について、学習や推論のコード例と実験結果を交えてご紹介します。実験としては livedoor ニュースコーパス2での文章分類、やさしい日本語コーパス3及びやさしい日本語拡張コーパス4を用いたやさしい日本語変換を行いました。今回も Google Colaboratory で動かすことを想定したコードスニペットを入れていきますので、実際に動かしたり対象を変えてみたりして試して頂けると良いかと思います

gengohouse 2020/12/16

リンク

はじめての自然言語処理 Sentence BERT による類似文章検索の検証 | オブジェクトの広場

今回は初心に帰って類似文章検索です。連載の第1回で扱ったネタですが、 BERT を用いて再挑戦してみましょう。BERT のモデルは Hagging Face Transf ormers の事前学習済みモデルを用いるので、お手軽に試せるかと思います。手法としては Sentence BERT を用い、おまけとして Poor Man's BERT についても紹介します。（本記事公開後に公開されたデータセットで再検証しています。最新情報は第18回をご覧ください。 2021.12.21 追記） 1. はじめに本記事では Sentence BERT 1による類似文章検索について、学習や推論のコード例と実験結果を交えてご紹介します。前々から Sentence BERT を試したいと考えていたものの、教師あり学習に必要な日本語の類似文データが用意できずにいました。その後、画像キャプションのデータセッ

gengohouse 2020/07/18

類似性

リンク

はじめての自然言語処理 | オブジェクトの広場

ウェブ、メール、SNS 等、私たちの周りには自然言語で記述された文章が溢れていて、様々な情報や価値が含まれています。しかし、その量は膨れあがり、人間が目視で内容を確認し対応することは困難になってきています。自然言語処理技術で、これら膨大な文章を人手によらず判断、抽出、検索、変換し、適切なアクションにつなげることができます。そして深層学習の登場により、その性能が飛躍的に向上していることはウェブの翻訳サイトなどを通じ皆さんも体感していることでしょう。本連載は手を動かしながら自然言語処理技術を学びたい人、システムに組み込んで役立てたい人を対象にしています。 BoW、TF-IDF のような基礎から BERT をはじめとした深層学習を用いた最新手法まで、日本語で動作させるサンプルコードを交えながら紹介していきます。以下はこれまでの連載でカバーされている内容を俯瞰したイメージです。図中の丸数字

gengohouse 2020/06/05

入門

リンク

はてなブックマーク

タグ

ブックマーク / www.ogis-ri.co.jp (9)

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第4週）

今週のはてなブックマーク数ランキング（2024年7月第3週）

今週のはてなブックマーク数ランキング（2024年7月第2週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス