petite_blueのブックマーク - はてなブックマーク

はじめての自然言語処理 | オブジェクトの広場

ウェブ、メール、SNS 等、私たちの周りには自然言語で記述された文章が溢れていて、様々な情報や価値が含まれています。しかし、その量は膨れあがり、人間が目視で内容を確認し対応することは困難になってきています。自然言語処理技術で、これら膨大な文章を人手によらず判断、抽出、検索、変換し、適切なアクションにつなげることができます。そして深層学習の登場により、その性能が飛躍的に向上していることはウェブの翻訳サイトなどを通じ皆さんも体感していることでしょう。本連載は手を動かしながら自然言語処理技術を学びたい人、システムに組み込んで役立てたい人を対象にしています。 BoW、TF-IDF のような基礎から BERT をはじめとした深層学習を用いた最新手法まで、日本語で動作させるサンプルコードを交えながら紹介していきます。以下はこれまでの連載でカバーされている内容を俯瞰したイメージです。図中の丸数字

petite_blue 2023/05/18

nlp

リンク

はじめての自然言語処理類似文書検索の手法と精度比較 | オブジェクトの広場

自然言語処理とは、人間が自然に使っている英語や日本語などの言語をコンピュータで処理する技術です。自然言語処理でできることには機械翻訳、要約生成、感情分析などがありますが、今回は比較的シンプルな例として類似文書検索に焦点を当ててみたいと思います。類似文書検索はテーマとしては真新しいものではありませんが、本記事では単語の分散表現を用いる手法や Watson Discovery も含めた各種の類似文書検索手法について、日本語データに対して精度比較試験をした結果を紹介します。複数の手法を同一の日本語データで比較した記事はあまり見ないので面白いのではないでしょうか。 1. 始めに本記事では類似文書検索の各手法について、単語の分散表現を用いる手法や Watson Discovery も含めて精度比較試験をした結果を紹介します。まず各手法の概要を紹介しますが、ここでは数学的な細かい説明などは省くので概

petite_blue 2023/05/18

リンク

はじめての自然言語処理 T5 によるテキスト生成の検証 | オブジェクトの広場

前回はテキストマイニングの手法と OSS を用いた実践について紹介しました。今回は、Google の T5(Text-to-Text Transfer Transf ormer) によるテキスト生成について、学習や推論のコード例と実験結果を交えてご紹介します。 1. はじめに本記事では Google の T5(Text-to-Text Transfer Transf ormer) 1によるテキスト生成について、学習や推論のコード例と実験結果を交えてご紹介します。実験としては livedoor ニュースコーパス2での文章分類、やさしい日本語コーパス3及びやさしい日本語拡張コーパス4を用いたやさしい日本語変換を行いました。今回も Google Colaboratory で動かすことを想定したコードスニペットを入れていきますので、実際に動かしたり対象を変えてみたりして試して頂けると良いかと思います

petite_blue 2023/01/28

transformer

リンク

はじめての自然言語処理 Switch Transformer の検証 | オブジェクトの広場

Transf ormer のパラメータ数を増やしながらも必要な計算量の増加を抑えることができる Switch Transfomer のご紹介です。Google さんのように1兆6千億パラメータは無理ですが、規模が小さいモデルでも効果が見込めるようなので、実際に動かして確認してみたいと思います。 1. はじめに今回は今年1月に発表された Switch Transf ormer 1 の話です。 Transf ormer というモデルはそのサイズに応じて性能が伸びることが良く知られています2。近年どんどん巨大化しており、 Switch Transf ormer ではついにパラメータ数が1兆6千億個に達しました3。この連載ではこの手の巨大なモデルは「スゴイのはわかるんですけれど、デモをつつくぐらいで手元で動かせないなぁ～。」とスルーしていたのですが、 Switch Transf ormer はパラメータ

petite_blue 2023/01/28

リンク

はじめての自然言語処理 Fusion-In-Decoder でクイズに答えるモデルを作る | オブジェクトの広場

今回は Fusion-In-Decoder を使ってクイズに答えるモデルを作ります。以前から Wikipedia 等の外部情報を参照できるテキスト生成モデルを試してみたいと思っていました。Fusion-In-Decoder の発表は 2020 年なので少し前のモデルですが、T5 ベースで手軽に試せるサイズ感ですので、日本語で試してみましょう。 1. はじめに今回紹介する Fusion-In-Decoder（以下、FiD ）1 は Meta AI (当時は Facebook AI Research) が発表した Open Domain question Answering タスクを解くテキスト生成モデルです。じつは、以前から外部情報を参照できるテキスト生成モデルを試してみたくて2、 Google の RETRO3 の論文を読んでたんです。なのですが、外部情報のサイズ感が 1000 B

petite_blue 2022/09/09

nlp

リンク

[ 技術講座 ] Domain-Driven Designのエッセンス第1回｜オブジェクトの広場

DDD難民に捧げる Domain-Driven Designのエッセンス第1回　ドメイン駆動設計とは株式会社オージス総研アドバンストモデリングソリューション部佐藤匡剛 Domain-Driven Design Tackling Complexity in the Heart of Software Eric Evans 著 Addison-Wesley, 59.99ドル 560ページ ISBN: 0-321-12521-5 「ドメインモデリング」は、アプリケーション開発において最も重要な部分だとされています。しかしその割には、フレームワークの使い方やアーキテクチャの設計方法など技術に関する解説書はたくさんあるものの、ドメインモデリングそのものを扱った書籍はほとんど無かったと言ってもいいでしょう。Eric Evansの『Domain-Driven Design』（以降DDD）は、「

petite_blue 2016/10/09

リンク

はてなブックマーク

タグ

ブックマーク / www.ogis-ri.co.jp (6)

お知らせ

月間はてなブックマーク数ランキング（2025年3月）

今週のはてなブックマーク数ランキング（2025年3月第5週）

今週のはてなブックマーク数ランキング（2025年3月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス