タグ

関連タグで絞り込む (0)

  • 関連タグはありません

タグの絞り込みを解除

自然言語処理に関するgt-r-blazeのブックマーク (3)

  • GiNZA - Japanese NLP Library

    Skip to the content. GiNZAの公開ページ What’s new! GiNZA v5.2.0をリリースしました (2024.03.31) 日語の節認定のためのAPIを追加 (experimental) ja_ginza_bert_largeのβ版を公開中 cl-tohoku/bert-large-japanese-v2をベースモデルに採用 精度が大幅に向上(LAS=0.938, UAS=0.949, UPOS=0.983, ENE=0.708) CUDAに対応し8GB以上のRAMを搭載したGPU環境、または、M1・M2などApple Silicon環境の利用を推奨 ginzaコマンドで日語以外を含む全てのspaCyモデルが利用可能に ginza -m en_core_web_md の形でモデル名を指定することでCoNLL-U出力ツールとして利用可能 ginzaコマ

  • 【Python】GiNZA: 日本語自然言語処理オープンソースライブラリ - Qiita

    はじめに 3年前に大学の研究で自然言語処理に使った自然言語フレームがGiNZAでした。 どこまでアップデートされたか興味があるので、調べていきます。 仕組みも論文で説明されているので興味があったら公式サイトから閲覧してみてください!! GiNZA 日語自然言語処理フレームワークで形態素解析器として用いります。日語の解析処理、依存構造(係り受け)解析や固有表現抽出などをすることができます。 また、GiNZAは自然言語処理フレームワークのspaCy形態素解析器のSudachiPyの2つの基盤技術を利用しています。そのため、spaCyと併用して使用することができます。 その他にも様々なプロジェクトが稼働しているようで、その一つとして、HappyDBという不特定多数の人々の協力から成る10万件の幸福な瞬間を収集したDBを作られているようです。 インストール インストールする種類がいくつかあっ

    【Python】GiNZA: 日本語自然言語処理オープンソースライブラリ - Qiita
  • コーパス - Wikipedia

    コーパス(英: corpus)は、言語学において、自然言語処理の研究に用いるため、自然言語の文章を構造化し大規模に集積したもの。構造化し、言語的な情報(品詞、統語構造など)を付与している。言語学以外では「全集」を意味することもあり、言語学でも日語を扱う場合には、「言語全集」「名詞全集」「動詞全集」などと呼ぶとよい[1]。コンピュータ利用が進み、電子化データとして提供されている[2]。 概要[編集] 「身体」を意味する ラテン語: corpus に由来する。複数形は ラテン語: corpora(コーポラ)。英語式複数形とした 英語: corpuses の使用も散見される。 大規模なコーパスの作成には、相当の費用と時間がかかる。使用する文章に関わる著作権など、法的問題が発生するためである。データ作成の手間はあるが、コンピュータ利用により、それ以前に比べ、かなりの労力軽減と多様な構造化が実現し

    コーパス - Wikipedia
  • 1