[B! 自然言語処理] gt-r-blazeのブックマーク

gt-r-blaze id:gt-r-blaze

自然言語処理に関するgt-r-blazeのブックマーク (3)

GiNZA - Japanese NLP Library
Skip to the content. GiNZAの公開ページ What’s new! GiNZA v5.2.0をリリースしました (2024.03.31) 日本語の節認定のためのAPIを追加 (experimental) ja_ginza_bert_largeのβ版を公開中 cl-tohoku/bert-large-japanese-v2をベースモデルに採用精度が大幅に向上（LAS=0.938, UAS=0.949, UPOS=0.983, ENE=0.708） CUDAに対応し8GB以上のRAMを搭載したGPU環境、または、M1・M2などApple Silicon環境の利用を推奨 ginzaコマンドで日本語以外を含む全てのspaCyモデルが利用可能に ginza -m en_core_web_md の形でモデル名を指定することでCoNLL-U出力ツールとして利用可能 ginzaコマ
gt-r-blaze 2024/06/10
自然言語処理
リンク
【Python】GiNZA: 日本語自然言語処理オープンソースライブラリ - Qiita
はじめに 3年前に大学の研究で自然言語処理に使った自然言語フレームがGiNZAでした。どこまでアップデートされたか興味があるので、調べていきます。仕組みも論文で説明されているので興味があったら公式サイトから閲覧してみてください！！ GiNZA 日本語自然言語処理フレームワークで形態素解析器として用いります。日本語の解析処理、依存構造（係り受け）解析や固有表現抽出などをすることができます。また、GiNZAは自然言語処理フレームワークのspaCyと形態素解析器のSudachiPyの2つの基盤技術を利用しています。そのため、spaCyと併用して使用することができます。その他にも様々なプロジェクトが稼働しているようで、その一つとして、HappyDBという不特定多数の人々の協力から成る10万件の幸福な瞬間を収集したDBを作られているようです。インストールインストールする種類がいくつかあっ
gt-r-blaze 2024/06/10
自然言語処理
リンク
コーパス - Wikipedia
コーパス（英: corpus）は、言語学において、自然言語処理の研究に用いるため、自然言語の文章を構造化し大規模に集積したもの。構造化し、言語的な情報（品詞、統語構造など）を付与している。言語学以外では「全集」を意味することもあり、言語学でも日本語を扱う場合には、「言語全集」「名詞全集」「動詞全集」などと呼ぶとよい[1]。コンピュータ利用が進み、電子化データとして提供されている[2]。概要[編集] 「身体」を意味するラテン語: corpus に由来する。複数形はラテン語: corpora（コーポラ）。英語式複数形とした英語: corpuses の使用も散見される。大規模なコーパスの作成には、相当の費用と時間がかかる。使用する文章に関わる著作権など、法的問題が発生するためである。データ作成の手間はあるが、コンピュータ利用により、それ以前に比べ、かなりの労力軽減と多様な構造化が実現し
gt-r-blaze 2021/01/29
自然言語処理
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx