Qtライセンス Qtツールを最大限に活用し、商用ライセンス、サブスクリプション、またはオープンソースのオプションをご利用いただけます。
Qtライセンス Qtツールを最大限に活用し、商用ライセンス、サブスクリプション、またはオープンソースのオプションをご利用いただけます。
リクルートはこのほど、同社のAI研究機関・Megagon Labsが開発したPython向け日本語自然言語処理オープンソースライブラリ「GiNZA」(ギンザ)と、国立国語研究所と共同で研究してきた学習済みモデルを組み込んだ「GiNZA日本語Universal Dependencies(UD)モデル」をGitHubで公開した。 GiNZAは、複雑な導入作業不要で、ワンステップでモジュールとモデルファイルの導入が可能なライブラリ。エンジニアやデータサイエンティストが自然言語処理を簡単に応用できることを目指して開発したという。 自然言語処理ライブラリ「spaCy」をフレームワークとして利用し、オープンソース形態素解析器「SudachiPy」を組み込んでおり、「産業用途に耐える性能を備えている」としている。spaCyの国際化機能により、複数の欧米言語と日本語の言語リソースを切り替えて使用することも
Skip to the content. GiNZAの公開ページ What’s new! GiNZA v5.2.0をリリースしました (2024.03.31) 日本語の節認定のためのAPIを追加 (experimental) ja_ginza_bert_largeのβ版を公開中 cl-tohoku/bert-large-japanese-v2をベースモデルに採用 精度が大幅に向上(LAS=0.938, UAS=0.949, UPOS=0.983, ENE=0.708) CUDAに対応し8GB以上のRAMを搭載したGPU環境、または、M1・M2などApple Silicon環境の利用を推奨 ginzaコマンドで日本語以外を含む全てのspaCyモデルが利用可能に ginza -m en_core_web_md の形でモデル名を指定することでCoNLL-U出力ツールとして利用可能 ginzaコマ
Not your computer? Use a private browsing window to sign in. Learn more about using Guest mode
Budou is in maintenance mode. The development team is focusing on developing its successor, BudouX English text has many clues, like spacing and hyphenation, that enable beautiful and legible line breaks. Some CJK languages lack these clues, and so are notoriously more difficult to process. Without a more careful approach, breaks can occur randomly and usually in the middle of a word. This is a lo
(この記事は 2008年03月14日に別のブログに投稿した記事を移動・編集したものです。) インターネット上の日本語を扱っていると、全角半角が統一されていない事による表記揺れをなんとかしたい場面に出くわします。半角で書かれた iPod も、全角で書かれたiPodも同じものとして扱いたいときや、あるいは単に見た目がきれいになるように、英数字は半角に、カタカナは全角にそろえたい、という場合です。 Python では setomitsさんによる zenhan.py を使うと、文字種ごとに全角半角を選択して変換することができ、除外文字も設定できるので便利です。ただ、そこまで柔軟でなくても良く、単に表記揺れがなくなれば良い、という場合も多いかと思います。その場合はPythonの標準ライブラリに含まれる unicodedata モジュールの normalize 関数を使うと便利です。 >>> impo
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く