[B! 日本語][ライブラリ] shion214のブックマーク

shion214 id:shion214

日本語とライブラリに関するshion214のブックマーク (3)

自然言語処理ライブラリGiNZAで固有表現抽出してみた - Qiita
この記事の目的最近, Pythonで日本語での固有表現抽出(Named Entity Recognition; NER)を簡単に使いたいなと思っていろいろ探していたろころ, GiNZAというものを知ったので使ってみました. ちなみに, 固有表現抽出は自然言語処理のタスクの１つで, 以下の図のように日付や人物など, 特定の単語を検出するもののことです. GiNZAについて GiNZAは自然言語処理(Natural Language Processing; NLP)を行うためのライブラリの１つで, 固有表現抽出以外にも様々なタスクをこなすことができます. 正確には, spaCyという自然言語処理ライブラリがあるのですが, その日本語処理部分を担当しているといった感じです. そのため, spaCyの使い方がわかる方なら早いと思います. 詳細は, 以下をご確認ください. 今回は固有表現抽出に限っ
shion214 2023/10/25
ライブラリ

自然

タスク

日本語

個人情報

固有名詞
リンク
生成AIに“視覚”与える学習ライブラリ、自動運転EVベンチャー公開　最大700億パラメータの学習済みモデルも
Heronは、各モジュールを追加学習するための学習コードと日本語を含むデータセット、学習済みのモデル群で構成。画像認識モデルと大規模言語モデル（LLM）をつなぎ、画像を入力に使えるようになる。例えば、Heronで学習したAIモデルは、画像に何が写っているかを正確に把握しつつ、前の質問を含む文脈を理解しながら画像について回答することができる。 Heronの学習ライブラリでは、学習するLLMを自由に変換可能。「既存の言語モデルの性能を生かしつつ、今後開発・公開される新たなLLMに対しても容易に対応できる柔軟性がある」（同社）という。公開中の学習済みのモデル群は「Llama 2-chat」（700億パラメータ）「ELYZA-Llama 2」（70億パラメータ）「Japanese Stabl eLM」（70億パラメータ）などをベースにHeronで追加学習し、マルチモーダル化させたもの。これらのモデ
shion214 2023/09/08
ライブラリ

学習

AI

日本語

js
リンク
そあん（soan）：古活字画像を用いて現代日本語テキストをくずし字画像に変換／共有するサービス
ライブラリのアプリ化現代のニュースをくずし字で読んでみませんか？内容がわかるテキストをくずし字で読んでみると、くずし字に対する印象が変わるかもしれません。 edomi ニュースその他の事例については、活用事例を参照してください。構成古活字とくずし字そあん（soan）で用いる「古活字」とは、今から400年ほど前に使われた印刷技術に由来する言葉です。一方「くずし字」とは、くずして書かれた文字を指す言葉です。くずし字は、印刷では古活字版だけでなく整版印刷にも使われましたし、写本などの手書きの文字（草書体）も、その多くはくずし字です。一方、古活字の中には、文字を崩していないものもあります。このように、古活字は印刷技術を指す言葉、くずし字は文字の形を指す言葉、という違いがあります。そあん（soan）は、テキストをくずし字画像に変換する方法として、古活字画像を組み合わせる方法を用いるサービ
shion214 2023/08/08
日本語

サービス

ライブラリ

変換

本
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx