タグ

日本語とライブラリに関するshion214のブックマーク (3)

  • 自然言語処理ライブラリGiNZAで固有表現抽出してみた - Qiita

    この記事の目的 最近, Pythonで日語での固有表現抽出(Named Entity Recognition; NER)を簡単に使いたいなと思っていろいろ探していたろころ, GiNZAというものを知ったので使ってみました. ちなみに, 固有表現抽出は自然言語処理のタスクの1つで, 以下の図のように日付や人物など, 特定の単語を検出するもののことです. GiNZAについて GiNZAは自然言語処理(Natural Language Processing; NLP)を行うためのライブラリの1つで, 固有表現抽出以外にも様々なタスクをこなすことができます. 正確には, spaCyという自然言語処理ライブラリがあるのですが, その日語処理部分を担当しているといった感じです. そのため, spaCyの使い方がわかる方なら早いと思います. 詳細は, 以下をご確認ください. 今回は固有表現抽出に限っ

    自然言語処理ライブラリGiNZAで固有表現抽出してみた - Qiita
  • 生成AIに“視覚”与える学習ライブラリ、自動運転EVベンチャー公開 最大700億パラメータの学習済みモデルも

    Heronは、各モジュールを追加学習するための学習コードと日語を含むデータセット、学習済みのモデル群で構成。画像認識モデルと大規模言語モデル(LLM)をつなぎ、画像を入力に使えるようになる。例えば、Heronで学習したAIモデルは、画像に何が写っているかを正確に把握しつつ、前の質問を含む文脈を理解しながら画像について回答することができる。 Heronの学習ライブラリでは、学習するLLMを自由に変換可能。「既存の言語モデルの性能を生かしつつ、今後開発・公開される新たなLLMに対しても容易に対応できる柔軟性がある」(同社)という。 公開中の学習済みのモデル群は「Llama 2-chat」(700億パラメータ)「ELYZA-Llama 2」(70億パラメータ)「Japanese StableLM」(70億パラメータ)などをベースにHeronで追加学習し、マルチモーダル化させたもの。これらのモデ

    生成AIに“視覚”与える学習ライブラリ、自動運転EVベンチャー公開 最大700億パラメータの学習済みモデルも
  • そあん(soan):古活字画像を用いて現代日本語テキストをくずし字画像に変換/共有するサービス

    ライブラリのアプリ化 現代のニュースをくずし字で読んでみませんか?内容がわかるテキストをくずし字で読んでみると、くずし字に対する印象が変わるかもしれません。 edomi ニュース その他の事例については、活用事例を参照してください。 構成 古活字とくずし字 そあん(soan)で用いる「古活字」とは、今から400年ほど前に使われた印刷技術に由来する言葉です。一方「くずし字」とは、くずして書かれた文字を指す言葉です。くずし字は、印刷では古活字版だけでなく整版印刷にも使われましたし、写などの手書きの文字(草書体)も、その多くはくずし字です。一方、古活字の中には、文字を崩していないものもあります。このように、古活字は印刷技術を指す言葉、くずし字は文字の形を指す言葉、という違いがあります。 そあん(soan)は、テキストをくずし字画像に変換する方法として、古活字画像を組み合わせる方法を用いるサービ

    そあん(soan):古活字画像を用いて現代日本語テキストをくずし字画像に変換/共有するサービス
  • 1