[B! Python][Wikipedia] babydaemonsのブックマーク

babydaemons id:babydaemons

PythonとWikipediaに関するbabydaemonsのブックマーク (1)

wikipedia dump から固有表現抽出(NER)のためのデータセットを作るメモ
背景 LLM 向け日本語データセット(コーパス)構築している... 扱うのは TB 単位の日本語... jagger-python https://zenn.dev/syoyo/articles/9ac920632ba5c9 jdepp-python https://zenn.dev/syoyo/articles/d642867aae9aee で高速な形態素解析と係り受け解析はできた! 次, 照応解析, 共参照解析(coref)したいがそのまえに固有表現抽出(ner)が必要っぽい. Wikipediaを用いた日本語の固有表現抽出データセットがあるが, 件数が少なそ? あと人力アノテーションつらいぽよ... 全部自動でやりたいぽよ... wikipedia dump から抽出します! 方針 wikipedia の title を固有表現, category のメタ情報をベースに分類を決めま
babydaemons 2024/11/22
LLM

自然言語処理

Wikipedia

Python
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx