背景 LLM 向け日本語データセット(コーパス)構築している... 扱うのは TB 単位の日本語... jagger-python https://zenn.dev/syoyo/articles/9ac920632ba5c9 jdepp-python https://zenn.dev/syoyo/articles/d642867aae9aee で高速な形態素解析と係り受け解析はできた! 次, 照応解析, 共参照解析(coref)したいがそのまえに固有表現抽出(ner)が必要っぽい. Wikipediaを用いた日本語の固有表現抽出データセット があるが, 件数が少なそ? あと人力アノテーションつらいぽよ... 全部自動でやりたいぽよ... wikipedia dump から抽出します! 方針 wikipedia の title を固有表現, category のメタ情報をベースに分類を決めま
