nikkie-ftnextのブックマーク - はてなブックマーク

公開されている日本の企業名辞書の紹介 - MNTSQ Techブログ
特許・契約書・有価証券報告書・企業関連ニュースなど、実応用上の自然言語処理では、会社名を認識したいという場面に非常に多く出くわす。会社名らしい文字列をテキストから抽出することは、形態素解析器の辞書を用いたり固有表現抽出モデルを学習することである程度実現される一方で、抽出した会社名をレコード化して分析などに用いる際には、いわゆる名寄せの問題が発生する。自然言語処理における名寄せに似た問題は、エンティティリンキングや共参照解析といったアプローチで探求されており、実応用上は前者のアプローチが採られることが多い印象がある。*1 名寄せタスクをエンティティリンキング的に解くためには、帰着先の知識ベース・辞書が予め存在していることが必要だが、研究の文脈では知識ベースとしてWikipediaが採用されることが多い。 Wikipediaを用いる利点は多くあり、様々なエンティティ種に対してそこそこのカバ
nikkie-ftnext 2021/04/30
自然言語処理で会社名を認識したいケースにおいて名寄せタスクをエンティティリンキング的に解くため、2つの日本の会社名辞書を紹介：国税庁法人番号データ、NISTEP企業名辞書。前者からTISがJCLdicという企業名辞書を公

自然言語処理(NLP)

あとで試す
リンク
日本語でHugging Face Tokenizersを動かす - MNTSQ Techブログ
前回記事に続いてHugging Faceネタです。Transf ormers本体ではなく、分かち書きを行うTokenizersライブラリの紹介をします。 Hugging Faceが開発しているTransf ormersでは、事前学習モデルと用いた分かち書き処理を同梱して配布している。機械学習モデルの学習時と推論時の間で分かち書き設定が異なったり、分かち書き済み公開データと分かち書き設定が揃っていなかったりすると、モデルの挙動が正しく再現できないので、この設定が揃うように仕組みで吸収できる良いプラクティスといえる。比較的古いバージョン*1のTransf ormersが用いるトークナイザは、ライブラリ内に同梱されるPython実装のものであった。日本語で配布されているTransf ormersモデルの事例でいうと、例えば東北大学の乾研究室から公開されている日本語BERTモデルでは、Transfo
nikkie-ftnext 2021/02/27
自然言語処理(NLP)

あとで試す
リンク
1

はてなブックマーク

タグ

ブックマーク / tech.mntsq.co.jp (2)

お知らせ

今週のはてなブックマーク数ランキング（2024年10月第1週）

月間はてなブックマーク数ランキング（2024年9月）

今週のはてなブックマーク数ランキング（2024年9月第5週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

タグ

ブックマーク / tech.mntsq.co.jp (2)

公開されている日本の企業名辞書の紹介 - MNTSQ Techブログ

日本語でHugging Face Tokenizersを動かす - MNTSQ Techブログ

お知らせ

今週のはてなブックマーク数ランキング（2024年10月第1週）

月間はてなブックマーク数ランキング（2024年9月）

今週のはてなブックマーク数ランキング（2024年9月第5週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス