タグ

ブックマーク / zenn.dev/activecore (1)

  • Python × GiNZAで固有名詞を抽出してみる

    はじめに こんにちは。エンジニアのアルバイトをしている大学生です! ここ最近は業務で「社内の知見を整理しよう」みたいなプロジェクトに携わっています。 先日、上記プロジェクトの一環としてドキュメントから社内用語を洗い出す作業があったのですが、ドキュメントの量が多くめんどくさかったので、ディープラーニングを使って固有名詞を洗い出してみました。 今回の記事は、その備忘録になります。 対象読者 文章から固有名詞を抽出したい方 Pythonの文法について基的な理解がある方 実装 単語抽出・品詞の推定にはGiNZA[1][2]という自然言語処理モデルを使いました。モデルはgenerate_tokens関数で使用し、メインの処理は最初のtext2propns関数に書いています。 def text2propns(text, min_nouns_length=2): """文章から固有名詞を抽出する。 "

    Python × GiNZAで固有名詞を抽出してみる
    shion214
    shion214 2023/10/25
  • 1