2021年4月30日のブックマーク (2件)

  • The Clean Architecture

    Over the last several years we’ve seen a whole range of ideas regarding the architecture of systems. These include: Hexagonal Architecture (a.k.a. Ports and Adapters) by Alistair Cockburn and adopted by Steve Freeman, and Nat Pryce in their wonderful book Growing Object Oriented Software Onion Architecture by Jeffrey Palermo Screaming Architecture from a blog of mine last year DCI from James Copli

  • 公開されている日本の企業名辞書の紹介 - MNTSQ Techブログ

    特許・契約書・有価証券報告書・企業関連ニュースなど、実応用上の自然言語処理では、会社名を認識したいという場面に非常に多く出くわす。 会社名らしい文字列をテキストから抽出することは、形態素解析器の辞書を用いたり固有表現抽出モデルを学習することである程度実現される一方で、抽出した会社名をレコード化して分析などに用いる際には、いわゆる名寄せの問題が発生する。 自然言語処理における名寄せに似た問題は、エンティティリンキングや共参照解析といったアプローチで探求されており、実応用上は前者のアプローチが採られることが多い印象がある。*1 名寄せタスクをエンティティリンキング的に解くためには、帰着先の知識ベース・辞書が予め存在していることが必要だが、研究の文脈では知識ベースとしてWikipediaが採用されることが多い。 Wikipediaを用いる利点は多くあり、様々なエンティティ種に対してそこそこのカバ

    公開されている日本の企業名辞書の紹介 - MNTSQ Techブログ
    nikkie-ftnext
    nikkie-ftnext 2021/04/30
    自然言語処理で会社名を認識したいケースにおいて名寄せタスクをエンティティリンキング的に解くため、2つの日本の会社名辞書を紹介:国税庁法人番号データ、NISTEP企業名辞書。前者からTISがJCLdicという企業名辞書を公