タグ

ブックマーク / yag-ays.github.io (2)

  • 漢字を構成する部首/偏旁のデータセット

    kanjivg-radicalは、漢字を構成する部首や偏旁を容易に扱えるように対応付けしたデータセットです。 「脳」という漢字は、「月」「⺍」「凶」のように幾つかのまとまりごとに細分化できます。このように意味ある要素に分解しデータセットにすることで、漢字を文字的に分解して扱ったり、逆に特定の部首/偏旁を持つ漢字を一括して検索することができます。 このデータセットは、KanjiVGで公開されているsvgデータを抽出および加工して作成されています。そのため、データセットに含まれる部首/偏旁のアノテーションはすべてKanjiVGに準拠します。 ダウンロード 以下のGitHubレポジトリからjson形式のファイルをダウンロードできます。data/配下にある各種jsonファイルが、データセットの体です。 yagays/kanjivg-radical データセットの詳細 kanjivg-radic

    漢字を構成する部首/偏旁のデータセット
    xiangze
    xiangze 2021/04/26
  • 医療分野の大規模テキストデータで学習した分散表現から、疾患の類似度を求める

    概要 人間が記述した文章から特定の意味や関係性を抽出する行為は情報抽出と呼ばれ、自然言語処理におけるタスクの一つです。人間により収集された情報はオントロジーや知識グラフのような関係性を持つ構造として表現することで、抽出した概念の関係性を理解してきました。こうした知識の構築は、言語の文法構造を利用しルールベースで半自動で抽出する方法が広く用いられていますが、近年では単語の意味的な情報を活用し自動獲得する方法が出てきました。 私は最近Ubieという医療の問診AIを開発している会社にジョインしたのですが、医療自然言語処理の世界でもこうした情報抽出の研究が行われています。そうした特定のドメインでの自然言語処理ではデータやタスクにユニークなものが多く、そうした分野間の違いが現れるところが自然言語処理の面白いところです。 そこでこの記事では、ウェブから収集した医療分野における大規模テキストデータから、

    医療分野の大規模テキストデータで学習した分散表現から、疾患の類似度を求める
    xiangze
    xiangze 2020/08/07
  • 1