タグ

ブックマーク / qiita.com/hakatashi (2)

  • 最も「ありそうで存在しない漢字」は何か? - Qiita

    タイトルが全てです。 個々のパーツとしてはありふれた部品なのに、合体させると「存在しない漢字」になる組み合わせは一体何なのか調べてみました。 ※この記事は TSG Advent Calendar 2022 の14日目の記事です。 手法 以下の手順で「ありそうで存在しない漢字」を調べることにしました。 すでに存在する漢字を構成する部品を調査する 出現回数が多い部品どうしを組み合わせ新たな漢字を作る 構成する部品の出現頻度から、それぞれの組み合わせの「ありそう度」をスコア付けする スコアが最も高いものを「最もありそうで存在しない漢字」とする CHISE 漢字構造情報データベースは、Unicodeに収録されている全漢字を含むさまざまな漢字の部品構造をデータベース化したオープンデータです。今回はこちらのデータを利用して調査を行うことにしました。 頻出部品を調査する UnicodeのCJK統合漢字か

    最も「ありそうで存在しない漢字」は何か? - Qiita
    n_knuu
    n_knuu 2023/01/03
  • paragraph2vecの論文 要訳 (Distributed Representations of Sentences and Documents) - Qiita

    paragraph2vecの論文 要訳 (Distributed Representations of Sentences and Documents)自然言語処理機械学習word2vecparagraph2Vec論文読み 原文: Distributed Representations of Sentences and Documents 要訳者からのお知らせ この要訳はTSGの機械学習分科会での発表のために作られたものです。 雑に内容を理解するためのまとめであり、正確な内容を保証するものではありません。 致命的なミスはコメントか編集リクエストでお知らせください Abstract 機械学習するには入力を固定長のベクトルにする必要がある 既存手法で一番popularなのはbag-of-words だけどBOWはクソ 順序の情報が失われる 単語間のセマンティクスが失われる なので Paragr

    paragraph2vecの論文 要訳 (Distributed Representations of Sentences and Documents) - Qiita
  • 1