タグ

nlpに関するkw5のブックマーク (4)

  • 日本語大規模SNS+Webコーパスによる単語分散表現モデルの公開 : hottoSNS-w2vの配布|#ホットリンク

    最終更新日:2023年6月12日 R&D部の榊です。 当社のR&D部では,研究開発上で利用する様々なリソースを部内で共有しています。 今回、そのうちの一つである単語分散表現モデルを社外の方にも利用可能な形で配布することにしました。 なので、それについてご説明したいと思います。 なお、最近の日の自然言語処理界隈では、文分散表現モデルであるBERTの日語を含む多言語モデルが公開になったばかりなので、日語の単語分散表現モデルの配布は大変今更感があるなあ・・・と思ったりもしています。 ですが、日語を対象とした文・単語の分散表現共に、配布されているのはWikipediaを学習コーパスとしたものが殆どです。 なので、WikipediaではカバーしきれないSNSやWeb上の文書を学習コーパスとした分散表現のモデルを公開することは一定の価値があると考えています。 言語資源に関しては、2019年6

    日本語大規模SNS+Webコーパスによる単語分散表現モデルの公開 : hottoSNS-w2vの配布|#ホットリンク
    kw5
    kw5 2019/05/12
  • 日本語 Wordnet

  • 言語情報処理 用語集

    あ行 アーリーアルゴリズム (Earley algorithm) 文脈自由文法に基づく構文解析アルゴリズム。ある非終端記号の直後に現われ得る終端記号を事前に予測することによって解析効率を改善している点が特徴。 IIS (Improved Iterative Scaling algorithm) 最大エントロピー法のパラメタを学習するアルゴリズム。 合図句 (cue phrase) →「手がかり句」 曖昧性 (ambiguity) 自然言語処理では、複数の解析結果が得られることを曖昧性があるという。例えば複数の語義がある場合は語義(選択)に曖昧性があるといい、かかり受け解析において複数の可能性がある場合は、かかり受けに曖昧性があるという。曖昧性は様々な処理レベルで存在し、曖昧性解消(ambiguity resolution, disambiguation)は自然言語処理の真髄とも言われる。

    kw5
    kw5 2013/08/21
    便利
  • IPADIC(IPA辞書)とはなにものか?

    ※私は言語処理に関する知識は無いので、あくまで「IPADICとは何ものなのか?」という点に絞ってのみ記述しています。まあ、ここまで突っ込んだのは戯れですが、一応の目的として現在から未来にわたって無料で入手できる形態素解析を使うに当たり、「メンテナンスが継続されている辞書」が入手できるかを調べたかったという意図もあります。 日語を処理する上で形態素解析というのはわりと欠かせないものです。 Webのサービスでよく用いられている形態素解析器にはChaSenとmecabがありますが、これらのエンジンは何らかの辞書を利用して日語を解析します。 ちなみに形態素解析器と言うのはChaSenの表現を帰りれば「形態素解析器とは、入力文を単語単位に分割し品詞を付与するツールである。」ということです。形態素解析器の開発の歴史はMeCab の開発経緯をご覧ください。 ここでChaSenにもMeCabにも、標準

    IPADIC(IPA辞書)とはなにものか?
    kw5
    kw5 2012/08/27
  • 1