タグ

言語処理に関するSorAmberのブックマーク (5)

  • 形態素解析 - Wikipedia

    形態素解析(けいたいそかいせき、Morphological Analysis)とは、文法的な情報の注記の無い自然言語のテキストデータ(文)から、対象言語の文法や、辞書と呼ばれる単語の品詞等の情報にもとづき、形態素(Morpheme, おおまかにいえば、言語で意味を持つ最小単位)の列に分割し、それぞれの形態素の品詞等を判別する作業である。 自然言語処理の分野における主要なテーマのひとつであり、機械翻訳やかな漢字変換など応用も多い(もちろん、かな漢字変換の場合は入力が通常の文と異なり全てひらがなであり、その先に続く文章もその時点では存在しないなどの理由で、内容は機械翻訳の場合とは異なったものになる)。 もっぱら言語学的な観点を主として言語学で研究されている文法にもとづく解析もあれば、コンピュータ上の自然言語処理としてコンピュータでの扱いやすさに主眼を置いた解析もある。以下は後者のためのツールを

    形態素解析 - Wikipedia
  • 教えてこの子 twitter ツイート君

    In an increasingly digital world, businesses face a multitude of digital threats. Cyberattacks are becoming more sophisticated, capable of causing severe damage to businesses of all sizes. As the cyber threat landscape evolves, organizations must take proactive measures to safeguard their digital assets. One such measure is cyber insurance, a growing industry that aims to… As an employer, taking c

    SorAmber
    SorAmber 2010/04/25
    なにこれすごい。
  • tf-idf - Wikipedia

    情報検索の分野において、tf–idf (または、 TF*IDF、TFIDF、TF–IDF、Tf–idf)は、term frequency–inverse document frequencyの略であり、コーパスや収集された文書群において、ある単語がいかに重要なのかを反映させることを意図した統計量(数値)である[1]。また、tf-idfは情報検索や、テキストマイニング、ユーザーモデリング(英語版)における重み係数(英語版)にもよく用いられる。ある単語のtf-idfの値は文書内におけるその単語の出現回数に比例して増加し、また、その単語を含むコーパス内の文書数によってその増加が相殺される。この性質は、一般にいくつかの単語はより出現しやすいという事実をうまく調整することに役立っている。今日、tf-idfはもっとも有名な語の重みづけ(term-weighting)手法である。2015年に行われた研究

    SorAmber
    SorAmber 2010/04/22
    慢性的なものを消すための考え
  • [を]CHALOW Search: cat:IIR

    検索におけるテキスト走査とインデックス 2008-01-19-5 [IIR] 「Introduction to Information Retrieval」[1]の第一章[2008-01-12-1] の1.1にの冒頭に出てきた、 「テキスト走査による方法とインデックスによる方法の違い」 をまとめました。 この手の導入的解説は、 私も過去の論文等の冒頭で何度も書いていたりするのですが、 今回、IIRをベースに改めて整理してみました。 § 文書集合から検索質問に合致する文書を検索するために実装は、 「テキスト走査」による方法と 「インデックス」による方法の大きく二つに分けられる(図)。 テキスト走査(文字列照合 (string pattern maching)[2])による方法は、 単純に文書集合の先頭から最後まで検索キーを順番に照合していく。 最低でも1回は最後まで走査しなければならないので

  • 文体診断ロゴーン

     文体診断λόγων(ロゴーン) 以下に文章を入力していただくと、名文の中から類似の文体を探し出します。 また、文章の表現力や読みやすさを評価します。入力の上限は5000字です。

  • 1