タグ

関連タグで絞り込む (1)

タグの絞り込みを解除

googleとminingに関するnextbigthingのブックマーク (2)

  • 形態素解析にて、コスト最小法 - 備忘録-研究や勉強のメモ-

    今日は全然何も進んだ気がしない。。以下一応やったことをメモしとこうとは思います。 「入門自然言語処理」,12章のp.477のコスト最小法による形態素解析のところをプログラムを理解しながらよいしょよいしょと打ち込み、の通りの結果が出力されることを確かめ、終了。単語単体での出現頻度のコストと、品詞と品詞の接続におけるコストの両方を合計して、最小のものを出力するという。なるほどなるほど。 ここでメインに働いているanalyze関数は、与える2つの「function型の引数」を調整することで、「形態素最小法」や「文節数最小法」といったヒューリスティックが実現できるようになっています。これは便利だしいろいろと試して結果を比べてみると良さそう。 さて、どこかで夕飯べて電車で読みながら帰ろう。昨日買ったのは以下の「検索エンジンはなぜ見つけるのか」というです。webマイニングに関することもこれから

    形態素解析にて、コスト最小法 - 備忘録-研究や勉強のメモ-
  • トライ (データ構造) - Wikipedia

    "A", "to", "tea", "ted", "ten", "i", "in", "inn" というキー群によるトライ木 トライ木(英: trie)やプレフィックス木(英: prefix tree)とは、順序付き木の一種。あるノードの配下の全ノードは、自身に対応する文字列に共通するプレフィックス(接頭部)があり、ルート(根)には空の文字列が対応している。値は一般に全ノードに対応して存在するわけではなく、末端ノードや一部の中間ノードだけがキーに対応した値を格納している。2分探索木と異なり、各ノードに個々のキーが格納されるのではなく、木構造上のノードの位置とキーが対応している。 キーが文字列である連想配列の実装構造としても使われる。右図の例では、ノードを表す丸の中にキーが書かれ、連想される値がその下に書かれている。値が書かれていないノードはキー文字列の途中までにしか対応していない。各英単語

    トライ (データ構造) - Wikipedia
  • 1