タグ

2011年7月21日のブックマーク (3件)

  • 係り受け解析に文節の概念は必要か否か?

    Zelch @zzzelch 日語の係り受けが文節単位な件について。今やガラパゴスなんだがなぜか。京大コーパスが原因か。先行していて規模も大きいEDRコーパスは単語単位だった。言語資源の設計が言語処理を決めて来たと言って良いか思案中。機械学習屋さんは興味無かろうし。 2011-07-18 15:38:19 Zelch @zzzelch やっと明日の資料が出来た。言語屋さんにも機械学習屋さんにも色々できて楽しそうよ。単語単位の係り受け。文節単位はまあ、それはそれで良かったけど、不足というかサボってる感があるね。係り受けが交差したら困るとか、受身や使役の係り受けはどうすんねんとか。 2011-07-18 20:02:31 Taku Kudo @taku910 @zzzelch 文節単位が妥当だと思います。かな漢字変換も単語単位より文節単位のほうが日語の性質をよくモデル化できます。また単語単

    係り受け解析に文節の概念は必要か否か?
  • RプログラミングTips大全 - RjpWiki

    RjpWiki はオープンソースの統計解析システム R に関する情報交換を目的とした Wiki ですR 言語の実行制御フロー † R は多くの計算機言語と同じような Algol 風制御命令のセットをもつが、より柔軟である。 実行文 expr は単純実行文でも、(波括弧で括った)複合実行文(同一行に並べるにはセミコロンで区切る)でもよい。 ↑ 繰り返し for † 書式 (ループ範囲 range の各要素 arg に対して expr を実行 ) for(arg in range) expr 注意:for ループは一般に実行速度を遅くするボトルネックになりやすい。またコードが長くなり勝ちである。apply 関数ファミリの使用や、特にベクトル・行列・配列の成分ごとのループは専用高速関数が用意されているのでその使用を考える。 ループ範囲にベクトルを取る(基) > x = 1:4 > for (i

    showyou
    showyou 2011/07/21
  • 実践! 「MapReduceでテキストマイニング」徹底解説

    青空文庫」をテキストマイニング! 前回の「いまさら聞けないHadoopとテキストマイニング入門」では、Hadoopとテキストマイニングの概要や構成、MapReduceの仕組み、Hadoopの活用場面などを解説し、Hadoopの実行環境を構築しました。今回から、Hadoopを使い、テキストマイニングのMapReduceプログラムを作成していきます。 「青空文庫」というサイトをご存じでしょうか。青空文庫は、著作権が切れた日の文学作品を掲載しているWebサイトで、青空文庫の全データをDVDや、BitTorrentによる配信で入手できます。今回は、このデータを使ってテキストマイニングを行いましょう。 前回、テキスト分類で、著者の性別、年齢、地域、職業などの属性も推定できると書きましたが、青空文庫は、他のデータにはない、著者属性があります。青空文庫の作品は、著作権が切れて、作者がなくなっている場

    実践! 「MapReduceでテキストマイニング」徹底解説