タグ

ブックマーク / d.hatena.ne.jp/nokuno (2)

  • NLTKで日本語コーパスを扱う方法 - nokunoの日記

    オライリーの「入門自然言語処理」の12章はHTML版がWebで公開されています.Python による日語自然言語処理というわけで,NLTKで日語でコーパスを扱う環境を整えました. NLTKのインストール公式サイトを見ながらインストールする.最新版はNLTK2.0で,オライリーの書籍のときと比べてChasen形式のパーザなどが追加されています.Download - Natural Language ToolkitMac OSXの場合はPortでもインストールできるらしいのですが,うまくいかなかったのでパッケージをダウンロードしました. コーパスのダウンロードnltk.download()を実行して必要なコーパスをダウンロードします.$ python>>> import nltk>>> nltk.download()jeitaとknbcをダウンロード NLTKを日語コーパスで使う場合の注

  • Pig, Hiveなど8種類のMapReduce言語についての比較 - nokunoの日記

    以下の記事ではPig, Hiveなど8種類の言語でMapReduceの一番単純な例、WordCountを記述した場合のスクリプトの比較を行っています。とても興味深かったので紹介したいと思います。Pigs, Bees, and Elephants: A Comparison of Eight MapReduce Languages « Dataspora なお、今回はRSS購読しているDataSporaのブログから発見しましたが、エントリを寄稿したエンジニアの個人ブログも大変興味深いのでオススメです。 はじめにMapReduceを美しく効率的に書くために、私は様々な言語を比較しました。果たしてその勝者は!?私の個人ブログでは統計やグラフのアルゴリズムをMapReduceで記述する方法を紹介し、擬似コードによる実装を示しました。擬似コードには2つの問題点があります:誰もがその命令を理解できると

  • 1