タグ

ブックマーク / d.hatena.ne.jp/nokuno (4)

  • テキストファイルを処理するときのUnixコマンドまとめ - nokunoの日記

    個人的にテキストファイルを処理することが多いのですが,簡単な処理ならUnixのコマンドをパイプとリダイレクトで組み合わせてできることが多くあります.今回はそんななかでもちょっとマニアックなTIPSをまとめてみました. sortコマンドでタブ区切りのファイルを指定する最近知って驚愕したのがこれ.sortコマンドでタブ区切りのファイルを指定したいときは,Ctrl+v Tabでタブ文字を入力していたのですが,$ sort -t $'\t' -k 2,2 のようにしてタブ区切りで2番目のキーでソートすることができます. 1000行おきにデータをサンプリングする1000行おきにファイルからデータをサンプリングしたいときとかは,perlでワンライナーを書くのが速いようです.$ perl -ne '$i++; print unless ($i % 1000)' 某所のコードゴルフによるとこれだけ短くでき

  • 入門ソーシャルデータが発売されます - nokunoの日記

    オライリー出版社さんから,「入門 ソーシャルデータ ―データマイニング、分析、可視化のテクニック」というタイトルでソーシャルデータを対象としたデータマイニング,自然言語処理の書籍が発売されます.リンク先の通り,私も監訳という形で編集に参加させていただいております(五十音順で一番前に来てますが他意はありません).入門 ソーシャルデータ ―データマイニング、分析、可視化のテクニックO’Reilly Japan - 入門 ソーシャルデータ特に書籍中のコードは主にPythonで書かれており,NLTKを使っている部分もあるためそのあたりを重点的に担当させていただきました.具体的には,7章,8章の修正を行いました(各章は必ず1人が担当しているわけではありません).今回のお話は@overlastさんからいただき,大変よい経験になりました.今後もこのような形で技術と実践の間を橋渡ししていければと考えていま

  • 多項分布の最尤推定 - nokunoの日記

    多項分布の最尤推定は確率モデルの基中の基であるが,意外と知らない人も多いので説明しておきたい.ここでいう多項分布は離散変数,たとえば単語や商品,ユーザなどの種類を表す変数の分布である.多項分布は頻度の分布を意味する場合もあるが,今回はNLP業界の慣習にならって観測回数が1回の場合を指す.このような変数はカテゴリカル変数などと呼ばれるらしい. 今,確率でi番目の単語が観測されるものとする.確率なので次の制約が成り立つ.この分布の元で単語が回観測されたとする.パラメータの元でこのような観測がされる確率を尤度関数と呼び,その対数は対数尤度関数と呼ばれる.各観測が上記離散確率の独立同分布に従うとすると,対数尤度関数は以下で表される.最尤推定は,観測値が与えられたときにこの対数尤度関数を最大とするようなパラメータを求める推定方法である.離散変数の場合は先ほどの制約を満たす中で上の対数尤度関数を最

  • Clouderaカンファレンス Doug Cutting 講演会 "The Future of Hadoop" #dougjp - nokunoの日記

    Clouderaカンファレンスということで,Hadoopの生みの親Doug Cutting氏の講演会に参加しました.Cloudera カンファレンス Doug Cutting 講演会(仮) on ZusaarHadoopの名づけ元となった象のぬいぐるみもいました! 意外と細いんですね〜 The Future of Hadoop Context Data: 1.8ZB in 2011 Hadoop: Solution for Big Data HDFS and MapReduce: Hadoop Core Hive, Pig, Hbase, Mahout, and many components.. Dependency between components is big problem! Bigtop: package manager of Hadoop Apache Bigtop Big

  • 1