タグ

2010年11月26日のブックマーク (2件)

  • uniq -c で集計した数の合計値を算出する - 技術メモ帳

    よくある慣用句として、 sort | uniq -c | sort -nr | head というものがある。 ご存知の通り、重複する行の数をカウントし 高い順に並び替えてheadする。というものだ。 たとえば、前にも書いたが、 指定したディレクトリ以下のファイルの拡張子の統計を取る コマンドは以下のようになる。 #ibook find . -type f | egrep -o '[^.]+$' | sort | uniq -c | sort -nr | head 42 rb 18 php 15 txt 10 cxx 9 html 7 pl 6 log 6 c 5 yml 4 js このときの一番左側のカラムである、集計値を合計する。 #ibook ... | head | rev | cut -d' ' -f2 | rev | paste -d+ -s - | bc 122 集計値のあるカ

    sleepy_yoshi
    sleepy_yoshi 2010/11/26
    pasteの使い方がテクい
  • 人工知能基本問題研究会(SIG-FPAI)での岡野原さんの発表のときに取ったメモ - yasuhisa's blog

    hillbig.cocolog-nifty.com ということで僕が取ったメモも出してみようと思う。内容としては大体3つで オンライン学習 L1正則化 索引を用いた効率化, 全ての部分文字列を利用した文書分類 という感じだったんだけど、最後の索引の付近はid:syou6162の勉強不足によりよく分からなかった。が、最初の二つはなんとか付いていけたので、出してみます。主に自分用のメモですが。 オンライン学習自然言語処理のデータは3つの特徴がある。 高次元 疎 冗長 で、あとはデータがばかでかいので、いわゆるバッチ処理だとメモリに乗り切らなかったりとかということがある。それでオンライン学習というのが今よく使われているようだ。オンライン学習の方法には下のような方法がある。簡単なものから難しいものへ。 perceptron 自然言語処理と相性がよい 色んなもののベースになる 線形分離できるときには

    人工知能基本問題研究会(SIG-FPAI)での岡野原さんの発表のときに取ったメモ - yasuhisa's blog