タグ

2010年11月2日のブックマーク (6件)

  • uniq - Wikipedia

    uniq(ユニーク)はUNIXおよびUNIX系システムで、テキストをファイルを入力として、隣接する同じ内容の行を1つの行だけ残して他を削除した出力をするユーティリティである。フィルタの一種であり、sortの出力を入力とするような形で使われることが多い。また、逆にダブっている行だけを出力することもできるし(-d オプション)、各行の出現回数を付与することもできる(-c オプション)。 例えば、あるファイルの異なる内容の行を各行の出現頻度順にソートして一覧したい場合、次のようになる。 sort file | uniq -c | sort -n uniq はこのようにシェルスクリプトなどでのパイプの一部として使われることがある。 コマンド行オプション[編集] -u  : 元のファイルで繰り返し出現しない行だけを出力する。 -d  : 元のファイルで繰り返し出現した行だけを出力する。 -c  :

  • Google Code Archive - Long-term storage for Google Code Project Hosting.

    Code Archive Skip to content Google About Google Privacy Terms

  • 2007-07-13

    関連記事 http://d.hatena.ne.jp/valdzone/20070708#1183923567 http://d.hatena.ne.jp/valdzone/20070702#1183424810 以下は自分用の備忘録です。解説というにははしょり過ぎだし、わかっている人には自明すぎでしょうもないものです。 Bayesian Sets がやっていること Google Sets がやっているようなことを実現するものです。まず、あるアイテム(例えば映画のタイトル)の集合Dに対してその部分集合Dcをあるクラスタであるとみなします。ユーザはDcに属すると思われるクエリ(例えば Police Academy (1984) + Porky's (1981))を与えると、Bayesian sets は全集合Dの各アイテムに対して、そのアイテムがDcに属する確率に比例する数値をスコアとして返

    2007-07-13
    stingraze
    stingraze 2010/11/02
  • mixi Engineers’ Blog » mixi日記キーワードランキングの秘密

    皆さん、先月の半ば頃からmixiのトップページの3列目に「日記キーワードランキング」というコーナーが登場していたのをご存じでしょうか。手前味噌ながら、これはとても面白い機能で、毎日ランキングが更新される度に素敵なランキングが作られていて悦に入っているmikioです。今回は日記キーワードランキングの秘密についてお話します。 日記キーワードランキングとは、日記に書かれた言葉の使用頻度を統計的に処理して、今話題になっている度合を算出し、その上位をランキング形式で表示する機能です。トップページには5位までが表示されるので、それをチェックするだけで最新の流行を把握することができます。さらに「30位までを読む」に進むと30位までのキーワードとその関連日記が表示されます。詳細を知りたい場合はキーワードをクリックすると、そのキーワードで日記検索をした結果を見ることができます。一通り見るのに10分くらいでし

    mixi Engineers’ Blog » mixi日記キーワードランキングの秘密
  • Googleの新卒向け説明会 (すがメモ/SUGAMEMO)

    そういえば、先日 3/6かな。 Google Japanの新卒向け説明会があって行ってきた。もう、結構前なのだけども、Googleの社員である Namazu の開発者で有名な高林哲さんや、日語予測変換で未踏スーパークリエーターの小松さんが、去年からの新入社員として色々話してた。 さすが、ベスト&ブライテスト(とびきり優秀な人材を集める)な企業だな、と思って話を聞いていたが、いくつかその内容から面白いことをピックアップ。

  • PDFを検索対象に

    PDFファイルをNamazuの検索対象に加えるにはxpdfに含まれるpdftotextというプログラムを使用する必要があります。pdftotextはPDFに含まれているtextを抽出するツールです。これまでは日語の処理に不十分な面があった感じでしたので、個人的には別のツールを使ってPDFのインデックス化をしていました。しかし、2002年2月1日にリリースされたxpdf-1.00から日語や中国語、韓国語などのLanguage Support Packageが提供されるようになり、機能的にも十分なツールになった感があります。 詳細はhttp://www.foolabs.com/xpdf/(英文)を参照してください。 Namazu2.0.12のリリースに伴い、pdfファイルの文書フィルタであるpdf.plがxpdf1.00以降のpdftotextのオプション変更に対応しました。xpdfのバー