At this website you can find handfuls of online computer utilities which allow you to perform various tasks without installing any software at your computer apart from the browser. It can be considered as a large utility set for an Internet operating system (like Chrome OS, for example). Utilities provided: Analyze words, sentences, structure or style of any text Learn, teach or research English l
データ分析業務において、データベースなどに登録されている場合は簡単に行えるようなデータの操作を、生データファイルに対して行いたい時がたびたび発生します。 今回は、そんな時に私がよく使っている、生データファイルを処理するための基本的なコマンドラインツールについて、その概要と簡単な使い方を紹介します。 cat ファイル内容を表示する ファイルの内容を標準出力に表示するコマンドです。 $ cat sample1.csv 都道府県名,人口(人),面積(平方km) 茨城県,2969770,6095.72 栃木県,2007683,6408.28 群馬県,2008068,6362.33 埼玉県,7194556,3798.13 千葉県,6216289,5156.7 東京都,13159388,2187.5 神奈川県,9048331,2415.86 head ファイルの先頭数行を表示する ファイルを先頭から指
データの集計ではsort | uniq -c をシェル芸で良く使うけど大量データには向かないのでawkでもっと高速な処理を書くShellScriptAWK sort | uniq -c という操作は、データの集合から件数を数えるのによく使いますね。 uniq はデータから重複データを取り除いたり、重複したデータだけを取り出したり、あるいは件数を数える、という処理ができるコマンドですが、実行時の前提条件として予めソートされたデータが必要です。だから先に sort しています。 しかしデータの母集団が大きいと sort の処理時間がボトルネックとなって、数分単位のオーダーで処理待ちが起きることがあります。そのような場合に sort | uniq -c とは違う方法で集計を行えば、処理速度を大幅に改善できる可能性があります。 例:1から1000までのランダムな値の集合1億件について、値ごとの
vimの内部コマンドにsortがあったのね。初めて知りました。 以下のように、外部コマンドの sort.exe を使ってソートすると、文字化けすることがあるので上記の内部コマンドを使いましょう。
外部 sort、uniq コマンド 区切りを「,」として3フィールド目の値でソートし、3フィールド目の値が重複していたら削除(-u)する :%!sort -t, -k3,3n -b -u 単純ソート :%!sort | uniq 重複行を抜き出す :%!sort | uniq -d データ並びを維持しつつ、重複行を削除する :%!cat -n :sort /\t/ :%!uniq -2 :%s/^ *\d+\t// Register as a new user and use Qiita more conveniently You get articles that match your needsYou can efficiently read back useful informationYou can use dark themeWhat you can do with signin
重複を削除する方法はいくつか方法があるみたいですが、 filterを使用する事で非常に楽に実現出来ます var a = [1,2,3,3,2,2,5]; // 重複を削除したリスト var b = a.filter(function (x, i, self) { return self.indexOf(x) === i; }); // 重複のみをリスト var c = a.filter(function (x, i, self) { return self.indexOf(x) !== self.lastIndexOf(x); }); // 重複を検出したものを重複しないでリスト var d = a.filter(function (x, i, self) { return self.indexOf(x) === i && i !== self.lastIndexOf(x); }); co
Summary 普段使い用 PowerShell メモ 思惑 個人的には、 PowerShell はスクリプトをゴリゴリ書くよりも、 ちょこちょこ作業するのに向いていると思っている。 ただ、しばらく使っていないと忘れたりするので、そういうものをまとめてみる。 Linux で、grep とか使って、よくやりそうな感じのやつ。 共用パソコンなどの自分の環境以外でも使えることを想定しているので、 できるだけデフォルトの状態で、できるものに限定する。 また、普段使い想定なので、タイプ数を減らすのを優先していたりするので、 PowerShell の文法的には微妙なところも多少ある。 grep それ Select-String でできるよ
ファイル a, b はそれぞれ重複する行を含んでいないと仮定する。 # a, b に共通な行を抜き出す cat a b | sort | uniq -d > common # b にだけ含まれる行を抜き出す cat a b | sort | uniq > all cat a all | sort | uniq -u >only_in_b"Shell Programming Examples" by Bruce Blinn の DirCmp を見ていて発見。 存在意義がわからなかったオプションの使い道を見つけたときは妙に感動する。 Unix コマンドの神秘。 [追記:2007-01-25] "Shell Programming Examples" by Bruce Blinn ftp://ftp.prenhall.com/pub/ptr/hewlett_packard_professiona
2007年01月24日17:00 カテゴリ一日一行野郎Lightweight Languages perl - comm(1)またはuniq -(d|u) それってPerlの一行野郎で -- それP1(ry メモ帳 - uniq の -d と -u 存在意義がわからなかったオプションの使い道を見つけたときは妙に感動する。a, b に共通な行を抜き出す perl -nle '$l{$_}++;END{$l{$_}>1 and print for keys %l}' a b ENDブロックはこう使うという例にもなっています。 a にだけ含まれる行を抜き出す -- 引数の順序に注意 perl -nle 'if(@ARGV){$l{$_}++}else{print unless $l{$_}}' b a Perlで<>を使うときには、まだ読まれていないファイル名が@ARGVに入っています。これが空
id:parasporospa さんの uniq -d と uniq -u についての記事を見た。 それぞれ、重複する行、ユニークな行を抽出するオプションなのだが、 それらを利用したおもろいTipsが紹介されている。 uniq の -d と -u - メモ帳 # a, b に共通な行を抜き出す cat a b | sort | uniq -d > common # a にだけ含まれる行を抜き出す cat a b | sort | uniq > all cat a all | sort | uniq -u >only_in_a (中略) 存在意義がわからなかったオプションの使い道を見つけたときは妙に感動する。 僕が、uniq のこれらのオプションを知ったのは、 無能上司に教えてもらったときだ。懐かしい。 uniq -c に鳥肌が立ったのが昨日のように思い出される。 通称アルファギークの Da
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く