いくつか方法があるが、それぞれ試してみる。 条件 open 非圧縮ファイル読み込み open zcat(gzip -cd) 標準出力読み込み IO::File zcat(gzip -cd) 標準出力読み込み Compress::Zlib サンプルファイル 内容 CSVファイル 行数 6309行 sample.csv 1661636 bytes (1.6M bytes) sample.csv.gz 196774 bytes (193K bytes) 環境 OS Debian GNU/Linux 4.0 (coLinux 0.7.1) Perl v5.8.8 メモリ 512MB/2048MB (coLinux割り当て/全体) PC HP ProLiant ML115 (Windows XP) 使うモジュール Compress-Zlib 2.008 http://search.cpan.org/
機会があったので、調べてみました。 2ファイルの差分はdiffコマンドで取るけど、その逆の共通している部分はどうやって取得するのか。エレガントなやり方はやっぱりgrepコマンドを使うのかしら? 前提 $ diff -c5 {a,b}.txt *** a.txt 2013-08-28 18:54:49.293055071 +0900 --- b.txt 2013-08-28 18:53:58.517693404 +0900 *************** *** 1,6 **** 1 - 2 3 5 5 6 --- 1,6 ---- 1 3 + 4 5 5 6こういう2つのファイルがあったとして・・・ grepで $ grep -x -f {a,b}.txt 1 3 5 5 6grepコマンドの"-x"オプションを使うと、こんな感じで、2ファイルの共通部分が出力される。 -x, --line
改訂版について (5/7/2019公開) この記事は、私がこちらに公開したもの中では最も読まれているようです。そこで、執筆後に気づいたこと、古くなった情報、新しい技術動向などを考慮に入れて改訂をしました。主な変更点は以下の通りです: 新しいセクションの追加 最近の本の紹介 細かな表現の修正 この記事は複数のセクションに分かれていますので、前編から始め、順番にアップデートして行きたいと思います。何かお気付きの点などありましたら、コメント欄、もしくはkonoアットマークucsd.eduにお願いいたします。 はじめに この記事は、可視化の専門家ではない人がコンピュータを使ってデータ可視化を実際に行う場合に必要な、一般的なノウハウをお伝えするシリーズの第一回です。 前編: 効果的なデータ可視化とはどのようなものか? (本稿) 中編: 分かりにくい可視化を避けるための手法の選択 後編: Part 1
荷物整理が苦手、空港でよくあるちょっと困った事態……。「旅行」は意外にも、色々なところに頭を使わねばならないのです。でも、ほんのちょっと知っておくだけであなたが旅で得するノウハウを教えましょう! 〜アイテム 編〜 1. スマホやイヤホンは眼鏡ケースに入れよう Photo by pinterest.com 2. ピルケースにはアクセサリーを Photo by imgur.com 3. イヤホンはクリップに巻き付けて Photo by huffingtonpost.com そのまま洋服やリュックにつけられるので、絡まったり何かにひっかかる恐れもなくなるぞ。 4. スキンケアのクリーム類はストローに Photo by pinterest.com これは意外。チューブを丸ごと持って行くと、荷物はどんどん増えるばかり。ストローに一回分を詰めて、テープで止めればかなりの軽量化が図れるぞ。 5. ひげ
データファイル処理に便利なUNIXコマンド (一部工事中、順次拡張予定) ここでは、データファイル処理に便利なUNIXコマンドの紹介を行います。 使用目的から探す - 実例集 - 複数のファイルをくっつけたい あるファイルの後ろに次のファイルを入れる場合 cat 単純にファイルの最初から順に行同士をくっつけてしまう場合 paste 特定の行を仲立ちとしてファイルをくっつける場合 join ファイルのある行を読み飛ばしたい awk ファイルの空行を読み飛ばしたい awk ファイルのある列とある列を用いて演算を行いたい awk ファイルの特定の文字を別の文字に変換(置換)したい sed データのフォーマットを揃えたい awk 1を01のように、頭にゼロをつけたい(ゼロプディング) 0.035を3.5E-2のように、指数表示にしたい、など。 ファイル名から、ディレクトリ名あるいは拡張子を取り除き
Twitterで紹介されていたこの資料。 実際見てみたらホントに美しい資料だったので、どんな点がよかったのか、また自分の資料作りに生かしていけそうか、ポイントを抽出してまとめてみようと思います。 「ページタイトル」と「メッセージライン」を分ける レイアウトは以下の画像のように要素が配置されています。 特徴的なのは、「ページタイトル」と「メッセージライン」を分けていること。これは自分も前々職のコンサルティング会社時代に馴染んだ形ですが、そこから移ったあとは、この区別ができていない例をたくさん見かけました。 ページタイトルを大きなフォントで載せることはスペースの無駄使いになりますし、逆に主張したいことを小さな領域に押し込めてしまうと無視されてしまう恐れもあります。 用途にもよりますが、調査レポートなどはこうした形の方が、要点が読み手に伝わりやすいのではないかと思います。 絶対値より、変化率や差
Linuxでテキストデータを扱うときに、コマンドをパイプで繋げるだけでいろいろな処理ができて面白いのですが、綺麗に整理されていない気がするのでまとめてみます。ここでは、cat, paste, join, grep, head, tail, cut, awk, sed, tr, sort, uniq, wc を取り上げます。 ファイルを縦に結合 ファイルを縦に結合します。 コマンド 説明 cat file1 file2 ... file1, file2, ... を縦に結合 cat file | ... としてファイルの中身をパイプに流すのにもよく使います。 ファイルを横に結合 ファイルを横に結合します。あまり使わない?*1 コマンド 説明 paste file1 file2 .. file1, file2, ... を横に結合 join file1 file2 file1 と file2
Perlのperlbrewってツールが凄く使いやすくて羨ましかったので、Pythonで使えるpythonbrewってツールを作ってみました。 perlbrew? perlbrewとはPerlをバージョン毎にインストールして、それらをswitchして使ったりできるツールのこと。 既存の環境を壊さずに最新のPerlを簡単に試すことができます。 PerlからCPANモジュールまでホームディレクトリ以下に全部インストールしてくれるので、自分専用のPerl環境を構築することができます。 perlbrewの作者の劉康民さんは、本当にすばらしいアイデアの持ち主。 pythonbrewとは 基本的にperlbrewをパクったと同じ思想なツール。 Pythonインタプリタのインストールから、それらの管理まで面倒をみてくれます。 例えば、一からPython2.6.6、2.5.5、2.4.6の環境を構築したいな
AWSのベーシックトレーニング資料です。EC2,EBS,AMIの操作をハンズオン形式でトレーニングして頂ける内容となっています。
必要な環境 Windows、Macなどインターネットが利用可能なOS環境 クラウドでHadoopを使うメリット 昨今ビッグデータ格納の基盤としてHadoopを使う事例が増えてきています。大規模なストレージを必要とせずにビッグデータを扱える環境は非常に魅力的です。 HadoopはGoogleの検索エンジンの基盤として開発されたGoogle File SystemおよびMapReduceの技術仕様を元に開発されたオープンソースソフトウェアです。ファイルを複数のサーバに冗長化した上で分散配置するHDFS(Hadoop Distributed File System)と、分散配置されている大量データから必要なデータの抽出や分解を行うHadoop MapReduceにより構成されています。 現在、Hadoopはクレジットカード会社の売上データの解析や、国立国会図書館が提供している検索サービスのインデ
使い方 AとBのサンプル数と比率に値を入力して計算ボタンを押すと、検定統計量を計算して検定を行い、比率Aと比率Bに差があると言えるかかどうかを結果に表示します。 例えば施策前後の直帰率の比較を検定する場合は、施策前をA、施策後をBとして、サンプル数に訪問者数、比率に直帰率を入力します。コンバージョンのA/Bテストを検定する場合は、パターンAをA、パターンBをBとして、サンプル数に訪問者数、比率にコンバージョン率を入力します。 有意水準とは、検定に使う確率のパラメータで、この確率が小さいほど差があるかどうかの判定が厳しくなります。通常は5%でいいでしょう。検定統計量とは、入力値からある公式によって計算される値で、この値が棄却域内に入る確率と有意水準を比べて有意差検定します。検定方法は、二群の比率の差の検定で、z分布を使った両側検定をしています。検定方法の統計的な説明については下の囲みを参照し
デプロイツールのCapistranoを試していると以下のようなtarコマンド実行時のエラーがでてデプロイ出来ませんでした。 executing "cd /var/www/sample.com/releases && tar xzf /tmp/20110919103603.tar.gz && rm /tmp/20110919103603.tar.gz" tar: Ignoring unknown extended header keyword `SCHILY.dev' tar: Ignoring unknown extended header keyword `SCHILY.ino' tar: Ignoring unknown extended header keyword `SCHILY.nlink' tar: Ignoring unknown extended header keywor
UNIXの代表的なダウンローダにwgetとcurlがあります。 たいていの場合どんなOSでも、どちらかのソフトがインストールされているのではないかと思います。 しかし、この2つのダウンローダの機能は、一見似ているようにも見えますが、実はそれぞれに特徴が見られるので、今日はそれについて解説してみます。 wgetの特徴 wgetのスペルは「片手でもコマンドできる」ということもあって、多くの人から気に入られています。 そんなwgetの特徴として、最も際立っているのが、クローラとして動作可能という点です。 オプションで-rを付加してやることで再帰的に動作し、-lでその深さを指定することができます。 また、-Aや-Rを利用すれば、ダウンロードする拡張子のホワイトリストとブラックリストを指定することも可能です。 つまり、特定のサイト内に散らばって存在するファイルを、拡張子によって指定ダウンロードできる
このドメインは お名前.com から取得されました。 お名前.com は GMOインターネットグループ(株) が運営する国内シェアNo.1のドメイン登録サービスです。 ※表示価格は、全て税込みです。
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く