タグ

CSVに関するdecoy2004のブックマーク (8)

  • 構造化テキストデータを操作するためのコマンドラインツールリスト | POSTD

    テキストベースのファイル形式と、それぞれを(主にLinux上で)操作するためのコマンドラインツールのリストを掲載しています。 目次 DSV XML,HTML JSON YAML,TOML INI 設定ファイル おまけ:単一ファイルデータベース用コマンドラインインタフェース(CLI) ライセンス 情報開示 DSV CSV や TSV などを含む DSV(Delimiter-separated values、区切り文字で区切られた値) です。 Awk AwkはPOSIXで標準化されているコマンドラインツールで、DSVデータ処理用プログラミング言語です。Awkに関するリンクは以下のとおりです。 Awk.info — Awkに関する情報が豊富です。 AWK Vs NAWK Vs GAWK —プラットフォーム別実装の比較です。 すでにプログラミング言語を使用してプログラミングをしている場合は、naw

    構造化テキストデータを操作するためのコマンドラインツールリスト | POSTD
    decoy2004
    decoy2004 2016/06/03
    XML や JSON の diff merge ツールはないの?
  • CSV形式のデータをSQLを使って解析する - Qiita

    q を利用すると、CSVやTSV形式のファイルに対して直接SQLを発行できます。 インストール手順 http://harelba.github.io/q/ qを使ったデータ解析の例 以下の様な受注データのCSV (ファイル名はorders.csv) が手元にあった時。 OrderId,OrderDate,ProductID,UserID,Quantity,TotalPrice 10000005,2015/2/13,100,10000,1,10000 10000006,2015/2/13,101,10001,2,2000 10000007,2015/2/13,102,10002,3,6000 10000008,2015/2/13,100,10003,1,10000 10000009,2015/2/13,101,10004,2,2000 10000010,2015/2/14,100,10005

    CSV形式のデータをSQLを使って解析する - Qiita
  • Apache Drill 1.0がリリースされたのでAmazon S3と連携してみた | DevelopersIO

    はじめに Apache Drill 1.0がリリースされました! Drill 1.0 Released Apache Drillは、NoSQL向けのSQLクエリエンジンで、ファイルシステム上のJSON/CSV/Parquetなどのファイル、Hiveソース、HBase、MongoDBなどに直接SQLクエリを投げることが出来ます。 何はともあれ、触ってみないとどんなモノなのかわかりません。早速試してみました! やってみた 試した環境はEC2(on Amazon Linux 2015.03)です。 セットアップ Drillの動作にはJDK 7が必要になりますので、インストールされていることを確認します。 $ java -version java version "1.7.0_79" OpenJDK Runtime Environment (amzn-2.5.5.1.59.amzn1-x86_64

    Apache Drill 1.0がリリースされたのでAmazon S3と連携してみた | DevelopersIO
  • 第5章 パーサコンビネータ―小さなパーサを組み合わせて大きなパーサを作る | gihyo.jp

    この章では、関数型の至宝であるコンビネータライブラリについて説明します。 コンビネータとは何か? この章でいうコンビネータとは、ある型の部品と部品を組み合わせて、同じ型のより大きな部品を作るための関数のことです。たとえば、パーサのコンビネータライブラリは、パーサを組み合わせるための各種コンビネータを提供しており、簡単にパーサを作成できます。コンビネータライブラリは、言語内DSL(Domain Specific Language)と表現してもよいでしょう。 関数型では、パーサに加えて、データを文字列でわかりやすく表示するプリティプリンタ、SQL、XML、ハードウェア記述、そしてデリバティブ(金融商品)記述、楽譜記述など多様なコンビネータライブラリが作られ、実際に使われています。この章では、パーサのコンビネータライブラリを取り上げます。 CSVのパーサ たとえ簡潔でも、実用的でないパーサの例だ

    第5章 パーサコンビネータ―小さなパーサを組み合わせて大きなパーサを作る | gihyo.jp
  • オープンソースのバルクデータローダー「Embulk」登場。fluentdのバッチ版、トレジャーデータが支援

    オープンソースのバルクデータローダー「Embulk」登場。fluentdのバッチ版、トレジャーデータが支援 何ギガバイトもあるCSVをデータベースに読み込ませるようなバルクデータをバッチ処理するためのツール「Embulk」がオープンソースで公開されました。 コミッターとして開発しているのは、ログ収集ツールとして知られるfluentdなどの開発者として知られる古橋貞之氏、西澤無我氏、中村浩士氏らで、3人が所属するTreasure Dataも開発を支援しています。 古橋氏はEmbulkについて「簡単に言うとfluentdのバッチ版です」と説明。1月27日に行われた「データ転送ミドルウェア勉強会」で、Embulkの紹介を行いました。 Embulkはプラグインベースのバルクデータローダー 古橋氏はまず、例えばCSVファイルをPostgreSQLに読み込ませようとすると、CSVの日付のフォーマットが

    オープンソースのバルクデータローダー「Embulk」登場。fluentdのバッチ版、トレジャーデータが支援
    decoy2004
    decoy2004 2015/01/28
    どれくらいクレンジングできるんだろう?
  • それでも独自のCSVを書くつもりですか? | POSTD

    一部誤訳の指摘があったため、修正しました!ご迷惑おかけして申し訳ございません! あなたは自分でCSVを書いてみたいですか? フィールドはコンマで区切り、行は改行で分けます。簡単ですよね。数行書けば勝手が分かるというものです。 でも、ちょっと待ってください。 フィールド内にコンマがある場合は? ダブルクォート(”)で、該当のフィールドを囲みましょう。簡単ですね。 では、ダブルクォートで囲めるフィールドに例外はあるのでしょうか? フィールド内にダブルクォートがある場合は? フィールド内の各ダブルクォートに対して、ダブルクォートを二重化して適用しましょう。そうすれば元のダブルクォートをエスケープすることができます。 なお、二重化したダブルクォートと空フィールドを囲んでいるダブルクォート( ...,"",... )を勘違いしないように気を付けてください。 フィールド内に改行がある場合は? その場合

    それでも独自のCSVを書くつもりですか? | POSTD
  • ExcelのCSVインポート・エクスポート機能を強化する「Excel CSV I/O」NOT SUPPORTED

  • 窓の杜 - 【NEWS】表計算やマクロ機能を備えるCSVエディター「Cassava Editor」

    表計算やマクロ機能を備えるCSVエディター「Cassava Editor」v1.5.1が、12月24日に公開された。Windows 2000/XPに対応するフリーソフトで、編集部にてWindows Vistaでの動作も確認した。現在、作者のホームページからダウンロードできる。 「Cassava Editor」は、汎用的に利用できるCSVエディター。CSV/TSV形式に対応しており、行や列の挿入・入れ替えといった基的な編集機能を備えているのはもちろん、指定した列をもとにしたソート機能や、セルの結合機能なども備えている。さらに、セル内に文字列や数値を入力していくと次に入力する列や行が自動的に追加されるため、編集作業を効率よく行うことが可能。 なかでもソフトの特長は、簡易的な表計算機能やマクロ機能を備えていること。“=”の記号で始まるセルの内容が計算式と見なされ、指定したセルの合計値などを表

    decoy2004
    decoy2004 2009/07/07
    多機能ながら汎用的に利用できるオーソドックスなCSVエディター
  • 1