タグ

データに関するpapiroのブックマーク (17)

  • 面倒な「ダミーデータ作成」をChatGPTに任せる〜Code Interpreterの限界までリアリティを追求した作業の記録【イニシャルB】

    面倒な「ダミーデータ作成」をChatGPTに任せる〜Code Interpreterの限界までリアリティを追求した作業の記録【イニシャルB】
  • 早く、安く、うまくシステムを刷新! 驚異的なパフォーマンスを誇るユニケージ開発手法【デブサミ2019夏】

    ユニケージ開発手法は、Unix系OSにおいてコマンドとシェルスクリプトでシステムを開発する手法である。Unix系OSの基機能のみを使用して、高速にデータ処理を実行できる。ユニバーサル・シェル・プログラミング研究所はこの手法の商標権を持ち、かつ独自コマンドの開発を続けている企業だ。同社 SI統括部長の井上祐一氏が、ユニケージ開発技法の持つ利点をデモンストレーションを交えながら解説した。 有限会社ユニバーサル・シェル・プログラミング研究所 SI統括部長 井上祐一氏 実装が用意。かつパフォーマンスに優れるユニケージ開発手法 ユニケージ開発手法は、データをテキストファイルで持ち、単機能のコマンドをパイプラインやリダイレクトなどと組み合わせてデータ処理を行うことに特徴がある。 Unix系OSが持つ既存コマンドでは処理ができなかったり、コンピューターの計算コストが高くなったりしてしまう場合には、新規

    早く、安く、うまくシステムを刷新! 驚異的なパフォーマンスを誇るユニケージ開発手法【デブサミ2019夏】
  • 『ビッグデータ分析・活用のためのSQLレシピ』はデータ分析でSQLクエリを叩く人なら必読の黒魔術大全 - 渋谷駅前で働くデータサイエンティストのブログ

    こちらのをご恵贈いただきました。 ビッグデータ分析・活用のためのSQLレシピ 作者: 加嵜長門,田宮直人出版社/メーカー: マイナビ出版発売日: 2017/03/27メディア: Kindle版この商品を含むブログを見る 一般的なSQLというのはDB管理の一環としてのインフラエンジニア向けの技術書であることが多く、意外にもデータ分析を主目的としたSQLの使い方やクエリの工夫の仕方について書かれたというのはあまり多くないんですよね。故に、多くのデータ分析者は難解なテーマを実現するクエリを書きたくても参考になる資料が乏しく、途方に暮れるわけです。僕もHive / Redshift / BigQueryのクエリを書きながら「こんな分析がしたいんだけど、それを実現できるクエリってないよなぁ。。。」と何度天を仰いだことか。 そんなところに突然降って湧いてきたのがこちらの新刊書。もう目次を見ただ

    『ビッグデータ分析・活用のためのSQLレシピ』はデータ分析でSQLクエリを叩く人なら必読の黒魔術大全 - 渋谷駅前で働くデータサイエンティストのブログ
    papiro
    papiro 2017/04/13
    個人的にはユニケージでやってみたいのだが・・
  • 【基本】平均値・中央値・最頻値はどう使い分ける? | なかけんの数学ノート

    主なデータの代表値に、平均値、中央値、最頻値の3つがあります。どれも、データ全体の特徴を表すものですが、どうして代表値が3つもあるのでしょうか。「1個なら覚えるのも楽なのに!」と言いたい人もいるでしょう。また、結局どれを使えばいいのかわからないという人もいるかもしれません。 ここではそういった疑問について考えていきます。3つの代表値のメリット・デメリットや、使い分けについて考えていきます。 各代表値の得意・不得意 代表値とは、データ全体の特徴を表した値のことです。平均値は、「すべての数値を足して、数値の個数で割ったもの」、中央値は、「数値を小さい方から並べたときに、真ん中に来るもの」、最頻値は、「一番個数が多いもの」です。どれも「データを特徴づける値」ですが、それぞれの代表値には、得意・不得意があります。 データが次のようにきれいな左右対称の山の形に分布していた場合は、平均値も中央値も最頻

    【基本】平均値・中央値・最頻値はどう使い分ける? | なかけんの数学ノート
    papiro
    papiro 2017/01/22
    簡単そうで簡単では無い
  • MNIST 手書き数字データを画像ファイルに変換する - y_uti のブログ

    MNIST 手書き数字データは、0 から 9 までの手書きの数字 70,000 点を収録したデータセットです。機械学習やパターン認識の手法を確認するために利用できます。以下のウェブサイトからデータをダウンロードできます。 MNIST handwritten digit database, Yann LeCun, Corinna Cortes and Chris Burges データは、訓練データ 60,000 点 (train) とテストデータ 10,000 点 (t10k) に分けられています。それぞれ、手書きの数字を表すピクセルデータ (images) と、それが 0 から 9 のどの数字なのかを示すラベルデータ (labels) からなります。いずれも、バイナリ形式で提供されています。 今回は、これらのデータをバイナリ形式からテキスト形式に変換して、簡単に、データの内容を確認したりス

    papiro
    papiro 2016/09/28
    バイナリデータを扱うシェル芸人発見・・・
  • 測定値の取り扱いと実験データ解析

    稿の目的は, 実験において誤差を含んだデータを取り扱う方法について 簡単に紹介することである。 まず有効数字と誤差という考え方について 説明したあとで, 実験データ解析に必要となる確率論の初歩について簡単に 紹介し, さいごに最小2乗法と呼ばれるデータ解析の手法について 簡潔に解説する。

    papiro
    papiro 2016/09/13
    数値データの取り扱いするなら理解しとかないと意味不明なことやっちゃうぞい
  • 統計、機械学習の勉強で使いやすい生データをダウンロードできるリンク集 - Qiita

    はじめに 統計、機械学習が流行しているので、勉強したいと考えている人が多いと思います。 が、しかし、実際に手を動かすためには、データがないと難しく勉強は困難です。 PRMLとか読んでも、実務で使えそうなイメージは湧きません。 そこで、生データをダウンロードできるリンク集を作ってみました。 見つけ次第増やしていきます。 過去の気象データ検索 by 気象庁 http://www.data.jma.go.jp/obd/stats/etrn/index.php 気象に関する情報のデータベースです。 条件を色々入れると、CSVを生成してくれます。 データ容量制限がありますが、いろいろ使えそうです。 人体寸法データベース by 産総研 https://www.dh.aist.go.jp/database/91-92/ 身体のいろんな場所の寸法に関するデータベースです。 足のサイズとか、顔の大きさとかの

    統計、機械学習の勉強で使いやすい生データをダウンロードできるリンク集 - Qiita
    papiro
    papiro 2016/02/26
    手を動かすためにデータが入手出来るようです。
  • 実務で使う統計手法は、5つ。すごい、そんなシンプル?

    このセミナー、冒頭の渋谷 直正さん(日航空 旅客販売統括部Web販売部 1to1マーケティンググループ アシスタントマネジャー)のお話がとても参考になりました。 まず、渋谷さんはご存知のように、2014年に「データサイエンティスト・オブ・ザ・イヤー」を受賞され、ビジネス・サイドにおける、データサイエンスのリーダー的存在です。 その渋谷さんの「実務で使う分析手法は5つで十分、マーケターこそデータサイエンティスト候補」という講演は、多くの示唆に富んだものでした。 まず、みなさんが気にしている5つの手法とは、 クロス集計 ロジスティック回帰 決定木 アソシエーション分析 非階層的クラスター分析(k-meansなど) の5つです。統計の教科書にはさまざまな手法が出てきますが、マーケターが実務で使うのはこの5つ程度だと説明されるのです。でも、この説明には、私も思い当たる部分があります。東大数学

    実務で使う統計手法は、5つ。すごい、そんなシンプル?
  • データフロープログラミング - Wikipedia

    データフロープログラミング(英: dataflow programming)は、データフローの原理とアーキテクチャに準拠したプログラミングパラダイムであり、コンピュータプログラムをオペレーション間のデータフローの有向グラフとして模型化する。データフロー言語は、関数型言語の特徴を共有しており、より数値処理に適したものになっている。 概要[編集] データフロー言語は、命令型プログラミングモデルなどの他の主要のプログラミング言語とは対照的である。命令型プログラミングではプログラムは一連の命令文で構成され、データの流れは見えない。この違いは瑣末に思われるかもしれないが、パラダイムとしての違いは非常に大きく、データフロー言語はマルチコアシステムやマルチプロセッシングシステムを自由に使える。 プログラミングにおける重要な概念として「状態」がある。状態とは基的には、システムの各種条件(変数)の測定値の

    データフロープログラミング - Wikipedia
    papiro
    papiro 2015/02/24
    シェル芸ってデータフロープログラミングですよね?
  • データ集計コマンドを極めてシステム処理と業務速度を爆速化するお話 - Y's note

    Index データ集計コマンド 爆速で検索したいぜ! lookを使う LC_ALL=Cを設定する データのランダムサンプリングがしたいぜ! sedを使う awkを使う sortの--random-sortを使う Script言語を使う shufを使う ランダムサンプリング速度比較 合計と平均値を集計したいぜ! 列データ取得 重複行のカウント 合計値出力 平均値出力 複数ファイルのデータ結合がしたいぜ! 共通項目での結合 同じ行数での結合 まとめ データ集計コマンド joinコマンドが便利過ぎて生きるのが辛い - Yuta.Kikuchiの日記 lookコマンドによる二分探索が速すぎて見えない - Yuta.Kikuchiの日記 今日はデータ集計を行う上で絶対に覚えておいた方が良いコマンドと知識を紹介したいと思います。これを身につければシステム処理と業務効率化に大きく繋がると思います。この記

    データ集計コマンドを極めてシステム処理と業務速度を爆速化するお話 - Y's note
    papiro
    papiro 2015/02/04
    テキスト処理系のデータ操作コマンド
  • 技術/UNIX/od, hexdump, xxd : 16進数 or 2進数ダンプ - Glamenv-Septzen.net

    id: 1224 所有者: msakamoto-sf 作成日: 2013-07-27 18:46:41 カテゴリ: Linux UNIX [ Prev ] [ Next ] [ 技術 ] 使うたびにググってるので、いい加減、よく使うパターンについてメモ。 16進数(od, hexdump, xxd)と2進数(xxd)ダンプ出力の、よく使うコマンド例のまとめ。 (unix上でのバイナリファイルの編集については 技術/vim/メモ6, バイナリデータの編集 とか参照。) od -v : 直前と同じ内容を持つ行も表示する。事実上、必須。 -Ax : 基数を16進数に。 -t : GNU od : -tx1z : 1バイトずつ16進数で、対応する文字を行末にまとめて表示。 BSD, Solaris : -tx1c : 1バイトずつ16進数で、対応する文字を次の行に表示。 $ echo "abcde

    papiro
    papiro 2015/01/12
    データのダンプコマンドの使い方。od、hexdump、xxd。
  • C#でCSVファイルからデータ読み込む(StreamReaderクラスとString.Splitメソッドによる方法) - whoopsidaisies's diary

    ファイルへの書き込みは以下 C#でCSVファイルにデータを書き込む ソースコード ファイルからの読み込みにはStreamReaderクラスを,文字をカンマごとに区切るのにはString.Splitメソッドを使用する. Nugetで検索したら便利そうなライブラリはたくさんあるし,Microsoft.VisualBasic.dllに含まれるTextFieldParserクラスを使う方法とかもあるが,ここではお手軽に使えるStreamReaderとString.Splitを使用. 以下は,CSVファイルから読み込んだ値をスペース区切りで画面に出力するプログラム. ダブルクォートがあってもそのまま除去できないし,データにカンマが含まれるものも扱えない.タイトル行とかももちろん認識しない. static void ReadCsv() { try { // csvファイルを開く using (var

    C#でCSVファイルからデータ読み込む(StreamReaderクラスとString.Splitメソッドによる方法) - whoopsidaisies's diary
  • C#.NET Tips

    引越しました:CodePress C#プログラミングTips サンプルコードはC#で記述されていますがVB.NETC++.NETへも転用可能です。 記述に誤りや、別の方法やアドバイスなどあれば掲示板等でコメント頂けると参考になります。 コードを簡略化するためにエラー処理などはあまり記述されていません ■C#.NET Tips 目次

    papiro
    papiro 2014/12/05
    C#の基本一覧かしらね
  • USP研究所所長 當仲氏に聞く「ユニケージ開発手法」で何が出来るのか?~特別インタビュー

    大体どこの会社にも「エクセル名人」と言われる方がいて、僕もいろんな会社に行ってびっくりするんですけど、A3の紙に出したら虫眼鏡で見ないといけないような、ものすごいエクセルの表やグラフがたくさんあるんです。これを作るには、ものすごいエネルギーがいる。また、そのエクセルを簡単に作るにはどうしたらいいかっていうことに、しのぎを削っている会社もあるんですね。ただエクセルを使えば使うほど、みんな限界を感じていると思うんです。エクセルやアクセス、ノーツなどのアプリケーションを使いこなしたら、全て何とかなるというわけではないんですね。アプリケーションというのは、ある目的のために専用で使用することを前提としています。例えばエクセルは表計算が出来ますが、実はそれ以外のことはあまり出来ないんです。エクセルに不向きな処理を行うと、果てしなく時間が掛かることもあります。 「ユニケージ開発手法」を用いると、エクセル

    USP研究所所長 當仲氏に聞く「ユニケージ開発手法」で何が出来るのか?~特別インタビュー
  • 統計屋のためのAWK入門 - あんちべ!

    はじめに 稿はAWKという言語を用いて、 ごく簡単にデータ分析用の前処理*1をするための解説記事です。 AWKは短いコマンドを記述するだけで多様なデータ処理を可能にします。 特にデータの抽出に関して恐るべき簡易さを提供します。 具体的には、input.txtというファイルの中から "fail"という文字列を含む行を抽出したければ次のように書くだけです。 awk /fail/ input.txt つまり、スラッシュ記号で文字列を指定するだけで その文字列を含む行を抽出できるのです。 大変簡単ですね! また、awkはLinuxMacには標準で入っており、 Windowsでもawk.exeを一つ用意するだけなので、 面倒なインストール作業や環境構築は不要で誰でも即座に使えるため、 自分で書いた処理を他人に渡したり*2各サーバに仕込むなども簡単に出来ます。 複雑な処理をする場合はPython

    統計屋のためのAWK入門 - あんちべ!
    papiro
    papiro 2014/09/16
    データ処理にawk再入門
  • 「大事なのは情報の自由度です」~當仲寛哲氏・ユニバーサル・シェル・プログラミング研究所 代表取締役所長

    UNIXのシェルスクリプトを使って、大量データを高速で処理する開発手法が流通業などで利用されている。この「ユニケージ開発手法」を提唱するユニバーサル・シェル・プログラミング研究所の當仲寛哲代表取締役所長は、自らプログラムを書く人物だが、もともとはスーパーのダイエー社員でコンピュータとは無縁、コマンドやシェルスクリプトなどはまったく知らなかった。 情報システムの世界に入るきっかけは、衣料品の改革プロジェクトに呼ばれたことだった。当時のダイエーでは紳士服の販売が好調だったが、それが悪くなりかけた時期だった。店舗や商品部の聞き取り調査をしていく間に「それぞれの意見がバラバラ」なことに気づいた。 人は自分が見たものや経験したものを基準に意見を言う。会社が大きくなればなるほど、分業になり経験範囲が限られるため、意見がバラバラになってしまう。根拠が違うから結論も違う。方向性を合わせていくのは大変だ。

    「大事なのは情報の自由度です」~當仲寛哲氏・ユニバーサル・シェル・プログラミング研究所 代表取締役所長
  • なぜ高い金をかけて作ったシステムで今までExcelで簡単に出来ていたことが出来なくなるのか - novtan別館

    うん、気持はよく分かるよ。 例えばフィルターとか超使ってるし、タブをドンドン増やしてハイパーリンクでつないで元データから引っ張ってきて計算して表組みを作成するとかいつもやってるような作業が新システムだと厳しい(=できないor莫大な時間と金がかかる)らしい・・。帳票は固定になりますね、帳票増やすと増やした分だけ金かかります、みたいな感じ。 エクセルでできることができない何百万のシステム・・ うんうん。なんでそんな不自由になるんだろうね。 シンプルに考えましょう。きちんとシステム化されていないものをシステム化するというのは言いかえると「業務プロセスを必要最小限に絞る」ことだと思って下さい。 何のために作るのか 理由はいくつかあります。ざっと上げてみると 属人化した業務プロセスを標準化する(しかし、ある人にとってはいつもどおりだがある人にとっては今までやってたことが全然できないシステムになること

    なぜ高い金をかけて作ったシステムで今までExcelで簡単に出来ていたことが出来なくなるのか - novtan別館
  • 1