[B! csv] manabouのブックマーク

manabou id:manabou

csvに関するmanabouのブックマーク (42)

GitHub - YS-L/csvlens: Command line csv viewer
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
manabou 2024/01/09
csv

viewer
リンク
AWS Outpostsで実現するオンプレデータレイク - NTT Communications Engineers' Blog
はじめにこんにちは、イノベーションセンターの鈴ヶ嶺です。普段はクラウドサービスをオンプレ環境でも同様のUI/UXで使用を可能とするハイブリッドクラウド製品の技術検証をしています。 NTT Comでは以下の過去の記事のように、AWSのハイブリッドクラウドソリューションAWS Outposts ラックの導入や技術検証を進めています。 engineers.ntt.com engineers.ntt.com engineers.ntt.com 本記事では、AWS Outpostsで実現するオンプレ環境におけるデータレイクのユースケースについて紹介します。データレイクとは構造化データ、非構造化データに関わらず全てのデータを一元的に保存可能なストレージを意味しています。このユースケースにより、低遅延性が求められる、もしくは秘匿性の高い大規模なデータをオンプレ環境で一元的に取り扱うことが可能となり
manabou 2022/08/09
aws

csv

outpost

azure

arc

datalake
リンク
エラーメッセージ | ライティング | SmartHR Design System
SmartHRアプリケーション内で表示されるエラーメッセージの作成に関するガイドラインです。
manabou 2022/04/27
error

message

csv

design

document
リンク
Home
# タブで複数のCSVを一元管理ファイルのドラッグ＆ドロップにも対応し、複数のファイルをまとめて開けます。 # 文字コード・改行コードの変換に対応 ShiftJIS や UTF-8 をはじめとした、様々なエンコーディングに対応。改行コードの変更も簡単に行なえます。 # 区切り文字の指定が可能 .csv はもちろん、 .tsv 形式のファイルにも対応。「カンマ区切り」や「タブ区切り」のほか、「|（パイプ）」「★」など任意の区切り文字を指定できます。
manabou 2021/06/19
csv

editor
リンク
うわっ…私のpandas、遅すぎ…?って時にやるべきこと（先人の知恵より） - Lean Baseball
※あくまでもイメージです（適当）仕事じゃなくて、趣味の方の野球統計モデルで詰まった時にやったメモ的なやつです.*1 一言で言うと、約19万レコード（110MBちょい）のCSVの統計処理を70秒から4秒に縮めました. # 最初のコード $ time python run_expectancy.py events-2018.csv RUNS_ROI outs 0 1 2 runner 0_000 0.49 0.26 0.10 1_001 1.43 1.00 0.35 2_010 1.13 0.68 0.32 3_011 1.94 1.36 0.57 4_100 0.87 0.53 0.22 5_101 1.79 1.21 0.50 6_110 1.42 0.93 0.44 7_111 2.35 1.47 0.77 python run_expectancy.py events-2018.c
manabou 2021/06/09
pandas

machinelearning

programming

csv

performance

python
リンク
【自動化】PDF内の表をPythonで抜き出す - Qiita
PDFは扱いにくい PDFファイルをPythonで扱うのは大変です。表がPDFの中に埋め込まれているケースも割とあります。例えば平成30年全衛連ストレスチェックサービス実施結果報告書の中にはたくさんの表データが埋め込まれています。例えばファイルの40ページの【表14 業種別高ストレス者の割合】を抜き出したいと思ったとします。この表を選択して、Excelにコピペしてみましょう。コピーして、Excelに貼り付けます。おや？うまくいかないですね。 1つのセルの中に、全部のデータが羅列されてしまっています。実はPythonを使ってこのPDF中の表を比較的簡単にcsvやExcelに変換することができます。 PythonでPDFの表をcsvに PythonでPDF内の表(テーブル)をcsvやexcelに変換する手順は2ステップです。ステップ1. PDFから表をpandasのData
manabou 2020/06/28
tabula

python

automation

pdf

table

scrape

scraping

csv

excel
リンク
AWS、SQL互換の新問い合わせ言語「PartiQL」をオープンソースで公開。RDB、KVS、JSON、CSVなどをまとめて検索可能
Amazon Web Services（以下AWS）は、SQL互換の新しい問い合わせ言語およびそのリファレンス実装である「PartiQL」をオープンソースとして公開したことを発表しました。 PartiQLはSQL互換の構文に最小限の拡張を施すことで、リレーショナル形式のデータベースだけでなく、KVSやJSONなどを含むNoSQLデータベースやCSVファイルなど、さまざまなデータソースに対して横断的に検索できる問い合わせ言語およびそのリファレンス実装です。下記はPartiQLを発表したブログからの引用です。 Today we are happy to announce PartiQL, a SQL-compatible query language that makes it easy to efficiently query data, regardless of where or in
manabou 2019/08/05
partiql

sql

database

rdb

db

kvs

json

csv
リンク
Kaggleに登録したら次にやること～これだけやれば十分闘える！Titanicの先へ行く入門 10 Kernel ～ - Qiita
Kaggleに登録したら次にやること～これだけやれば十分闘える！Titanicの先へ行く入門 10 Kernel ～PythonKaggle 事業会社でデータサイエンティストをしているu++です。普段ははてなブログ1で、Kaggleや自然言語処理などデータ分析に関する記事を定期的に書いています。 Kaggleでは2019年に「PetFinder.my Adoption Prediction」2というコンペで優勝（チーム）し、「Santander Value Prediction Challenge」3というコンペで銀メダルを獲得（個人）しました。「Kaggle Master」と呼ばれる称号4を得ており、Kaggle内ランクは、約16万人中最高229位です5。本記事では「Kaggleに登録したら次にやること」と題して、Kaggleに入門したい方に向けて次のようなコンテンツを掲載します。
manabou 2019/04/01
kaggle

competitiveprogramming

csv

kernel

algorithm
リンク
わかった気になれるKaggle入門 - Misoca開発者ブログ
こんにちは。開発者ブログに初めて投稿します。id:toyoshi です。先週Misoca社のSlackの褒めチャンネルを紹介しましたが、私があそこで褒められたことがあるのは「Zoomでスペースを押してる間ミュートが解除されるようになるオプションを教えた」「アンケートの質問を考えるのが早い」の2点です。本来の仕事の方でも褒められていきたいです！さて、今回のエントリでは先日社内で開催したKaggleの勉強会の内容を紹介します。やったことがないと難しそうなイメージのあるKaggleですが実は入門だけなら知識ほぼ0でも大丈夫なのです。このエントリを参考にぜひ入門してみてください。今回のゴール Kaggleでアカウントを作り、コンテストに参加して、予測を提出するところまでを目指します。環境の準備なし、プログラミングなし、統計の知識なしでKaggleの予測提出までの流れがわかるようになってい
manabou 2018/11/02
kaggle

csv

machinelearning
リンク
Python: pandas-profiling でデータセットの概要を確認する - CUBE SUGAR CONTAINER
今回は pandas-profiling というパッケージを使ってみる。このパッケージを使うと pandas の DataFrame に含まれる各次元の基本的な統計量や相関係数などを一度に確認できる。最初にデータセットのサマリーを確認できると、その後の EDA (Exploratory Data Analysis: 探索的データ分析) の取っ掛かりにしやすいと思う。使った環境は次の通り。 $ sw_vers ProductName: macOS ProductVersion: 12.4 BuildVersion: 21F79 $ python -V Python 3.9.13 $ pip3 list | grep pandas-profiling pandas-profiling 3.2.0 下準備まずは必要なパッケージをインストールしておく。 $ pip install pand
manabou 2018/10/31
pandas

profile

dataset

container

kaggle

csv
リンク
[Python] 株価データをプロットし，さらにCSVファイルを出力する - Qiita
はじめに Web上で長期間の株価データを探してもなかなか見つからないので，Pythonを用いて株価のヒストリカルデータを取得し，CSV形式で出力，さらに出力したデータをプロットするプログラムを作成しました．日本株・外国株いずれにも対応しています．参考までに，例として出力した日経平均株価1のCSVファイルはこちら，さらにプロットすると以下のようになります．ソースコードの紹介まず，作成したソースコードを紹介します． #!/usr/bin/env python3 # -*- coding:utf-8 -*- ''' 株価データのプロット・CSVへの出力 ''' import datetime as dt from pandas import DataFrame import jsm import pandas_datareader.data as web import matplotli
manabou 2017/11/23
csv

pandas

python

data

plot
リンク
Elastic Stack 6.0GAがリリースされました。 - Taste of Tech Topics
皆さんこんにちは IBIS2017に参加した@tereka114です。本日、Elastic Stack 6.0のGAがリリースされました。そこで、今回の記事では、Elastic Stack 6.0GAの注目の機能を簡単に紹介します。ちなみに、以前、Elastic Stack 6.0に関係する記事として、Elastic Stackの6.0のBeta版の紹介をしました。 acro-engineer.hatena blog.com また、今回のElastic Stack 6.0GAについて公式からElastic Stack 6.0GAの紹介を次のサイトで行っています。より詳細なElastic Stack 6.0 GAの変更点はこちらを確認してください。 Elastic Stack 6.0.0 GA is Released | Elastic Elasticsearch Elasticsea
manabou 2017/11/16
elasticsearch

dashboard

csv

kibana
リンク
日本郵便が公開する郵便番号データをそのまま利用するのがなぜ難しいか。そして、住所から郵便番号を求めるのがなぜ難しいか［PR］
日本郵便が公開する郵便番号データをそのまま利用するのがなぜ難しいか。そして、住所から郵便番号を求めるのがなぜ難しいか［PR］郵便番号はコンピュータで扱う数字データとしてもっとも身近なもののひとつです。例えば、ユーザーが入力した郵便番号から住所を補完する処理は、一般的なWebアプリケーションでよく行われています。また、ダイレクトメールの到達率の向上や返送率の低下のため、あるいは住所データをつねに最新のものにするため、住所から適正な郵便番号を付番する処理なども行われています。その郵便番号は、実は毎月アップデートされています。というのも、市町村の合併や土地の区画整理、新しいビルやマンションの建築など、郵便番号にかかわるさまざまな現実が変化しているためです。最新の郵便番号データはつねに日本郵便のWebサイトで公開されています。
manabou 2017/11/15
map

data

csv
リンク
trdsqlというコマンドラインツールを作った - Qiita
trdsqlというコマンドラインツールを作りました。 Goで作ってます。 githubの trdsqlからダウンロード出来ます。またLinux/Windows/macOSのバイナリもあります。以下は、古くなっている内容もいくつかあります。最新版に対応した、より詳細な内容は trdsql 目次 | Noboru Saito's page を参照して下さい。これは何？簡単に言えばCSV(TSV含む)やLTSVに対してSQLを実行できるツールです。同様のツールが q や textql 等いくつかあります。 trdsqlはPostgreSQLドライバとMySQLドライバを含んでいて実際にDBに接続することでSQLite以上の機能を使用できるようにしています。 PostgreSQLやMySQLの構文が使えるだけではなく、CSVファイルと実テーブルでJOINしたり、CSVファイルからテーブ
manabou 2017/08/22
ltsv

sql

golang

trdsql

csv
リンク
PythonでCSVを高速＆省メモリに読みたい - tkm2261's blog
今日はPython (Pandas)で高速にCSVを読むことに挑戦したいと思います。 Kaggleに参加するたびに、イライラしていたので各実装の白黒はっきりさせようと思います。 R使いが羨ましいなぁと思う第一位がCSV読込が簡単に並列出来て速いことなので、なんとかGILのあるPythonでも高速に読み込みたいと思います。ただ、この検証ではコーディング量が多いものは検証しません。 CSV読込は頻出するので、フットワークの軽さが重要です。（オレオレライブラリ嫌い） Pickleは早いけど。。。結論はDask使おう！検証環境データ速度検証 pandas.read_csv() pandas.read_csv() (dtype指定) pandas.read_csv() (gzip圧縮) numpy.genfromtxt() pandas.read_csv() (chunksize指定 +
manabou 2017/08/18
pandas

csv

memory

performance

python
リンク
BigQuery上でIPアドレスから位置情報を算出する方法 - matsukaz's blog
概要クライアントのIPアドレスを含んだ行動ログをBigQueryに保存し、どの地域からアクセスされているのかを分析したいなと思ったので、やり方をまとめました。 3年以上前の情報ですが、以下の記事を参考にしています。 cloudplatform.google blog.com 準備以下のような元データをBigQuery上に用意します。 $ cat test_data.csv 1,192.188.171.9 2,202.41.146.198 3,103.83.231.23 4,202.64.101.91 5,43.240.52.112 6,103.12.247.112 7,217.228.79.15 8,35.10.42.69 9,86.40.207.143 10,66.71.60.27 11,72.136.125.125 12,68.144.88.194 13,194.197.79.18
manabou 2017/08/17
bigquery

ip

map

location

csv

sql

geo
リンク
【短命に終わった】国民の祝日.csvをパースして変換するRubyプログラムとコード解説動画 - Qiita
はじめに 1週間ほど前、内閣府の「国民の祝日」CSVがひどい、みたいな話が話題になっていました。参考：【悲報】内閣府の「国民の祝日」CSVがひどいと話題になぜ「ひどい」と言われていたのかというと、普通のプログラマが期待する「日付と名前が上から下に並ぶCSV」ではなく、「2016年の列 => 2017年の列 => 2018年の列」のように年単位で列方向（横方向）に繰り返すフォーマットになっていたからです。（しかも一番下に「月日は表示するアプリケーションによって形式が異なる場合があります。」みたいな注意書きが入ってる！）まあ、ひどいと言えばひどいんですが、これを扱いやすいフォーマットに変換するプログラムを作るのはなかなか面白そうだなと思いました。というわけで、そんなプログラムを作りました！国民の祝日.csvをパースするプログラム、とりあえずコードは書いた。https://t.co
manabou 2017/03/02
ruby

csv
リンク
Python Jupyter notebookでpandasを使いCSVを読み込みグラフを描画してpdfなどで保存する方法
ここから特定の行（列）だけを抜き出してグラフにします。それで簡単な説明はあとでするとして、忘れないようにコードを書いておくことにします。 %matplotlib inline import numpy as np import matplotlib.pyplot as plt import pandas as pd import os df = pd.read_csv("/Users/yourname/Desktop/book.csv", encoding="UTF-8") plt.figure(figsize=(8, 6.5)) plt.rcParams["font.size"] = 22 plt.rcParams["xtick.labelsize"] = 12 plt.rcParams["ytick.labelsize"] = 15 plt.rcParams["legend.fonts
manabou 2017/02/11
python

jupyter

pandas

csv

pdf
リンク
dstat2graphs(dstatグラフ化ツール)の更新 - SH2の日記
5年前に作ったdstat2graphsを更新しました。 sh2/dstat2graphs: Draw graphs from a dstat CSV file. - GitHubリポジトリ dstat2graphs - dbstudy.info - デモサイト k01sl6.local 2017/01/29 17:54:14 - dstat2graphs - サンプルレポート RHEL 7系に対応し、RHEL 5系の対応を終了しました。 dstatのオプション -r(Disk IOPS) と -l(Load Average) に対応しました。任意の取得間隔秒数に対応しました。 X軸に経過時間を表示するか実際の時刻を表示するかを選べるようにしました。 OSのリソース情報を収集する際、本番環境であればZabbix、Elastic Stackなどの監視ツールを使うところですが、試験環境でしたら
manabou 2017/01/31
dstat

graph

csv

iostat
リンク
普通の人のためのデータ分析（4）最新の貿易統計を取得して、CSVにする - Qiita
貿易統計は、もっともアクセスが多い政府統計です。 kaggle ダウンロード数１０００超えました貿易統計は、一か月ごとに、集計されます。集計は速報から、HSコードという分類コードがきちんとついたデータまで何段階かあります。HSコードつきは、約一か月後に公開されます。そのデータを使い勝手のよくなるように、ひとつにまとめて、CSVにしました。ぜひ、ダウンロードして、分析してみてください。結構面白いです。月別は、展開するとかなりの大きいです。1988-2015 だと４Ｇ 2012-2015 でも５６０Ｍです。まとめたデータ(CSV形式、zipで圧縮、拡張子は、.csv)は、 !New 1988年から2015年まで、展開すると４Ｇあります !New 2016年 1-6月+2015年一年分 kaggle で公開 2012年から2015年まで、月別（約80M） 2012年から2015年まで、年
manabou 2016/06/15
csv

data
リンク
1 2 3 次のページ