タダです。 機械学習技術や Python に興味があり、色々と勉強中で技術を手を動かして学びたいと思っていました。 そんな折、からあげさん( id:karaage )の機械学習コンテンツを購入し、テキストマイニングのチュートリアルに取り組んだのでその内容をまとめていきます。 note.mu チュートリアル概要 Google Colaboratory について 関連記事 Google Colaboratory のメリット チュートリアルで学べること CSV ファイルの読み込み/抽出 データの前処理 単語ごとに分かち書きを行う Word Cloud でツイートの可視化 参考情報 ツイートから頻出単語の抽出 作成したコード まとめ 関連記事 チュートリアル概要 上記のチュートリアルでは「Google Colaboratory」を使って Twitter の自分のツイートでテキストマイニングを行いま
RESASは「Regional Economy Society Analyzing System(地域経済分析システム)」の略。読み方は「リーサス」。市区町村別の産業・経済の情報が提供されており、APIを利用して生データをダウンロードできる。 トップページ - RESAS 地域経済分析システム ここでは、PythonからRESAS APIを利用してデータをJSONやCSV形式でダウンロードする方法を説明する。 RESAS APIの基本的な使い方 APIキーを取得 仕様と使い方 RESAS-API一覧 例: 都道府県コード データを取得 JSONで保存 pandas.DataFrameに変換 CSVで保存 例: 市区町村コード 都道府県を指定して個別にダウンロード 全都道府県のデータを一括ダウンロード pandas.DataFrameに変換して連結 CSVで保存 JSONで保存 例: 一人当
tl;dr 作ったもの 知見 requests.get() を mock で置き換える S3 への put_object を moto で置き換える invoke コマンド Travis CI を使って, 複数の Python バージョンでテスト出来るようにする 以上 tl;dr inokara.hateblo.jp 前回の記事の続きというか, 前回, 突貫で作った Python スクリプトを自分なりに作り直してみました. スクリプトを作り直すにあたって, テストを書いたり, その上で Python 3 系の複数のバージョンでテストを Travis CI で回すようにしてみたり, モックを使ったり, 色々と経験出来たので覚書として残しておきたいと思います. 尚, あくまでも「自分なりに」なので, 誤り等あればご指摘頂けると幸いです. 作ったもの github.com 使い方とかは READ
はじめに Web上で長期間の株価データを探してもなかなか見つからないので,Pythonを用いて株価のヒストリカルデータを取得し,CSV形式で出力,さらに出力したデータをプロットするプログラムを作成しました. 日本株・外国株いずれにも対応しています. 参考までに,例として出力した日経平均株価1のCSVファイルはこちら,さらにプロットすると以下のようになります. ソースコードの紹介 まず,作成したソースコードを紹介します. #!/usr/bin/env python3 # -*- coding:utf-8 -*- ''' 株価データのプロット・CSVへの出力 ''' import datetime as dt from pandas import DataFrame import jsm import pandas_datareader.data as web import matplotli
Anacondaはインストールできましたでしょうか? インスールできたら、(Windowsなら)スタートメニューから、"jupyter notebook"を選べば、ブラウザベースで動く、Pythonのインターフェースが起ち上がるはずです。この"jupyter notebook"が、Pythonで統計解析するためのインターフェースになります。なかなかよくできています。 さて、Pythonでいじくるデータをまずは用意しないといけません。流行りのビットコインの価格を分析することにします。ビットコインの日足データは、このサイトで手に入ります。データソースや信頼性はよくわかりませんが、とりあえずはこのデータで遊んでみましょう。 ●CryptoCurrency Market Capitalizations: Historical data for Bitcoin https://coinmarketc
今日はPython (Pandas)で高速にCSVを読むことに挑戦したいと思います。 Kaggleに参加するたびに、イライラしていたので各実装の白黒はっきりさせようと思います。 R使いが羨ましいなぁと思う第一位がCSV読込が簡単に並列出来て速いことなので、 なんとかGILのあるPythonでも高速に読み込みたいと思います。 ただ、この検証ではコーディング量が多いものは検証しません。 CSV読込は頻出するので、フットワークの軽さが重要です。(オレオレライブラリ嫌い) Pickleは早いけど。。。 結論はDask使おう! 検証環境 データ 速度検証 pandas.read_csv() pandas.read_csv() (dtype指定) pandas.read_csv() (gzip圧縮) numpy.genfromtxt() pandas.read_csv() (chunksize指定 +
さよならexecel 僕はエクセルというアプリケーションが嫌いです。 1万行とかのcsvをエクセルに読みこんで、フィルターかけたり、関数をドラッグしてコピーしたりめんどくさいことみんな結構やるじゃないですか。 ロード時間なんか、日がくれんじゃねぇかってくらい時間かかる時あるし、macだとヌルヌル動かないし、そんなんでフリーズしてくれた日には、もうやる気なくして早退も辞さないわけですね。 あんなん発狂しますよ!!! エンジニアなら、csv importからのデーター加工・抽出からのexportからのftpサーバーアップロードまで全部コマンドだけで終わらせたい! エクセルなんて邪道 of 邪道! 信頼すべきデーターベースゥー!!! 要は、csvからcreate table文を作成して、load dataまで一括までするスクリプトさえあればもう、エクセルなんて、お別れwithout even s
概要 分析のためにデータ集めしていると、たまに マジか!? と思うサイズの CSV に出くわすことがある。なぜこんなに育つまで放っておいたのか、、、? このエントリでは普通には開けないサイズの CSV を pandas を使ってうまいこと処理する方法をまとめたい。 サンプルデータ たまには実データ使おう、ということで WorldBankから GDPデータを落とす。以下のページ右上の "DOWNLOAD DATA" ボタンで CSV を選択し、ローカルに zip を保存する。解凍した "ny.gdp.mktp.cd_Indicator_en_csv_v2.csv" ファイルをサンプルとして使う。 http://data.worldbank.org/indicator/NY.GDP.MKTP.CD?page=1 補足 pandas の Remote Data Access で WorldBan
PandasでNameとValueというカラムのあるCSVを読み込んで、「Nameが特定の値の時のValueを知りたい」という場合。なおNameは一意だとする。
まずはインポート import pandas as pd CSV, TSV pd.reed_csv(filename, header=None, names=['A', 'B'], index_col='A', ...) # filename以外は省略可能 # pd.reed_table()というメソッドもある。これは、sep=""パラメーターで区切り文字を指定できる。デフォルトはタブ Excel xls = pd.ExcelFile(filename) df = xls.parse('sheet_name') JSON import json json_data = json.loads(json_text) name = json_data[0]['name'] XML from lxml import objectify parsed = objectify.parse(open(x
システムの構築、新しい技術の習得、PythonやDevOpsなどに情熱を注ぐソフトウェア開発者です。現在はチューリッヒを拠点とするビッグデータのスタートアップで働いており、データ分析およびデータ管理ソリューションのためのPythonの技術を磨いています。 1 はじめに Python は開発時間を短縮できるという点で一般的に評価の高い言語です。しかし、Pythonを使って効率よくデータ分析をするには、思わぬ落とし穴があります。動的かつオープンソースのシステムであるという特徴は、初めは開発を容易にしてくれますが、大規模システムの破綻の原因になり得ます。ライブラリが複雑で実行時間が遅く、データの完全性を考慮した設計になっていないので、開発時間の短縮どころか、すぐに時間を使い果たしてしまう可能性があるのです。 この記事ではPythonやビッグデータで作業をする時に、最も時間を無駄にしがちな事柄につ
"csvkit" は CSV ファイルの処理や変換のためのユーティリティ群です。 Python で記述されており、コマンドラインスクリプトとして利用する方法と、 Python のモジュールとして利用する方法があります。 ソースコードのリポジトリとドキュメントはこちらにあります。 Repository - github.com Documentation - csvkit.readthedocs.org インストールする まずは Python の実行環境を整えます。 easy_install か pip を使えるようにして、 インストール用の引数に "csvkit" を指定するとインストールできます。 Python の実行環境が整っていない場合は、 こちらを参考にして virtualenv を使えるようにしておくと色々と便利です。 はじめの一歩 - skitazaki.github.com
フィードバックを送信 CSV ファイルを KML に変換する コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。 Google Geo API チーム、Mano Marks 2008 年 3 月 目標 このチュートリアルでは、Python を使用してカンマ区切り値(CSV)データから KML を作成する基本的な方法について説明します。CSV データは、現在最も広く使用されているファイル形式の 1 つです。ほとんどのスプレッドシートとデータベースは、CSV ファイルの読み取りと書き込みの両方に対応しています。シンプルな形式で、テキスト エディタで編集できます。Python などの多くのプログラミング言語には、CSV ファイルの読み取りと書き込みを行うための特別なライブラリがあります。そのため、大量のデータを交換するのに最適な媒体となります。 このチュートリアルの
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く