Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?

pandasにはデータを検索する機能があります。 何桁かのIDのうち最初の1文字目によってグループわけされている場合など文字列の一部を検索条件にしたいときの方法で躓いたのでメモ。 コードの実行にはJupyterを利用しました。 pipなどを利用してpandasをインストールしてください。 #環境 Python3.5 pandas0.17 Jupyter notebook #IDの仕様 1桁目:A~E 2桁目:A~E 3桁目:0~9 4桁目:0~9 5桁目:0~9 6桁目:0~9 例:AD3489 #準備:データの作成 ##IDっぽいデータを大量生成 あまり賢いコードではありませんがIDっぽい文字列と名前を200個生成しました。 import random id = [] text=['A','B','C','D','E'] name = [] namelistF = ['Thom','Wa
機械学習のデータ処理周りの実務で、よく使う関数をまとめました。 目次 はじめに Pandasとは scikit-learnとは NumPyは使わないの? 機械学習の言語はpythonでいいの? 機械学習(AI開発)の流れ 1.データの準備 データフレームを定義する(DataFrame) csvファイルを読み込む(read_csv) 2.データの前処理 <欠損値編> 欠損値をカウントする(isunull) 欠損値を削除する(dropna) 欠損値を補完する(Imputer) <文字列編> 文字列データを数値に変換する(map) <外れ値編> グラフを作成する(plot) 列の平均値/中央値を出力する(mean/median) 列の最大値/最小値を確認する(max/min) 3.データの基礎分析 データから特定の列だけを選択する(iloc/ix) データフレームに列を追加する(’カラム名’)
pandasのGroupByの拡張のようなTimeGrouperについて情報がなかったので備忘録として。 もっとデファクトスタンダードな方法があれば教えてください! 用例:特定の期間内での集計をしたい場合に有用 例 毎月の値を持つデータから6か月ごとに集計する 毎日の値をもつデータから1か月毎の集計をする タイムスタンプで取引記録を持つようなデータから日毎の集計をする 関連するstackoverflow How to groupby time series by 10 minutes using pandas? [1] timegrouper-pandas 用例1:毎月の値を持つデータから6か月ごとに集計する ([1]より) ts = pd.date_range('7/1/2008', periods=30, freq='MS') df = pd.DataFrame(pd.Series(r
After hours of tearing my hair, I've come to the conclusion that it is impossible to create a mixed dtype DataFrame without copying all of its data in. That is, no matter what you do, if you want to create a mixed dtype DataFrame, you will inevitably create a temporary version of the data (e.g. using np.empty), and the various DataFrame will constructors will always make copies of this temporary.
<訂正のお知らせ> 本文コードにトンチキなミスがあったので、内容を大幅に修正しました。 (2017/10/27) 結論も変わってます。ごめんなさい… イントロ 一頃、「最近のラノベは文章みたいなタイトルが付いてる」と話題になっていました。 国内最大手の小説投稿サイト、「小説家になろう」でも、その傾向は顕著です。 私は何年も「なろう」で小説読んでますが、うーん、確かに年々タイトルが長くなっていくような気がしますね。 とはいえ、「気がする」ではいけません。ささっと確かめてしまいましょう。 PythonとPandasライブラリを使えば、かなり簡単なお仕事です。 (2017/10/27追記 簡単だと思ってましたが、アホなミスをしてました。 お恥ずかしい……) なろう小説API こちらに公式の解説があります。 今回はざっくり、 タイトル 初投稿日(世代管理に使う) 総合評価(小説に振られるポイント。
PythonインタープリタのPyPy開発チームは10月5日、最新版「PyPy 5.9」を公開した。JSONパーサーの高速化、NumPyとPandasのPyPy2.7でのサポートなどが加わっている。 PyPyはPythonで作成したPythonインタープリタ。Python 2.7.13および3.5.3をベースに実装されており、高速な動作、JITコンパイラによる高い互換性、省使用メモリなどを特徴とする。また、スタックレスモード、大規模な並列処理向けのマイクロスレッド機能なども備える。 PyPy 5.9は6月に公開されたバージョン5.8に続く最新版。Python 3.5系と互換性がある「PyPy3.5 v5.9」、Python 2.7系と互換性がある「PyPy2.7 v5.9」の2種類を公開している。 数値計算ライブラリ「NumPy」やデータ分析機能のためのライブラリ「Pandas」がPyPy2
from pandas import DataFrame df = DataFrame([['AA',100],['AA',200],['AA',200], ['BB',100],['BB',200]],columns=['x','y']) #-------------------- # x y # 0 AA 100 # 1 AA 200 ← 重複 # 2 AA 200 ← 重複 # 3 BB 100 # 4 BB 200 #-------------------- df.duplicated().any() #-------------------- # True #--------------------
PyCon JP 2017カンファレンスレポート 2日目 Masaaki Horikoshi氏基調講演「pandas開発でのOSS活動」、Pythonによるサーバレス開発、PythonでIoT、そしてLT~クロージングへ 皆様、こんにちは。PyCon JPメディアチームです。先日公開したカンファレンス1日目の記事はいかがでしたでしょうか? 本レポートでは引き続き、9月9日に行われた2日目の基調講演やカンファレンスなどの様子をご紹介します。Youtubeへのリンクもありますので、ぜひご自宅や職場でカンファレンスの様子をご覧ください。 2日目基調講演「pandasでのOSS活動事例と最初の一歩」 ― Masaaki Horikoshi (小林正彦) 2日目の基調講演は、Masaaki Horikoshi氏による「pandasでのOSS活動事例と最初の一歩」です。Horikoshi氏はPytho
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く