sh19910711のブックマーク - はてなブックマーク

sh19910711 id:sh19910711

ブックマーク / qiita.com/ynakayama (7)

Jinja2 テンプレートエンジンにおける nan/None の空白化や数値カンマ区切りといった編集方法 - Qiita
はじめに前回の続きで Flask の話です。データ分析のみならず、データセットの加工に便利なため、バックで pandas を採用しているケースを想定しています。 Flask はテンプレートエンジンとして Jinja2 を採用しています。このとき pandas のデータフレームのほうで欠損値を持っていることって結構あるんじゃないかと思います。データフレームの欠損値をそのまま Jinja2 でウェブページに出してしまうと恐ろしいことに None だとか nan と表示されてしまいます。事前に data.fillna(0) などで欠損値を埋めればいいのですが、今回はテンプレートエンジン側での回避方法を説明します。テンプレートで欠損値を表示しない数値型・欠損値の場合数値型のデータに欠損値がある場合、そのまま表示させると nan (Not A Number) が表示されます。そこで n
sh19910711 2024/06/16
"pandas のデータフレームのほうで欠損値を持っていることって結構ある / 事前に data.fillna(0) などで欠損値を埋めればいいのですが、今回はテンプレートエンジン側での回避" 2018

*program

python

webapp

--

*data
リンク
pandas で 3 次元のデータ構造を扱う - Qiita
3 次元のデータを扱う pandas におけるデータ構造として主要なものに 1 次元つまり線の Series と 2 次元つまり表形式の DataFrame があります。これは pandas における主要なオブジェクトであり Python for Data Analysis でも詳しく解説されています。しかし実はもう一つ主要なオブジェクトがあります。それが Intro to Data Structures でも 3 つ目に登場する 3 次元の Panel です。この 3 次元のデータ構造は、たとえば毎日の表データから任意の数値を取り出して時系列のログに関する統計分析をおこないたいといった用途において役立ちます。 Panel オブジェクトを作る Panel は辞書形式にした DataFrame または 3 次元の ndarray を引数にとることで生成することができます。具体的にやってみ
sh19910711 2024/06/15
"線の Series と 2 次元つまり表形式の DataFrame / もう一つ主要なオブジェクトがあります。それが Intro to Data Structures でも 3 つ目に登場する 3 次元の Panel / 積み重ねたデータフレームに対し統計関数を利用する" 2014

*data

*program

python
リンク
TA-Lib と pandas によるテクニカル指標の算出 - Qiita
Python で金融データを収集し分析するにあたり、テクニカル分析における代表的な指標を算出するにあたってはライブラリとして TA-Lib があります。以前に書いたように pandas で株式の日足データ (= 日ごとの始値、高値など) を分析する場合、代表的なさまざまな指標を算出するにはすべて自前で実装するよりライブラリを使ったほうが便利ですし安心です。 TA-Lib http://ta-lib.org/ TA-Lib を使えるようにするこの TA-Lib を Python で利用するには Python 用のバインディングが用意されています。インストール方法 http://mrjbq7.github.io/ta-lib/install.html インストール方法は簡単でソースの tar ボールをダウンロードして make install すれば良いです。上のリンク先では --pref
sh19910711 2020/03/01
移動平均とか良い感じにやってくれるのか

*data

統計

*program

python
リンク
大量のニュースから興味関心のある話題をベイジアン分類で抽出する - Qiita
前々回はニュースデータを収集するために RSS/Atom フィードを利用する話を書きました。 RSS/Atom フィードには全文配信と要約配信があり、昨今ではページビューを稼ぐため要約配信、特にリンクがリダイレクトになっているものや、本文がカラのものが多いという話をしました。全文配信 … タイトル、リンク、それに記事本文全体を含むフィード要約配信 … タイトル、リンク、記事の一部のみまたは本文がカラのフィードフィードデータをためる方法前回は一部で最近話題の Fastladder のセットアップ方法を紹介し、付属のクローラーを使ってサーバーのデータベースにフィードを溜めるという方法を説明しました。いずれ別の記事で詳しく述べますが Fastladder はサーバー設置型な上、ソースコードは公開されていますので、クローラー自体を自作することも可能です。また fluentd は柔軟なロ
sh19910711 2019/10/14
*algorithm

NLP

分類
リンク
ローソク足チャートと移動平均線のプロット - Qiita
おはようございます。ようやく春らしい季節になってきましたね。今日は前回に引き続いてもう少し株価の話をします。前回の話ではどうやって分析するかという話で、理想株価の算出式と移動平均線について触れました。忘れてしまった方はもう一度前回の記事の後半を読んでください。まず余談さて話はそれていきなり余談ですが、先週は有名ソーシャルゲーム「パズドラ」をめぐる炎上騒ぎが大変なことになりましたね。パズドラといえば 3,000 万ダウンロードを越える人気ゲームであり、あのコンプガチャ騒動の後にあらわれて、無料でも楽しめる仕様として課金額を低額に抑え人気を博しガンホーバブルが発生、まさに新しいソーシャルゲーム時代の代表格みたいなものですから四方や知らない方はいないかとは思います。もっともその後バブルがはじけ最近ではパズドラ一本ではだいぶ苦戦しているようですが、先週はそのパズドラにおいてスクエニとのコラ
sh19910711 2018/12/02
*data

株

*program

python
リンク
データ分析において必要なことを原点に立って考えてみる - Qiita
今日は統計や技術の詳細な話は少しお休みして、そもそもデータマイニングとは何なのか、分析において必要なことは何なのかを考えてみます。仮説力とは何なのかデータ分析の実務においては、分析モデルの手法や統計的方法の前にまず検討しなければならないことが多々あります。たとえば分析対象の問題をどのように設定するか、対象の特徴 (= 属性、振る舞い等) をどのように表現するか、何を可視化するかあるいはそれをどう決めるか、ログなどを用いて特徴の計算方法をどのように定義するか、といったことなどです。実務というのは大学での実験ではありません。目の前にあるデータに対して興味先行で機械学習や統計的手法を適用しても得られるものはありません。統計学の有名な言葉に GIGO (ゴミを入れればゴミが出てくる) という言葉がある通り、高度な解析手法やツールに溺れても自己満足で不適切な分析に終わってしまうのです。分析の
sh19910711 2017/07/22
*data

データ分析

考え方
リンク
pandas + matplotlib による多彩なデータプロッティング - Qiita
科学技術計算用言語としての Python そもそもなぜデータ分析などの科学技術計算を Python でやるのでしょうか。主に次の二点によります。 NumPy, pandas, matplotlib など豊富なライブラリが揃っている汎用性の高いグルー言語として利用できるデータフレームを利用した計算とそのグラフ描画 (プロッティング) のみであれば R のほうがどちらかといえば簡単かもしれません。しかし統計解析を汎用性の高い Python で完結させることで様々な分野へのより幅広い応用が可能になります。 NumPy 統計解析の多くはベクトル演算を伴います。 NumPy は高速でメモリ効率の良い多次元配列の実装である ndarray を備えています。プログラミング言語に元から備わっている配列・ハッシュオブジェクトでは到底かなわないような高次元のベクトル演算を可能にします。またファンシーインデ
sh19910711 2016/08/18
*program

python
リンク
1