タグ

データに関するAinHandのブックマーク (11)

  • 競馬の予測をガチでやってみた - stockedge.jpの技術メモ

    的に競馬なんてやるべきではないと私は思っている。胴元の取り分が多いからだ。宝くじに比べればまだましだが、それでも賭け金の20~30%は胴元に取られることになる。*1 しかし今回は、ちょっと思い立って競馬の予測をやってみることにした。 理由は馬券の安さだ。私は現在、資金量が少ない人間でも不利にならない投資先を探しているのだが、馬券の一枚100円という安さは魅力的に映る。株の場合にはどんな安い株であれ最低購入額は数万円以上*2なので、ある程度まとまった資金が必要になる。 また、競馬には技術介入の余地(努力次第で勝利できる可能性)がある。 例えばこんな例がある。 160億円ボロ儲け!英投資会社が日の競馬で荒稼ぎした驚きの手法 - NAVER まとめ 彼らは統計解析によって競馬で勝っており、その所得を隠していたらしい。こういうニュースが出るということは、解析者の腕次第では競馬で勝てる可能性が

    競馬の予測をガチでやってみた - stockedge.jpの技術メモ
  • TFIDFを使ってwikipediaの各キーワードの特徴量を抽出 - のんびり読書日記

    以前にk-means++をPerlで書いたのですが、実際に試すデータがなかったのでそのまま放置してました。せっかくなので大きなデータで試してみたいので、今回は下準備としてwikipediaの各キーワードに対し、その特徴を表すデータを抽出したいと思います。そして今回作ったデータを使って、k-meansや階層的クラスタリングなど他の手法をいずれ試してみる予定です。 今回は特徴量としてベタにTFIDFを使うこととします。TFIDFについては、下記のページが詳しいためそちらをご参照ください。 形態素解析と検索APIとTF-IDFでキーワード抽出 tf-idf - Wikipedia まずWikipediaのデータをダウンロードしてきます。以下のページから、「jawiki-latest-pages-articles.xml.bz2」をダウンロードしてください。 http://download.wik

    TFIDFを使ってwikipediaの各キーワードの特徴量を抽出 - のんびり読書日記
  • URLを入力するだけ!コンテンツをスクレイピングしてデータ化してくれる無料ツール「import.io」

    import.ioとは import.ioは、データ化したいページのURLを入力するだけで、自動でデータ箇所を判断して情報を集めてくれるスクレイピングサービスです。 無料で利用することができ、セットアップも、データ収集用のトレーニングなども必要ありません。 URLを入力して、ボタンを押すだけという簡単さから、誰にでも利用できるデータ収集ツールだと思います。 以下では、その簡単な使い方や、利用例などを紹介したいと思います。 定期的なサイトへのスクレイピングは相手サイトの負荷になるので、一日に何度も何度も同一サイトに使用するのはやめましょう。加えて、取得したデータを、そのまま何かに利用すると著作権違反になる恐れもあります。 基的な使い方 import.ioの最大の特徴は、使い方の簡単さです。 以下では、その使い方の例として、IKEAのソファー検索結果ページのデータを取得してみたいと思います。

    URLを入力するだけ!コンテンツをスクレイピングしてデータ化してくれる無料ツール「import.io」
  • 統計・データ解析

    『Rで楽しむ統計』が出ました。サポートページ 『Rで楽しむベイズ統計入門』が出ました。サポートページ,第7章のRコードをStanで書き直したRで楽しむStan 全国学力・学習状況調査の個票の疑似データがこちらで公開されています。データ分析の練習に使えそうです。SSDSE(教育用標準データセット)も。 R 4.x では stringsAsFactors=FALSE がデフォルトになりましたが,サイトの古い記事ではそうなっていないところがあるかもしれません(read.csv() などで as.is=TRUE は不要になります(あってもかまいませんが))。 R 4.2 ではWindowsでもMac同様UTF-8がデフォルトになりました。もう fileEncoding オプションに "UTF-8","UTF-8-BOM" を指定する必要はなくなりそうです。一方で、SJIS(CP932)データの場

  • 言語処理100本ノック 2015

    言語処理100ノックは,実践的な課題に取り組みながら,プログラミング,データ分析,研究のスキルを楽しく習得することを目指した問題集です 実用的でワクワクするような題材を厳選しました 言語処理に加えて,統計や機械学習などの周辺分野にも親しめます 研究やデータ分析の進め方,作法,スキルを修得できます 問題を解くのに必要なデータ・コーパスを配布しています 言語はPythonを想定していますが,他の言語にも対応しています

  • カップルが一緒にお風呂に入る割合をベイズ推定してみた

    社会心理学会第6回春の方法論セミナー�「社会心理学者のための時系列分析入門」小森担当分.下記リンク「時系列地獄めぐりMAP.pdf」と一緒にご覧ください https://drive.google.com/file/d/1mr73_49oTWHp7yiGrqUITOWQMTgaqmFi/view?usp=sharing

    カップルが一緒にお風呂に入る割合をベイズ推定してみた
  • 統計屋のためのAWK入門 - あんちべ!

    はじめに 稿はAWKという言語を用いて、 ごく簡単にデータ分析用の前処理*1をするための解説記事です。 AWKは短いコマンドを記述するだけで多様なデータ処理を可能にします。 特にデータの抽出に関して恐るべき簡易さを提供します。 具体的には、input.txtというファイルの中から "fail"という文字列を含む行を抽出したければ次のように書くだけです。 awk /fail/ input.txt つまり、スラッシュ記号で文字列を指定するだけで その文字列を含む行を抽出できるのです。 大変簡単ですね! また、awkはLinuxMacには標準で入っており、 Windowsでもawk.exeを一つ用意するだけなので、 面倒なインストール作業や環境構築は不要で誰でも即座に使えるため、 自分で書いた処理を他人に渡したり*2各サーバに仕込むなども簡単に出来ます。 複雑な処理をする場合はPython

    統計屋のためのAWK入門 - あんちべ!
  • JavaScriptで家電を操作するための赤外線信号の基礎知識

    今回は赤外線信号の基礎知識、読み取り/送信方法までを説明し、次回でWebブラウザーのUIとリアルタイムに連携させます。 下記は必要な材料のリストです。今回もGroveモジュールを使います。 Grove Baseシールド →前回使用したものと同じ Grove 4ピンケーブル →2必要 赤外線センサー(WLS12136P) →このセンサーにリモコンを向け、リモコンのボタンを押すことで赤外線信号を読み取る 赤外線LED(WLS12148P) →リモコンで発生した赤外線パターンと同じ信号をここから発生させて、家電を操作する リモコンはどういう信号を送信しているの? 早速、某エアコンのメーカーにリモコン信号の仕様を問い合わせましたが、残念ながら公開していないとの回答でした。 でも、大丈夫です。道が閉ざされたわけではありません。リモコンから送信される赤外線パターンを学習し、それと同じ信号を赤外線LE

    JavaScriptで家電を操作するための赤外線信号の基礎知識
  • ネットワ−クの速度を調べる方法

    "速さ" の意味は? 遅延時間を測る データ帯域を測る 試験用のファイルを作る 例: wget で速度を測定 速度低下や変動の原因 回線を高速化すべきか?どこまで? "速さ" の意味は? TCP/IP に使っている回線のスピードと云っても大まかには "バンド幅" と "レイテンシー" の2つがある. データ帯域: 一定時間あたりに通信できるデータ量. 個人の利用ではこれが実際の使用感と係わっていると思う. 以下のバンド幅, レイテンシーの他に パケットサイズ, 受信窓サイズ,エラーに依る再転送などの様々な要因に影響される. バンド幅(band width): 一定時間に通過できるデータ量. データ経路の太さと考えると良い. 究極的には流せる信号の周波数(帯域幅)による. 経路が複数の要素からなるとき, 最小のバンド幅の要素が制限の要因となる. 例: ほぼ, 10BASE, 100BASE

  • みんなビックデータビックデータって言ってるけど 名寄せとかどうしてんの?

    Social Media Marketing Trends 2024 // The Global Indie InsightsKurio // The Social Media Age(ncy)

    みんなビックデータビックデータって言ってるけど 名寄せとかどうしてんの?
  • データ集計コマンドを極めてシステム処理と業務速度を爆速化するお話 - Y's note

    Index データ集計コマンド 爆速で検索したいぜ! lookを使う LC_ALL=Cを設定する データのランダムサンプリングがしたいぜ! sedを使う awkを使う sortの--random-sortを使う Script言語を使う shufを使う ランダムサンプリング速度比較 合計と平均値を集計したいぜ! 列データ取得 重複行のカウント 合計値出力 平均値出力 複数ファイルのデータ結合がしたいぜ! 共通項目での結合 同じ行数での結合 まとめ データ集計コマンド joinコマンドが便利過ぎて生きるのが辛い - Yuta.Kikuchiの日記 lookコマンドによる二分探索が速すぎて見えない - Yuta.Kikuchiの日記 今日はデータ集計を行う上で絶対に覚えておいた方が良いコマンドと知識を紹介したいと思います。これを身につければシステム処理と業務効率化に大きく繋がると思います。この記

    データ集計コマンドを極めてシステム処理と業務速度を爆速化するお話 - Y's note
  • 1