はてなブックマークアプリ

サクサク読めて、
アプリ限定の機能も多数!

アプリで開く

はてなブックマーク

  • はてなブックマークって?
  • アプリ・拡張の紹介
  • ユーザー登録
  • ログイン
  • Hatena

はてなブックマーク

トップへ戻る

  • 総合
    • 人気
    • 新着
    • IT
    • 最新ガジェット
    • 自然科学
    • 経済・金融
    • おもしろ
    • マンガ
    • ゲーム
    • はてなブログ(総合)
  • 一般
    • 人気
    • 新着
    • 社会ニュース
    • 地域
    • 国際
    • 天気
    • グルメ
    • 映画・音楽
    • スポーツ
    • はてな匿名ダイアリー
  • 世の中
    • 人気
    • 新着
    • 新型コロナウイルス
    • 働き方
    • 生き方
    • 地域
    • 医療・ヘルス
    • 教育
    • はてな匿名ダイアリー
  • 政治と経済
    • 人気
    • 新着
    • 政治
    • 経済・金融
    • 企業
    • 仕事・就職
    • マーケット
    • 国際
    • はてなブログ(政治と経済)
  • 暮らし
    • 人気
    • 新着
    • カルチャー・ライフスタイル
    • ファッション
    • 運動・エクササイズ
    • 結婚・子育て
    • 住まい
    • グルメ
    • お金
    • はてなブログ(暮らし)
    • 掃除・整理整頓
    • 雑貨
    • 買ってよかったもの
    • 旅行
    • アウトドア
    • 趣味
  • 学び
    • 人気
    • 新着
    • 人文科学
    • 社会科学
    • 自然科学
    • 語学
    • ビジネス・経営学
    • デザイン
    • 法律
    • 本・書評
    • 将棋・囲碁
    • はてなブログ(学び)
  • テクノロジー
    • 人気
    • 新着
    • IT
    • セキュリティ技術
    • はてなブログ(テクノロジー)
    • AI・機械学習
    • プログラミング
    • エンジニア
    • Advent Calendar
  • おもしろ
    • 人気
    • 新着
    • まとめ
    • ネタ
    • おもしろ
    • これはすごい
    • かわいい
    • 雑学
    • 癒やし
  • エンタメ
    • 人気
    • 新着
    • スポーツ
    • 映画
    • 音楽
    • アイドル
    • 芸能
    • お笑い
    • サッカー
    • 話題の動画
  • アニメとゲーム
    • 人気
    • 新着
    • マンガ
    • Webマンガ
    • ゲーム
    • 任天堂
    • PlayStation
    • アニメ
    • バーチャルYouTuber
    • オタクカルチャー
  • おすすめ

    どうなる?Twitter

『★データ解析備忘録★』

  • 人気
  • 新着
  • すべて
  • 闇のExcelに対する防衛術 - ★データ解析備忘録★

    17 users

    y-mattu.hatenablog.com

    この記事は R Advent Calendar 2019 の25日目の記事です。 Rユーザにとっての闇、それはデータソースとして渡されるエクセルファイルでしょう(異論は認める)。 tidyverseの中にある readxl パッケージによってだいぶ楽になったとはいえ、まだまだ手元でエクセルファイルを直さないとまともに読み込めない、というのが現状でした(セル結合とかキツイですよね...)。 そんななか、そのあたりを面倒見てくれるパッケージが登場していますので、それを紹介したいと思います。本記事で紹介するのは以下のパッケージです。 tidyxl unpivotr この2つはペアで使うことが多いようです。 なお、tidyxl パッケージと unpivotr パッケージについては本記事の内容はほぼ全て以下のWeb Bookに詳しく書かれています。 nacnudus.github.io 本日のゴール

    • テクノロジー
    • 2019/12/25 14:31
    • あとで読む
    • 「データアーキテクト(データ整備人)を”前向きに”考える会」に参加しました - ★データ解析備忘録★

      3 users

      y-mattu.hatenablog.com

      はじめに 11/27に開催された「データアーキテクト(データ整備人)を”前向きに”考える会」にブログ枠として参加させて頂いたのでイベントの様子をレポートとして書きます。 analytics-and-intelligence.connpass.com 会場: 株式会社オプト 私の現在 ブログで報告するほどのことではなかったのですが、9月に大学院を卒業して10月からとある人材系企業でデータ分析組織の立ち上げに関わっています。 データ分析基盤の構築(データレイク、データウェアハウス)、からデータ分析、データサイエンスの啓蒙活動、(ゆくゆくは事業提案も?)など広く関わっています。 そんなこんなで情報収集も兼ねて今回の勉強会に参加しました。 以下は各発表のサマリーになります。 勉強会趣旨 データエンジニアとアナリストの間には色々仕事があるが評価されないことが多く、つらみが溜まっている つらみの共有で

      • テクノロジー
      • 2019/11/28 03:15
      • sql
      • Rおじさん、Lisperへの道 (Common Lisp環境設定編) - ★データ解析備忘録★

        6 users

        y-mattu.hatenablog.com

        はじめに Twitter上でこんなやりとりがあって、Lispをちゃんと勉強しようかなと思った次第。これまでEmacsを使って設定ファイルも(汚いけど)それなりに書いてきたので基礎を知ってるくらいなので、ここは一つCommon Lispをちゃんとやっておきたいなというのが主な動機です。 最近、 @igjit さんの影響からからLisp熱が再発してる。もともとEmacs使ってるってのもあるけど。 RおじさんからLisperに進化できるだろうか...— matsumura (@y__mattu) 2019年4月17日 ところで、このブログは「データ解析周りを中心に、プログラミング全般について書く」と明言してるわけですがこれからやるCommon Lispがどのくらい役に立つかは未知数。 Common Lisp の環境設定 PCはMacのMojaveを使ってます。 Roswellで処理系としてはSB

        • テクノロジー
        • 2019/05/21 23:28
        • Lisp
        • Emacs
        • 「機械学習のパラメータをベイズ最適化でチューニング」をRで超簡単に書けるパッケージを作った - ★データ解析備忘録★

          66 users

          y-mattu.hatenablog.com

          0. 要約 機械学習のハイパーパラメータをベイズ最適化でチューニングするのは既存パッケージの組み合わせで頑張ればできたのですが、頑張らなくても簡単に書けるパッケージを作りました。 github.com これにより、例えば iris データをXGboostの3-foldクロスバリデーション、エラー率評価でフィッティングさせたければ以下のように書くことでハイパーパラメーターである eta, max_depth, nround, subsample, bytree をベイズ最適化でチューニングしてくれます。 res0 <- xgb_cv_opt(data = iris, label = Species, objectfun = "multi:softmax", evalmetric = "merror", classes = 3, n_folds = 3) データセット名、ラベルの列名、XGbo

          • テクノロジー
          • 2017/10/24 17:20
          • R
          • 機械学習
          • ベイズ最適化
          • あとで読む
          • ベイズ
          • 最適化
          • チューニング
          • Machine Learning
          • data
          • 【R】OSMのNominatimでAPIを使わずに緯度経度から都道府県と市を求める(スモールデータ向きお手軽版) - ★データ解析備忘録★

            3 users

            y-mattu.hatenablog.com

            はじめに Rで逆ジオコーディングをやるやり方は、以下のようなやり方が提案されています。 qiita.com qiita.com ただし、いずれも速度面や正確さの面で問題があると記事内でも言及されています。 OSMのNominatim OSM(Open Street Map)は、{leaflet}パッケージでもデフォルトの地図として使われているオープンソースの地図です。 このOSMが提供しているAPIのようなものに、Nominatimがあります。 NominatimをRで操作するパッケージは既に公開されていますし日本語での紹介記事もありますが、NominatimのAPI1を取得せねばならず、これには月間15,000リクエストの制限があるようです。 Nominatimは、直接URLを入力すればブラウザ上で逆ジオコーディングの結果をXMLまたはJSON形式で取得できます。(引数の詳細はJA:No

            • 暮らし
            • 2017/07/06 23:34
            • R
            • map
            • API
            • Python3.5でワードクラウドを描く - ★データ解析備忘録★

              3 users

              y-mattu.hatenablog.com

              Pythonでワードクラウドを描く方法は、すでに結構な数の記事があるので、基本はそこを見ればいけます。 なので、今更僕が解説するようなことはしません。 例えば qiita.com ライブラリの入れ方も丁寧に説明してくださってます。 今回もこのページをほぼそのままトレースさせていただいてます。 ただ、上のページはPython2系でやっているので、最新のPython3.5でやったらどうなるのかを試してみます。 今回のスクレイピングの題材は、 モダンな日本語 TeX 環境を整える - Qiita でいきます。理由は特にありません。 環境はMac(OS X)です。 # coding:utf-8 import matplotlib.pyplot as plt from wordcloud import WordCloud from bs4 import BeautifulSoup import re

              • テクノロジー
              • 2017/06/20 22:11
              • 多項分布とディリクレ分布のまとめと可視化 - ★データ解析備忘録★

                6 users

                y-mattu.hatenablog.com

                多項分布とその共役事前分布について、可視化をしながら整理してみたいと思います。 どちらかというと、可視化をしてパラメーターで分布の形がどう変わるのかを見ることがメインです。 多項分布とは 二項分布の一般化と考えればよいです。 「コインを投げた時の表裏の分布」が二項分布なら、多項分布は「さいころを投げて出る目の分布」になりますね。 確率密度関数は で表され、になります。。 さっきの言い方を上の式っぽく一般化すると、多項分布とは 確率 で事象が起こるような試行を回行ったとき「どの事象が何回起こったか」を表す分布です。また、のとき二項分布になります その他、平均(期待値)は 分散は となります。 ディリクレ分布とは 自然言語処理ではトピックモデルの潜在ディリクレ過程(Latent Dirichlet Allocation; LDA)でおなじみですね。 ディリクレ分布は多項分布の共役事前分布として

                • 世の中
                • 2017/04/19 19:16
                • RStudio Server + tidyverse + RMeCab で日本語もOKなDockerイメージを作りました - ★データ解析備忘録★

                  29 users

                  y-mattu.hatenablog.com

                  内容をアップデートしました y-mattu.hatenablog.com はじめに RStudio Server の Docker イメージを作りました。入っているメインコンテンツは、tidyverse なパッケージ群、MeCab および {RMeCab}パッケージ、LaTeX環境 です。また、ggplot2 などでの日本語プロットも文字化けしないようにIPAexフォントを入れています。 RStudio Server の構築手順 Docker をインストール OS によって変わってくるので、各自検索してください。自分は Mac で boot2docker を使っています。この環境の場合、こちらなどが参考になります。以下、Docker がインストールされていて docker コマンドが使えることを前提とします。 Docker イメージの取得 利用する Docker イメージ ymattu/m

                  • テクノロジー
                  • 2017/03/30 21:24
                  • docker
                  • あとで読む
                  • Emacsで作るオレオレRStudio - ★データ解析備忘録★

                    13 users

                    y-mattu.hatenablog.com

                    この記事は RStudio Advent Calendar 2016 と Emacs Advent Calendar 2016 22 日目の記事です。 はじめに そもそもなぜ RStudio じゃダメなのか 無ければ作る!それが・・・ 環境 準備 Emacs を RStudio っぽく ESS 補完 オブジェクト構造の確認 オブジェクトの中身 ヘルプを引きたい もっと RStudio っぽく R Markdown と R Notebooks 基本設定 R Markdown の HTML 化の正体 チャンク挿入 R Notebooks について 画像のインライン表示 その他 オブジェクトに色付け パイプ演算子の挿入 でもやっぱり RStudio が恋しい! RStudio とは直接関係ないやつ Evil モード electric-operator.el rainbow-deliminator

                    • テクノロジー
                    • 2016/12/22 09:47
                    • R
                    • emacs
                    • analysis
                    • data
                    • science
                    • あとで読む
                    • RとPythonでMeCabを使う環境構築(Windows, Mac) - ★データ解析備忘録★

                      5 users

                      y-mattu.hatenablog.com

                      自然言語処理まわりはずっとRでやっていたのですがそろそろPythonでもやろうと思い環境構築をまとめてみます。 ついでなのでRのほうもまとめてみます。 PythonについてはWindowsとMacで違うので一応そちらも触れたいと思います。Windows10とYosemiteです。 当たり前ですがRもPython3.5も入ってる前提です。 正直WindowsにMeCab入れてPythonでやるのは環境構築で挫折しそうになります。 でも何とかなったので共有。 MeCabを入れる Windows こちらのページからmecab-0.996.exeをダウンロードして解凍 辞書の文字コードを選択しろと言われるので「Shift-JIS」を選択 コマンドプロンプトでMeCabが動くかテスト mecab すもももももももものうち 結果 すもも 名詞,一般,*,*,*,*,すもも,スモモ,スモモ も 助詞,係

                      • テクノロジー
                      • 2016/11/16 17:32
                      • MeCab
                      • Python
                      • tech
                      • mac
                      • Emacsのddskkで辞書をGoogle IMEにする - ★データ解析備忘録★

                        5 users

                        y-mattu.hatenablog.com

                        Emacsでは日本語入力にSKKを利用しているのですが、どうもデフォルトの辞書では変換がショボいので、GoogleのIMEを使おうと思います。 何がすごいのか 例えば、「さーばー」と入力すると、自分で辞書登録せずとも サーバー、Server、server、SERVER が変換候補として現れたり、 「まほうしょうじょまどかまぎか」のような普通の辞書にはない単語を 魔法少女まどか☆マギカ といい感じに変換してくれたりします。 (古い例ですが漢字ひらがなカタカナ記号のあるいい例が思いつかなかったので...) あるいは、「わたしのなまえは」を 私の名前は のように文節で変換してくれたりします。 環境とか OS X El Capitan Emacs 25.1 ddskk-20160820.1428 google-ime-skk 1.4.0 準備 google-ime-skkという、SKKでGoogl

                        • テクノロジー
                        • 2016/10/04 00:54
                        • Emacs
                        • jsonを楽に扱えるjqコマンドを導入(Mac, Windows) - ★データ解析備忘録★

                          3 users

                          y-mattu.hatenablog.com

                          データ解析の一連のプロセスの中で、前処理の占める割合はたいへん大きいです。 その前処理のなかで、json形式のものを楽に扱えるjqコマンドというものがあります。 json形式はデータベースなんかではよく見る形式で、自分でも個人的に必要になったのでその導入をメモ。 MacとWindows両方でやります。 Mac ターミナルを開いてbrewで一発。 brew install jq Windows Windowsにはchocolateyというのがあって、これはMacでいうところのbrewみたいなものです。 まずはこれを入れます。 コマンドプロンプトで、 @powershell -NoProfile -ExecutionPolicy unrestricted -Command "iex ((new-object net.webclient).DownloadString('https://choc

                          • テクノロジー
                          • 2016/07/12 17:00
                          • WindowsのPython3.5でlxmlを入れようとしたら詰んだ - ★データ解析備忘録★

                            3 users

                            y-mattu.hatenablog.com

                            Webスクレイピングなどで使われるlxmlパッケージですが、WindowsのPython3.5で導入にてこずりました。 pip install lxml でいけるかなあと思ったのですが、普通にエラーになりました。 Searching for lxml Reading https://pypi.python.org/simple/lxml/ Best match: lxml 3.5.0 Downloading https://pypi.python.org/packages/source/l/lxml/lxml-3.5.0.tar.gz#md5=9f0c5f1eb43ff44d5455dab4b4efbe73 Processing lxml-3.5.0.tar.gz Writing C:\Users\YUYA~1.YUY\AppData\Local\Temp\easy_install-v3h

                            • テクノロジー
                            • 2016/04/24 10:06
                            • Prestoでの日付の扱い方 - ★データ解析備忘録★

                              10 users

                              y-mattu.hatenablog.com

                              Prestoで日付の処理に躓いたのでメモ。 TreasureData (TD)ってUDF(user defined functions)が多いから、HiveにしろPrestoにしろ結構躓いたりするんですよね。 公式のマニュアルページが手放せません。 docs.treasuredata.com 今回はこのなかで初心者やSQLユーザーが間違いやすい部分と、これを組み合わせた日付の処理をいくつか書きます。 WHERE句での日付の範囲指定 SQLを使ったことがある人が最初に「あれ?」って思うのはここだと思います。 たとえば'2016-01-01 00:00:00'から'2016-01-03 23:59:59'までのデータを取りたいとき、 SQLだと、 WHERE time >= '2016-01-01' AND time < '2016-01-03' と書けばよいのですが、Prestoだと WHE

                              • 学び
                              • 2016/04/09 22:19
                              • presto
                              • treasure data
                              • sql
                              • 『R言語徹底解説』(原著 "Advanced R")を読んだので感想を書く - ★データ解析備忘録★

                                5 users

                                y-mattu.hatenablog.com

                                待望の『R言語徹底解説』が届きました。(2/10) R言語徹底解説 作者: Hadley Wickham,石田基広,市川太祐,高柳慎一,福島真太朗出版社/メーカー: 共立出版発売日: 2016/02/10メディア: 単行本この商品を含むブログ (29件) を見る本来は昨年のクリスマスあたりに発売される予定だったので、二か月近く待ったことになります。 僕はかなり早くから予約していたので、まさに「待望」といった感じです。 二週間以上かかってようやく通して読みました。まだ理解できていない部分も多いのでこれから何度も読み直さなければいけないなあという感じですが、やはり感想を書いておかないとということで感想を書いていきます。ちょっと長くなります。 どんな本か 総評・感想 不満 内容 導入 第Ⅰ部 基本編 第Ⅱ部 関数型プログラミング 第Ⅲ部 言語オブジェクトに対する計算 第Ⅳ部 パフォーマンス どん

                                • テクノロジー
                                • 2016/02/28 21:39
                                • R
                                • 本
                                • プログラミング

                                このページはまだ
                                ブックマークされていません

                                このページを最初にブックマークしてみませんか?

                                『★データ解析備忘録★』の新着エントリーを見る

                                キーボードショートカット一覧

                                j次のブックマーク

                                k前のブックマーク

                                lあとで読む

                                eコメント一覧を開く

                                oページを開く

                                はてなブックマーク

                                • 総合
                                • 一般
                                • 世の中
                                • 政治と経済
                                • 暮らし
                                • 学び
                                • テクノロジー
                                • エンタメ
                                • アニメとゲーム
                                • おもしろ
                                • アプリ・拡張機能
                                • 開発ブログ
                                • ヘルプ
                                • お問い合わせ

                                公式Twitter

                                • 公式アカウント
                                • ホットエントリー

                                はてなのサービス

                                • はてなブログ
                                • はてなブログPro
                                • 人力検索はてな
                                • はてなブログ タグ
                                • はてなニュース
                                • App Storeからダウンロード
                                • Google Playで手に入れよう
                                Copyright © 2005-2023 Hatena. All Rights Reserved.
                                設定を変更しましたx