サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
アメリカ大統領選
uribo.hatenablog.com
RStudio v1.4とraggパッケージの登場でRStudio上で日本語の作図が面倒な指定不要で行えるようになりました。記事中で紹介する方法をとれば、RStudioのPlotsパネルに出力する図が文字化けしなくなります。RStudioユーザで日本語での作図を行う方にはぜひ知っていてもらいたいtipsです。 すごい!確かにグラフィックデバイスにAGGを指定すれば、ggplot2で日本語表示する際に面倒な ggplot2::theme_*(base_family = ) をしなくても、問題なく日本語が表示される。ハッピー( ^ω^ ) https://t.co/DL1ec5wj9U— Uryu Shinya (@u_ribo) 2021年2月17日 なお、この記事の元ネタは https://www.tidyverse.org/blog/2021/02/modern-text-feature
はじめに 使い方 parse_*_dohunbyo(): DMS表記を十進数表記に変換 日本測地系2011における平面直角座標系の特定 move_jpn_rs(): 南西諸島の一部・小笠原諸島を移動した日本地図の描画 地理院タイルをleafletで簡単に利用できるように 国土地理に関するデータセット はじめに kuniezuパッケージ (v0.1.0) をCRANにリリースしました。 github.com このパッケージは、私が業務や趣味で日本国内の地理空間データを扱う時に作っていた関数を一つのパッケージに整理したものです。 空間的に世界規模のデータを扱うのではなく、日本国内に限った話であれば、日本に即した仕様や座標参照系を利用した方が良いことがあります。 そうした日本の地理空間データを処理する際に利用することがある機能や、あると便利なデータセットを提供できるように努めています。 ゆるゆる
新型コロナウイルスのデータを扱う際に、メッシュコード(標準地域メッシュ)が利用されることがあります。 特にNTTドコモ「モバイル空間統計」分析レポートのデータは、内閣官房の新型コロナウイルス感染症対策のページにも掲載されているように 全国各地の人口変動を分析するのに欠かせないデータとなっています。 人流データを使った分析は、先日発表された「新型コロナウイルス感染症対策の状況分析・提言」(2020年5月1日) (PDF)の中でも 行われており、本文中に以下の記述があります。 渋谷駅周辺と難波駅周辺から半径 1 ㎞圏内においては、10 歳台および 20 歳台の若者を中心として昼夜問わず接触頻度が 80%以上、減少したことがうかがえる。 また、GitHubにアップロードされている この結果の補足資料を見るとモバイル空間統計のメッシュデータを使った分析と可視化の事例が確認できます(3. 各エリアの
地理空間データを取り扱う際は、はじめにgeojsonやshapeファイルで受け取ることが一般的かと思います。 あるいはポイントデータの場合には、緯度と経度の値が各列に記録されるcsvなどの表形式のテキストファイルを起点とすることもあります。 前者のような地理空間データであれば、 R等のアプリケーションで読み込めば自動的に地理空間データとみなしてくれますが、 後者の場合はそうではありません。 座標の値はあくまでも数値です。なのでこうしたデータを地理空間データとして扱えるようにするには変換作業が必要となります。 今回の記事では、RおよびPythonでのデータフレームに記録された緯度経度の列を変換し、空間オブジェクトとして扱えるようにする方法を紹介します。 空間オブジェクトの形式としてRではsf、Pythonではgeopandasを対象にします。地理空間データに変換しておくと、データの空間的な配
日本人が頻繁に遭遇するデータ操作を効率的に行うための{zipangu}パッケージ、想定よりも多くの人が喜んでくれたようで、私としても嬉しく思っています。 はてなブログに投稿しました #はてなブログ 住所や年号、漢数字のデータ操作を楽にするRパッケージをCRANに登録しました - cucumber fleshhttps://t.co/5I3rntfrio— Uryu Shinya (@u_ribo) 2019年12月2日 記事の最後にプロジェクトの協力者を募集したら数名からの反応があり、また新機能の要望も挙げられました。 ありがとうございます。 さて、次のリリースでは郵便番号の処理を効率的に行う機能を実装する計画でいます。 具体的には日本郵便が提供する郵便番号csvファイル(以下、郵便番号データ)をRで読み込む関数と、郵便番号の検索および住所情報を返却する機能です。 github.com A
id:yutannihilationさんが、ggplot2::geom_sf()にOpen Street Map (OSM)のタイルを重ねるという面白い試みをしています。 yutani.rbind.io OSMでは、画像データとして地図画像を配信していて、次のようなURLで参照されます。 http://[abc].tile.openstreetmap.org/zoom/x/y.png ドメイン名の他、zoom、xのディレクトリがあり、ファイルはyという名前で置かれています。ここでzoomは地図のズームレベル、xとyはタイルの座標を示す、ピクセル座標と呼ばれる値です。OSMをはじめ、地図タイルの配信を行なっているサービスは同様にこの「XYZ地図タイル」形式を採用しています。 OSMに限らず、目的の地物を範囲に収めるタイルを用意するには、このピクセル座標を取得する必要があるわけですが、馴染みの
この記事はRアドベントカレンダー2019の5日目の投稿です。昨日は id:ando_Roid さんの投稿でした。 はじめに 今回で4回目となる「東京公共交通オープンデータチャレンジ」の応募が始まりました。これは公共交通オープンデータやその他のオープンデータを活用したアプリケーションおよびサービスの提案に関するコンテストです。ここでは、鉄道、バス、航空などの交通機関のデータが、GTFS (General Transit Feed Specification) 形式で公開されています。 GTFSは公共交通機関の時刻表と地理的情報に関するオープンフォーマットとして定義されます。リアルタイムの運行情報を反映した動的データ (GTFS Realtime)と、ダイヤ改正等の事情がない限り安定した静的データがあり、GTFSといえば厳密には静的データの方を指します。複数の事業者・交通機関が共通の形式に従っ
副題「失われた『Nippon』を求めて」(仰々しい)。 Kajikazawa in Kai Province (Koshu Kajikazawa), from the series “Thirty-six Views of Mount Fuji (Fugaku sanjurokkei)”, 1825–1838 by Katsushika Hokusai. Image via Art Institute of Chicago NipponパッケージというRパッケージがあります。 このパッケージは、日本人が頻繁に遭遇するであろう、全角英数字や元号の変換、祝日の判定といった処理を効率的に行うための関数や日本の都道府県名を含んだデータセットを提供していました。 いました、と過去形にするのは今年(2019年)の7月にCRANからアーカイブされてしまったためです。現在は install.package
先週末(2019年8月31日)に開催されたFukuoka.R#15 へ参加・発表してきました。Fukuoka.Rはその名の通り、九州・博多を中心として活動するRコミュニティです。私は茨城県つくば市に住んでいるので、会場のLINE Fukuokaまでは直線距離でおよそ928km離れた場所からの参加というわけです。いやはや遠い。遠いですが、参加してよかったと思える会でした。 このあとの発表資料です。「tidymodelsによるモデル構築と運用 」 #FukuokaR 毎度のことですが、今回は資料を作っている自分自身が大変勉強になりました。 https://t.co/pQDkuFn9nq pic.twitter.com/slqeaBuvcv— Uryu Shinya (@u_ribo) August 31, 2019 以下、簡単にですが内容の振り返りと当日の発表では言えなかったことを書きます。
国土地理院が提供している「基盤地図情報ダウンロードサービス」の中に「数値標高モデル」データがあります。このデータは、標高のメッシュデータです。標高点格子(メッシュサイズ)が5m、10mのものがそれぞれあります。利用登録をすればデータをダウンロードできます。 基盤地図情報ダウンロードサービス 高精度な数値標高データの公開について | 国土地理院 大変有益なデータなのですが、データを閲覧するには専用のビューアアプリが必要になります。しかしこれはWindows専用です。そのため、これまで私は、下記に挙げるような第三者が開発するデータ変換用のツール、QGISのプラグイン等を利用してデータを変換していました。 github.com github.com 一方でこれらのツールはそれぞれ独立しており、Rと組み合わせて使うことはできません。しかし「数値標高モデル」自体はXMLファイルですので、標高値を紐解
要約 パッケージを複数利用すると関数名等の衝突が発生し、意図しない振る舞いを取ることがある conflictedパッケージは、こうした衝突を防ぐための機能を提供する 多少の手間を惜しんでも、衝突の恐れのある関数については名前空間を指定することを勧める 衝突にまつわるトラブル Rは標準の機能として十分な統計処理やデータ可視化の関数を備えていますが、パッケージと呼ばれる拡張機能を導入することでより多くの処理が実行可能になります。一方で多数のパッケージを使うと名前空間の衝突が発生することがあります。これは共通の名前を持つ関数やデータセット、定数といったRオブジェクトが複数のパッケージに存在する時に起きる問題です。衝突が発生すると、オブジェクトが意図しない働きをもつことがあり、トラブルの元になります。 普通、後から読み込まれたパッケージにより、先に読み込まれているオブジェクトはマスクされます。ここ
Rの作図パッケージとして人気なggplot2の時期バージョンの2.3.0が間も無くリリースされるそうです。ggplot2は前回の更新が2016年12月末のバージョン2.2.1なので、久しぶりのバージョンアップとなります。 バージョンアップに伴う変更点はこのページを見て欲しいですが、私としてはsfオブジェクトを描画するための新たな関数geom_sf()に触れずには要られません。これまでずっと開発版でのみ利用可能でしたが、やっとCRAN版でも利用できるようになります。(人に紹介するときはGitHubの説明からやったり面倒でもあった。) ... と思っていたらid: yutannihilationさんに先を越されてしまいました。 ggplot2 2.3.0(RC版)を使ってみた - Technically, technophobic. notchained.hatenablog.com 同じ話題
日本人が扱う住所や年号、漢数字のデータ操作を楽にするRパッケージ {zipangu}の最新バージョン v0.3.0をCRANにリリースしました。前回のリリースに引き続き、多くの方が開発に協力してくださいました。ありがとうございます。この記事では新たに追加された機能や改善された点について紹介します。 新バージョンの{zipangu}は次のコマンドを実行することでインストールされます。 install.packages("zipangu") library(zipangu) rlang::is_installed("zipangu", version = "0.3.0") それでは新機能の紹介に入ります。 新機能 str_jnormalize()による文字列正規化 以前から日本語文字列の正規化の関数としてstr_jconv()があり、全角文字列と半角文字列の変換が可能でしたが、今回追加されたs
この記事はRStudioアドベントカレンダーの21日目の記事です。もうすぐこのアドベントカレンダーも終わりですね。ハヤイ! 今年のはじめにこんな記事を書きました。 uribo.hatenablog.com 皆さんはDockerを利用していますでしょうか。今年のデータ分析系のアドベントカレンダーでもぞうさんがdockerが取り上げられています。 qiita.com Rユーザの自分にとっては、Dirk EddelbuettelやCarl Boettigerなどが携わるrockerプロジェクトが整備されているのが嬉しいです。 notchained.hatenablog.com rockerプロジェクトのdockerイメージの多くはRStudio Serverをイメージのベースとしており、お手軽にローカル環境とは別のRStudio環境が構築できます。また必要に応じて、rockerのdockerim
どーも。ggplot2は空手の一種として知られているので(要出典)普段の稽古が欠かせまん。今年を振り返り、ggplot2での作図について、いくつかの知見を共有します(書いている余裕がなかったんや...) library(magrittr) library(jpndistrict) ## Loading required package: jpmesh ## This package provide map data is based on the Digital Map ## 25000(Map Image) published by Geospatial Information Authorityof ## Japan (Approval No.603FY2017 information usage ## <http://www.gsi.go.jp>) library(sf) ## Li
この記事はtidyポエムAdvent Calendarの4日目の記事となります。タイトルは釣りです。釣られた人は乙でした。 本当のタイトルは「tidyverseは厳しいがとても優しい」です。某ホクソエム氏のようです(個人の意見です)。 uribo.hatenablog.com tidyverseな世界に慣れてきて、つまづきやすいかなという点をまとめました。小ネタ的なものですが、少しでも皆さんの参考になればと思います。言いたいことは、データ型に気をつけろ、ということです。 tibble はじめに言っておくと、私はtibble大好きです。界隈ではtibbleのせいで、tibbleってなんだよ、と言った声も聞こえてくるわけですが、tibbleにはメリットしか感じません。tibble::as_tibble()、みんなtibbleになるといいよ(というのは言い過ぎか)。 まず、tibbleをご存知で
ここでさりげなく触れたのですが、jpmeshという、国勢調査などの統計調査に用いる標準地域メッシュをRで扱うためのパッケージを更新し、CRANにリリースしました。これまで対応していたメッシュのスケールをより細かくし、125mメッシュまでを扱えるようになりました。これにより基準(3次)メッシュの分割地域メッシュに対応したこととなり、バージョン1.0.0としました。以下、主要な変更点と開発話です。 CRAN - Package jpmesh 利用の際はCRANからインストールしてください。Windows版も1.0.0が登録されています。 install.packages("jpmesh") library(jpmesh) library(magrittr) 更新内容 これまで、基準地域メッシュと分割地域メッシュの算出には別々の関数を用いる必要がありましたが、1.0.0からは一つの関数で対応でき
初めての転職 & 引越しエントリー 要約 10月末をもって株式会社ナイトレイを退職しました。また、次の職場となる国立環境研究所への勤務のために茨城県つくば市へ引越しを行いました。生態系サービスの評価や生物多様性の保全に関する実証研究の技術的補佐を主な業務内容とします。 転職・転居と、転々とすることもあまりない機会なので、amazon欲しいものリストを晒します。どうぞよろしくお願いします! me Rが好きでちょっとだけできるRおじさん。地理空間データの分析をぎょーむとしていました。Rの本を書いたり、Rについて講演したり、最近ではRラジオというのをやっています。 どこからどこへ? あまりネットで書いたことがなかったかもしれませんが、昨年3月から株式会社ナイトレイにメンバーとして加わりました。Wantedly経由で応募し、すぐに面談、様子を見ながらやっていきましょう、という流れの速さに驚いた記憶
これはなんでしょう。 そう、日本ですね。正しくは日本列島を簡略化し、各都道府県を六角形 (hexagons) で表現した図です。日本列島がおさまってしまうネタ画像が出回るほどに面積の大きな北海道が他の都道府県と同じサイズで小さくなってしまっていたり、現実の都道府県の位置関係を反映していない箇所があったりしますが、パッと見て、日本だなとわかるものではないでしょうか(日本に馴染みのない国籍の人が見てもわからなそう)。 こういった六角形を使った地図はアメリカを例によく見られます。こんなのとか、こんなの。また、最近だとこうした地理空間関係を利用したグラフ表現もよく見られるようになりました。 ikashnitsky.github.io github.com 北アメリカ大陸は形が整っていて、ずるい...。そう感じてしまいますが、まあ日本でもやってみようという気持ちでやりました。 六角形地図の作り方 ま
要約 lookupパッケージで標準の関数定義ソースコードの出力機能を改善する 総称関数や.C(), .Internal()などの関数で呼び出されるコードも出力 prettycodeパッケージで関数定義のハイライトを有効にする prettycodeはRの起動時に読み込み、lookupは適宜、名前空間を指定してlookup::lookup()で実行、という運用にした ソースコードの閲覧機能の向上とハイライト機能 最近ちょくちょく、Rのソースコードの読み方が変わっていくんではないかなと思っています。読み方というか出力方法というか。 百聞は一見に如かず。次の画像をご覧ください。この画像には通常のRでのソースコード出力と異なる点が2箇所あります。 この画像はターミナル上で起動したRで、head()のソースコードを表示している場面です。何かお気づきになられるでしょうか。手元にRを実行できる環境がある方
探索的なデータ分析 (Explore Data Analysis: EDA)を行う際は、データの要約や欠損の有無の確認、可視化が欠かせない作業となります。 特に可視化は、データのもつ性質や関係を表現するのに大変役立ちます。一方で、可視化に用いた図はコードとは別に保存する必要があったり、作図のためのコードを書いたりと、面倒な側面もあります。 … きちんとした作図は面倒だけどデータの性質や欠損について把握したい。そんな時にはコンソール上での可視化を試しましょう。そのためのパッケージをHadley Wickhamが開発しています。 https://github.com/hadley/precis Rにはそもそも、オブジェクトの情報を要約してくれるsummary()関数があるのですが、この precisパッケージは、それを置き換えるような設計を目指しているそうです。早速使ってみましょう。 # gi
はじめに注意書きですが、この記事で書かれているプロジェクトテンプレート機能は、今日現在、開発版のRStudioを利用したものです。厳密には、実行のためにはv1.1.28以上である必要があります。おそらく次の安定版には盛り込まれる機能であると思うので、しばしお待ちください。 というわけで、タイトルにある通り、Kaggleコンペ向けのRStudioのプロジェクトテンプレートを作りました。プロジェクトテンプレートって何? どういうのを作ったの? という話をします。 プロジェクトテンプレート RStudioでは、プロジェクト機能により複数の作業環境を構築することが可能です。プロジェクトテンプレートとは、ユーザが定義したプロジェクトをテンプレートして利用可能にしたものです。今までもRパッケージのためにプロジェクトを作成する場合には、パッケージ開発に必要な構造をもったプロジェクトを生成するテンプレート
こちらをご覧ください。踏み絵ではありません。R上で地理空間データを扱うPythonモジュール、geopandasによる作図を行なっている画面です。 え、RでPythonを!?と驚かれる方もいるかもしれませんが、reticulateというRパッケージを使うことで、ほぼストレスフリーでPythonのモジュールや関数がR上で利用可能になります。先の図は次のコードによって実行されました。 library(reticulate) # モジュールの呼び出し gpd <- import("geopandas") plt <- import("matplotlib.pyplot") # サンプルデータの読み込み world <- gpd$read_file(gpd$datasets$get_path("naturalearth_lowres")) # データセットの確認 head(world) # ではな
先日、エクセルファイルのデータをRに読み込ませるパッケージのreadxlパッケージの1.0.0がCRANに登録されました。 実はしばらく更新を追えていなくて、色々な新機能があったのでメモしておきます。まとめると以下の通りです。気になった点を挙げていますので、詳細はNEWSをご覧ください。 エクセルファイル読み込み関数に2つの引数の追加 範囲を指定した読み込みのためのrange引数 読み込み時の行制限としてn_maxの適用 列指定の際の挙動に大きな変更 col_types引数にlist, logical, guessが指定することが可能に blankの廃止。代わりにskipの指定 欠損値に複数の値を指定可能に … その他 変数名の初期値がX__1からX__0に変更 特に気になるのが読み込み時の範囲指定とcol_types引数のlist対応です。それぞれ詳しく見ていきましょう。 読み込み時の範
タイトルの通り、執筆に関わった書籍が出版されたので内容紹介と宣伝です。 Rによるスクレイピング入門 作者: 石田基広,市川太祐,瓜生真也,湯谷啓明出版社/メーカー: シーアンドアール研究所発売日: 2017/03/27メディア: 単行本(ソフトカバー)この商品を含むブログ (2件) を見る 「Rによるスクレイピング入門」、この本は書名やカバーから想像するに、 Rを使ってウェブ上のデータを取得し、実践テクニックを豊富に示す 、ことが伺えます。ただし本書で扱う内容はそれだけではありません。以下に述べるように、R言語の解説書、モダンなR言語の操作方法、データ処理・可視化について一通り学べるR言語の本、ウェブ技術書としての側面があります。 本書の多様性 本書の書名を見て、「え?Rでスクレイピング?」といった感想を持たれる方がいるかと思います。Rって、統計解析や可視化が得意な言語だったのでは?… も
ギョームでRを使い始めてから一年経っていないのだけど、それなりにスタイルが確立してきた気がするし、新年なので、現状で理想的だと思われる分析環境を整理しておく。ちなみに私のギョームは主にデータの前処理や地理空間データのマッピング、簡易アプリケーションの作成で、巷のデータサイエンティスト的なものとは違う。いわゆるにわかデータサエンティストである。とはいえ、ここであげる分析環境の整備や実行はデータサイエンティストや研究者のギョームにも有効だと思っている。 分析環境編とコーディングスタイル編について分けて書く。最初はまだ不確定なところもあり、今年から本格的に取り組もうというものもあるが分析環境についてまとめておく。これらの具体的な利用方法については、まだ未確定なものもあるが、このブログで後々書いていければと思う。 分析環境 大事にしたいのはモダンな技術と再現性の確保。以前集計したり出力したデータを
先日開催されたTokyo.R#58でこんな話をした。 Rについて話すラジオ、正しくはPodcastをやりたい。 それについて経緯と詳細を書いてみる。 背景 プログラミングやデータ分析なんかは、基本的に孤独な作業なのかもしれない。しかし時々自分のやったことの評価とか、最近の話題について話せる関係があると嬉しい。職場や身近な所にそういう人物がいると良いが、Rの場合少ない、あるいは全くいないという話をしばしば耳にする。実際自分も職場ではRについて話せる人はいない。TwitterやSlackのチームであるr-wakalangは、そういうRの話をするのに適した場所であるが、サービスの性質上どうしても深い話ができなかったり、流動的なところがある(r-wakalangは雑すぎたという印象)。 各地のRコミュニティに目を向けても、日本でもっとも参加者が多いであろうTokyo.Rでも参加者のメンツは回が変わ
昨日、Rコミュニティの質問広場兼お気楽な交流の場であるr-wakalangでこんな質問が寄せられた。 (意訳) パッケージの開発時にオブジェクトを保存しておいて、そのオブジェクトをパッケージ内の関数で利用したい パッと思いつく回答として、data/ディレクトリに.rdaファイルを保存すればいいのでは?と思ったけどこれは厳密には正しくない。というのも、dataディレクトリに保存するのはパッケージの呼び出しとともに参照可能なオブジェクトになってしまう(後述)。 ふーむ、というわけで改めてHadleyの"R Packages"を見直してみたらきちんとした説明があった。完全な勉強不足だった。というわけでこの辺の情報を整理しておきたい。今回の話は、そのほとんどが Data · R packagesに書かれているものだ。より詳しく知りたい方は"R Packages"を読むと良い。インターネットで全部閲
🍵 所感 (内容の前に書いておきます) パイプ演算子によって、Rを使ったデータ分析の作業は流れるようにわかりやすく、実行しやすくなりました。その一方で、中間的処理の結果に対してはないがしろになっているという点があります。この処理で間違えていないだろうという「かもしれない運転」をした結果、大事故を起こしかねない状況と言えるかもしれません。データは簡単に変化するし、意図しない値を含んでしまう可能性があることを常に意識するべきで、都度振り返りが必要なのでしょう。 しかしいちいち処理の内容を確認するのは面倒だし、何よりも分析の流れを止めてしまうのは良くない気がします。アサートを設定するのは面倒ではありますが、一度作っておくと繰り返しの処理で有効になるので大変便利で役立ちます。{assertr}パッケージでは、パイプ関数とアサートを組み合わせて利用することでデータ分析の流れを中断することなく、アサ
次のページ
このページを最初にブックマークしてみませんか?
『cucumber flesh』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く