![無料で使える「住所マスターデータ」公開、表記統一や緯度経度への変換に活用可能 全国の町丁目レベル18万9540件の住所データを記録](https://cdn-ak-scissors.b.st-hatena.com/image/square/97f14318cbf9f57b06d2b6407ac777ce50f2ad32/height=288;version=1;width=512/https%3A%2F%2Finternet.watch.impress.co.jp%2Fimg%2Fiw%2Flist%2F1271%2F298%2Fgeolonia02.png)
「Amazon Forecast」が正式リリース。過去の時系列データを与えるだけで機械学習による予測をしてくれる、専門知識不要のサービス Amazon Forecastは、なんらかの時系列データおよびその時系列データに影響を与えたであろう周辺情報、例えばある店舗の売り上げの時系列データおよび、その店舗の場所の天候、気温、交通量、曜日や祝祭日など売り上げに影響すると思われる周辺情報を与えると、予測に必要な機械学習モデルの構築、アルゴリズムの選定、モデルの正確性の検証や改善などを全て自動で実行し、売り上げに関する予測のデータを出力してくれるというサービスです。 一般に、機械学習を活用するには、学習用のデータと検証用のデータを用意し、学習用のデータから求められた予測結果を検証用データで検証して正確性を評価し、より適切なモデルやアルゴリズムを選択する、といった作業が発生します。 Amazon Fo
週末KagglerとしてavazuのCTR予測コンペに参加しました。Kaggleは機械学習版のISUCONだと思ってもらえばよいです。コンペ自体は終わっているので、late submiteであまり意味はないかもしれません、練習です。leaderboard上で上位10%以内に行けたので、そこまでの試行錯誤をメモしておきます。謎ノウハウ(?)を持っているガチ勢じゃないと上位に行けないものかと思っていましたが、基本に忠実にやればこれくらいの順位(上位7.6%)に行けましたし、他の人の工夫を垣間見えるという意味でも現場の機械学習やり始めたエンジニアにお薦めできそうでした。 参加の動機 目標感: 頑張りすぎずに上位10%以内に入る 試行錯誤 AthenaとRedashによる探索的データ解析 ベンチマークをまず超える 線形分類器でシンプルな特徴量 時系列要素を忘れていて過学習発生 特徴量エンジニアリン
機械学習をやりたいんだけど、データがない!他のデータ使ってみたい! そんな方のために、機械学習に使えるオープンデータを集めました。 他にも、このデータセットオススメ!というものがあれば、是非ご紹介して頂けると嬉しいです。m(__)m UC Irvine Machine Learning Repository カリフォルニア大学アーバイン校が公開した、データセット。351件のデータセットがあり後述する DATA GO に比べれば少ないが、ほとんどがMachine Learning用のデータ・セットなので、かなりオススメ。 UCI Machine Learning Repository かの有名なあやめの花(iris)のデータセットもここから見ることができます。 国立情報学研究所 情報学研究データリポジトリ データセット一覧 yahoo,楽天,ニコニコなどのデータがあります。 DATA.GO.
大量のプロジェクトを進行するビーワークスが、年々試行錯誤しながらたどり着いた、ファイル&フォルダ管理手法をご紹介します。 こんにちは、プランナーの川村です。 今日は、PCを使って仕事をする方の多くが悩まされるであろうファイルやフォルダの管理について、ビーワークスが試行錯誤の末にたどり着いた管理法をご紹介します! そもそも制作の現場では、企画書、サイトマップ、PSDデータ、htmlデータなど、さまざまな成果物・中間成果物を扱います。その上、それぞれのファイルについて、変更・修正の回数分だけバージョン違いのファイルが増えていく…となると、ファイルやフォルダの管理は、地味ながら、実はとても重要なミッションなのです。 特に、制作ボリュームの多い大規模案件や、多人数が関わるプロジェクトの場合、ファイルやフォルダの中身をメンバー同士で正しく共有できているかどうかは、品質や作業効率にも大いに影響します。
プロジェクトを開始する前に、市場調査などで統計データを分析し仮説をたてる事は重要ですが、それらの調査対象が世界規模、全国規模になるとコストが掛かりすぎて(特に個人や中小企業の場合)現実的ではありません。 そこで活用したいのが国や団体、民間企業が公開している無料の統計データです。今日はそんなマーケティング担当者ならきっと必見の情報公開を行なっているサイトをご紹介します。 1. 総務省統計局 総務省統計局では様々な統計データが入手可能です。 国税調査 人口推計 労働力調査 小売物価統計調査 土地統計調査 このようなデータはPDF版が一般的ですがExcel形式でダウンロードできるのも魅力ですね。その他にも以下URLより数多くの統計データが入手できます。 また、統計局ではメール配信サービスも行なっています。興味のある方は登録をおすすめします。 www.stat.go.jp 2. 法務省 法務省でも
はじめに RSpecを使ってテストを記述している際、テストの実行前にデータをテーブルに登録しておきたいケースが多々あるかと思います。RSpec内でActiveRecordを使ってデータを登録することもできますが、複数のテストケースで同じデータを使いたい場合、データの定義は一箇所で行いたいところです。 この様な場合、Factory Girlを使用すると、一箇所でテストデータを定義できます。今回はこのFactoryGirlの使い方について書きたいと思います。 使い方 使い方の大まかな流れとしては、 FactoryGirlが使用できるようにする 定義ファイルにデータを定義する 必要とするテストケースにてファイルを読み込み、データを適時加工して登録する という感じとなります。尚、この定義したデータを「Factory」とも言います。以下、手順です。 1.Gemfile Gemfileに以下を記述し、
個人開発者の矢野さとるさんは6月12日、10日に公開された「次世代統計利用システム」のAPIを活用し、国勢調査などの政府が持つ統計データをCSV形式でダウンロードできるWebサービス「統計くん」を公開した。 次世代統計利用システムは、統計のオープンデータの高度化に向け、統計センターが総務省統計局と協力して提供しているシステム。政府の統計ポータル「e-Stat」でデータベース化されている統計データを、XMLやJSONなどで出力するREST方式のAPIを提供している。 統計くんは同APIを活用し、国勢調査、事業所・企業統計調査、全国物価統計調査、家計消費状況調査などについて、調査結果をWebブラウザ上に表示したり、条件を絞り込んで分類したり、CSV化してダウンロード可能。今後は、グラフ生成やクロス集計機能などの実装を検討している。 関連記事 「PM2.5まとめ」正式公開 現在地のPM2.5濃度
サービス終了のお知らせ NAVERまとめは2020年9月30日をもちましてサービス終了いたしました。 約11年間、NAVERまとめをご利用・ご愛顧いただき誠にありがとうございました。
大規模データが公開されているサイトについて以下のQuoraでid:makimotoさんが質問していました。Data: Where can I get large datasets open to the public? - Quora以下、紹介されているサイトの一覧です。一部有料のものもあるようです。UCI Machine Learning RepositoryPublic Data Sets : Amazon Web ServicesCRAWDADno titleCity of Chicago | Data PortalGovLoop | Social Data Network for Governmentdata.gov.uk | Opening up governmentData.Medicare.GovData.Seattle.Gov | Seattle’s Data SiteOp
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く