[B! データ] aquaricknのブックマーク

情報学研究データリポジトリ

情報学研究データリポジトリ（IDR）情報学研究データリポジトリ（Informatics Research Data Repository : IDR）は，国立情報学研究所（NII）のデータセット共同利用研究開発センター（DSC）が運営するデータセットの共同利用事業です。IDRでは各種のデータセットを民間企業や大学等研究者から受け入れて研究者に提供するためのサービスを行っています。データセットの利用を希望される方は，「データ一覧」から各データセットのページにアクセスし，記載内容をよくご確認ください。データセットの利用を申請された場合，「IDRデータセット提供サービス規約（法人利用者用）」（データセットによっては「同（個人利用者用）」）に同意いただいたものと見なします。データセットの提供を希望される大学等の研究者の方は「大学等研究者提供データセット受入」のページをご覧ください。また，民間

aquarickn 2020/03/23

リンク

情報学研究データリポジトリデータセット一覧

2024/04/01 現在民間企業提供データ Yahoo!データセット国立情報学研究所がLINEヤフー株式会社（旧社名ヤフー株式会社）から提供を受けて研究者に提供しているデータセットです。 Yahoo!知恵袋データ（第3版）（2024-04-01 更新）楽天データセット楽天グループ株式会社が国立情報学研究所を通じて研究者に提供しているデータセットです。楽天市場の全商品データ，レビューデータ楽天トラベルの施設データ，レビューデータ楽天 GORAのゴルフ場データ，レビューデータ楽天レシピのレシピ情報，レシピ画像アノテーション付きデータニコニコデータセット国立情報学研究所が株式会社ドワンゴから提供を受けて研究者に提供しているデータセットです。ニコニコ動画コメント等データニコニコ大百科データリクルートデータセット国立情報学研究所が株式会社リクルートから提供を受けて研

aquarickn 2019/04/25

リンク

サマータイムを導入しないにしても日時をすぐ文字列にする悪習をやめるべきではないか - UXエンジニアになりたい人のブログ

「サマータイム導入はコンピュータシステム的に難あり」は本当か (1/2) サマータイムは簡単、という記事があまりにあれな件 - novtanの日常タイムゾーンを考慮した日時の扱いのベストプラクティス - エムスリーテックブログサマータイムの話。結局のところ「データ」としてローカル日時を持ってしまっているシステムが多数あり、それらがどれくらい影響するかわからない、ということが皆が反対する理由。対策としては結局3つ目のブログに書いてあることがすべてで、システムの内部では一貫してオフセット付きの日時またはUTCでデータを持つべきで、システム境界を超える場合も可能な限り(ユーザーに不要な手間が増えるといった例外を除き)オフセット付きで時刻を扱いましょう、というだけの話。それで、「ローカル日時を持っているデータ」って十中八九文字列ですよね？2018/08/19 23:00とか、201808

aquarickn 2018/08/20

言いたいことが詰まっていた。データ的には全てUTCで持たせて、閲覧タイミングでJSTなり見やすい文字列型にすればいい。なのに、持たせる段階でこれはJSTだ文字列日時だはうんざり。

リンク

データサイエンティスト含むデータ分析職の仕事がつらい4つの理由：洋の東西を問わずつらみは同じらしい - 渋谷駅前で働くデータサイエンティストのブログ

(Image by Pixabay) 某所でバズっていたこの記事ですが。もう読んだ瞬間に「うわー、これ完全に洋の東西を問わずデータ分析業界だとどこでも見られる、業界つらみあるあるだなー」という感が湧いてきて、こみ上げてくる涙が押さえきれませんでした（嘘）。という軽口はさておき、実際にほぼ同じ内容の愚痴をUSでデータサイエンティストとして働いていた知人からも直に聞いたことがあるので、個人的にもかなり説得力のある話だなと思いました。この記事の若干嫌なところは「データサイエンティストたちはいつでも転職活動をしている、何故ならどこの職場に行っても以下のつらみがあるからだ」という書き方をしている点。いや、データサイエンティスト含むデータ分析職が全員常に転職活動しているかというとさすがに違うだろうと思いますが、「それくらいつらいんですマジ勘弁して下さい」と言われたら頷かざるを得ないのもまた事実かな

aquarickn 2018/04/03

全てあるある。しかし4つのつらみは、 2つ目以外はメリットだと思うんだけど。

リンク

携帯データでわかった新ベッドタウン：日本経済新聞

より近く、より遠く東京都心で働く人のベッドタウンはどこか。携帯電話の移動データをもとに調べたところ、その現実が浮かび上がった。都心５区への通勤者が多く住む上位50駅は、ビジネス街の駅までの所要時間が平均16.1分。20分を切る近さで、遠い郊外から都心に通うスタイルは主流ではなくなった。一方で群馬や長野から新幹線で通う人も目立つ。通勤圏が「より近く、より遠く」なっている。調査データについて Scroll Down ベッドタウンTOP50オフィス街が集中する東京の都心５区（千代田区、中央区、港区、新宿区、渋谷区）で働く人が、どこから通っているのか。NTTドコモの携帯電話の移動データを分析して、半径１キロメートル以内に住む人が多いベッドタウン駅TOP50を地図上に示した。

aquarickn 2018/03/29

良い分析

リンク

人工知能(AI)ブームに乗りたい人に切符を提供してみる : 新規事業のつくり方

この記事は、以下の方向けに執筆しています。・とにかくAIブームに乗りたい方・転職してAI案件に携わりたい方・AIに必要な知識だけをざっくり身に付けたい方関連記事：AI人材になるにはスキルよりまず職種を選択しよう清水亮さんがAI人材の不足を言われてから、人材不足感は一向に変わっておらず、むしろ不足感が強まっている。企業が本格的に取り組み始めたのに、検証できる人材が誰もいない。データ分析経験があったり、Pythonでnumpyとか少し触れる人が、AI人材として急に売れっ子になるのを何度も見てきたし、その流れはしばらく続くんだと思う。 BIベンダも最近その流れに乗って売り込み始めた。コンサル会社は、AI コンサルと言い始めた。SIベンダは、AIの専門部署をたくさん作り始めた。メーカーもR&D中心にAI人材を採用しはじめてる。 CONNPASSで機械学習と名の付くセミナーはすべて人気で埋ま

aquarickn 2017/11/06

AI人材が快速電車だとして、データに強いエンジニアは準急列車としてほぼセットで非常に重宝されてます。僕は準急に乗りました。

リンク

何が変わる？改正個人情報保護法[インフォグラフィック]

本記事は、事実とは異なる記載についてのご指摘を受け、弊社にて事実を確認した上で、掲載内容の一部を下記のとおり訂正いたしました。（変更日：2017/05/30：記事中打消線） 2017年5月30日、12年ぶりに改正された個人情報保護法が全面施行されました。これまでグレーゾーンであった、ウェブの閲覧履歴、個人が特定できるカメラ画像、顔や指紋の認証データ、DNA、位置情報なども、明確に個人情報と定義されます。ほかにも、取り扱う個人情報の件数に関わらずすべての事業者が対象となるなど、消費者にとっても事業者にとっても重要な改正がたくさん盛り込まれています。では、何が変わったのでしょうか？インフォグラフィックにまとめてみました。いかがでしたか。個人情報保護委員会のウェブサイトでは法令・ガイドラインのほか、詳しい情報を得ることができますので、これを機にぜひご確認ください。＜参考＞「個人情報の

aquarickn 2017/05/26

分かりやすい

リンク

TechCrunch | Startup and Technology News

The tech layoff wave is still going strong in 2024. Following significant workforce reductions in 2022 and 2023, this year has already seen 60,000 job cuts across 254 companies, according to independent layoffs tracker Layoffs.fyi. Companies like Tesla, Amazon, Google, TikTok, Snap and Microsoft have conducted sizable layoffs in the…

aquarickn 2017/04/19

リンク

機械学習の種類と特徴 - Y's note

人間ではなく機械が自動的に意思決定することのメリットとして、大量のデータをInputとした予測、推定、分類などの処理をAlgorithmの構築によって瞬時に行える事である。 1枚の画像だけを見て何が写っているかのような判断においては人間の脳が優れているものの、大量のデータInputを基にした組み合わせの選択や最適解に瞬時に辿り着くという目的においては機械に任せてしまったほうが効率的とも言える。昔から機械学習による予測、推定、分類などの処理は様々な手法として提案されており、どういった問題を機械に判断させるかという切り口で最適なものを人が選択する。下記表に機械学習の種類と特徴を纏めてみた。※ただし必ずしも6種類のいずれかに分類される訳ではない。例としてニューラルネットワークがあり教師あり学習であり深層学習にも位置する。機械学習の種類特徴代表的なAlgorithm 備考教師あり学習正解

aquarickn 2016/02/15

リンク

Clusterize.js·大量のデータを描画&高速スクロール MOONGIFT

Web上で巨大なデータを描画するとWebブラウザの動作が重たくなったり、最悪の場合落ちます。それを防ぐためにはデータをすべてDOMに描画するのではなく、表示している範囲だけに絞って表示し、非表示になったタイミングで破棄すると言った工夫が必要です。しかしそういったDOM操作はコツがいります。そこで使ってみたいのがClusterize.jsです。巨大なデータセットを高速に表示するためのライブラリです。 Clusterize.jsの使い方 Clusterize.jsを使って5,000行のデータをスクロールする例です。スムーズに描けます。 Clusterize.jsのサイトではさらに10万、50万行のデータを描画することもできます。Clusterize.jsではリストの高さを予め計算し、それに合わせてスクロールバーが正しい長さで出るように設定されています。そのため行の高さは一定である必要がありま

aquarickn 2015/05/19

リンク

DMM.com - DMMのビッグデータ分析のご紹介　～Sparkによるリアルタイムレコメンド～

生tweet 解析結果ラオウとトキも6個消しで3.75倍って考えると悪くないラオウ,トキ,消し,くないやってみて出来た事・ダメだった事 2 手作業で教師データ作成 => 文脈を全然考慮してくれない ⇒それでもゴミが多少乗ってしまう ⇒教師データの作成方法 Spark ハマりどころ効率が悪い上、途中で心が折れそうだった。 Map#filterKeys and Map#mapValues not serializable Spark ハマりどころ Output Operations on DStreams DStreamのOutput

aquarickn 2015/02/24

リンク

［1］誰でも簡単！オープンデータアプリを公開しよう

身近なオープンデータを簡単に公開して、アプリ化できるとして注目されているWebサイトがある。「LinkData.org」だ（図1）。理化学研究所生命情報基盤研究部門長の豊田哲郎氏や、同情報基盤センターリサーチアソシエイトの下山紗代子氏らの研究グループが開発し、2014年10月に一般社団法人リンクデータを立ち上げた。オープンデータとは、行政や企業が商用を含めて自由に加工・再配布できるように公開したデータのこと。政府や地方自治体を中心にオープンデータを積極的に進めており、身近な社会的課題解決から、企業がビジネスに役立てることもできる。オープンデータを活用した新たなビジネスも登場している。とはいえ、日本でのオープンデータ活用は道半ばだ。地域住民に身近なデータを多く保有する地方自治体のうち、オープンデータに取り組んでいるのは2015年2月現在で100自治体だという。データ公開のノウハウや基

aquarickn 2015/02/18

リンク

機械学習によるデータ分析まわりのお話

某所で機械学習の講習会（？）のようなものをしたときの資料です．機械学習によるデータ分析について，アルゴリズムやツールの使い方＊以外＊の部分で重要だと思うことを重点的にまとめたつもりです．Read less

aquarickn 2015/02/16

リンク

Rでデータ分析・統計学・機械学習・データマイニングを学ぶならこの10冊で（2015年2月版） - 渋谷駅前で働くデータサイエンティストのブログ

今週はまともなデータ分析やら統計学やら機械学習やらの記事を書くのが面倒になったので*1、しばらくやってなかったお薦め書籍リストでも書こうかと思います。今回まとめるリストは、ズバリ「Rでデータサイエンス・統計学・機械学習を学ぶための10冊」。Rと言えばこのブログのメイン言語なので特に説明は要さないでしょう。去年1年間は拙著も含めてR絡みの本が大豊作で、以前のお薦め書籍リストに比べるとRの良書が増えたという部分もあり、そう言えばR本だけでリスト作れるなぁと思ったのでした。というわけで、主に僕が持っているor読んだことがある本を中心にお薦めリストをまとめてみました。いつも通り独断と偏見まみれなので、他にも良いR本は沢山ありますよーという旨予めお断りしておきます。そうそう、先に書いておきますがこのリストは中級者向けです。でも初学者向けに良いRの本ってあるのかなぁ。。。初学者はまずはExcel

aquarickn 2015/02/13

リンク

IoTデータプラットフォームへの主要な要求仕様 | Hadoop Times

「モノ」のインターネット (IoT) について、このシリーズではこれまで、なぜIoTがその性質上ビッグデータに役立つかを明らかにし、IoTの現状を俯瞰し、IoTの実例 (スマートシティやスマートフォン、スマートハウス) のいくつかを調べてきました。今回の記事では、IoTデータ処理プラットフォームの要求仕様について論じ、この要求仕様を満たす高レベルのアーキテクチャーを紹介します。 IoT対応機器から送られてくるデータを信頼性のある方法で処理する役割を持つデータプラットフォームは、その規模に応じて以下の要求仕様を満たさなくてはなりません。それぞれのRAWデータに対応すること。データの取り込みとその処理の両方で、このプラットフォームはIoT機器から得られるデータをそのまま扱うことができなくてはなりません。Hadoopなら一般的に、また特にMapRデータプラットフォームならば、入力データをその

aquarickn 2015/02/10

ということで、これがんばれ

リンク

なんちゃって個人情報

なんちゃって個人情報は「Generator of the Year」にて【便利賞】を受賞いたしました！！投票して下さったみなさま、本当にありがとうございました。今後もどんどん使ってやって下さい。プログラム等に使えるかもしれない個人情報のテスト用データを作成できます。特に説明が必要なものでもないので、とりあえずやってみていただければわかると思います。念の為書いておきますが、生成した偽個人情報により発生したいかなる損害も当方は一切関知しません。たまたま名前が実在の人物と同姓同名になってしまうかもしれませんし、特に電話番号や携帯については実際に使われている番号と重なることがありますから、扱いには十分注意して下さい。何かご要望とかありましたらお気軽にブログまでコメント下さい。 HTML シンプルなHTMLのテーブルで出力します。 XML ルートを<records>、各レコードを<reco

aquarickn 2015/02/05

リンク

政府統計の総合窓口(e-Stat)−API機能 | 政府統計の総合窓口(e-Stat)−API機能

API機能をご利用いただくには、e-Statでのユーザ登録が必要です。登録がお済みでない方は、最初にユーザ登録を行ってください。

aquarickn 2015/02/02

リンク

徹底的にデータを見て、グロースハックする | XICA-Labs

ビジネスシーンにおいてデータはどのように活用すべきなのか。さまざまな業界のスペシャリストにお話を伺うインタビューシリーズ。今回は、ファッションアプリiQONを運営する株式会社VASILY CEO 金山裕樹氏です。徹底的にデータ同士の相関を見ることでVASILYを成長させてきた金山氏に、データ分析の可能性や限界について伺います。君が神だとしてもデータを持ってこい ─── さっそくですが、金山さんにとってデータとは？その質問難しいね。僕にとってのデータは、ふたつの考えがあります。ひとつは意思決定ツール。もうひとつはコミュニケーションツール。社内でいろいろな企画や意思決定するときに口酸っぱく言うことがあります。「君が神だとしてもデータを持ってこい」ってね。そのくらいデータは信じてますね。日々いろいろな意思決定が発生するなかで、僕たちが大事にしているのは、“インテリジェンス”。日本語で言う

aquarickn 2015/01/27

良い

リンク

はてなブックマーク

タグ

関連タグで絞り込む (26)

データに関するaquaricknのブックマーク (18)

お知らせ

今週のはてなブックマーク数ランキング（2024年6月第3週）

今週のはてなブックマーク数ランキング（2024年6月第2週）

月間はてなブックマーク数ランキング（2024年5月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス