[B! データ] blogger323のブックマーク

国土交通省が新サイト「不動産情報ライブラリ」を無料公開、早くも神サイトと評判【やじうまWatch】

blogger323 2024/04/04

リンク

「仮説ドリブン」という名の甘い罠 - 渋谷駅前で働くデータサイエンティストのブログ

今回の記事では、ちょっと感覚的でふわっとした話をしようと思います。それは「『仮説ドリブン』という考え方には往々にして落とし穴があるのではないか？」という問題提起です。そもそも、「仮説ドリブン」（仮説駆動型：hypothesis-driven）というアプローチは実験科学分野出身の我が身にとっては、個人的には馴染み深いものです。まだ僕がポスドクだった頃、国際会議に際して日本人研究者同士で集まる会が毎回あったのですが、その席上でお話を聞く機会があった当時のトップ研究者の先生から「この世の森羅万象は網羅しようとするにはあまりにも広大過ぎる、故に森羅万象を区切って『仮説で白黒つけられる範囲』に絞り、これを検証するということを繰り返して前に進むべき」ということを聞かされ、感銘を受けたのを覚えています。実際、仮説ドリブンの考え方は非常に有用なものであり、今現在僕自身が主戦場とする広告・マーケティング

blogger323 2023/12/21

データ

リンク

データセットの本質的な性質を踏まえないデータ分析には、大抵何の意味もない - 渋谷駅前で働くデータサイエンティストのブログ

前回のブログ記事は、論文紹介という地味なテーマだったにしてはだいぶ話題を呼んだ*1ようで、個人的にはちょっと意外な感があったのでした。確かに、今をときめくTransf ormerにも苦手なものがあるという指摘は、NN一強の現代にあってはセンセーショナルなものと受け止められても不思議はなかったかと思います。しかし、それは同時に「データセットが持つ本質的な性質」と「データ分析手法の性質」とのミスマッチと、それが引き起こす問題とについてこれまであまり関心を持ってこなかった人が多いということなのかもしれません。そして、そのミスマッチは冗談でなく古来からある程度定まった類型があり、データ分析業界の古参なら「そんなの常識だよ」というものばかりだったりします。ところが、最近僕の周囲でもそういうミスマッチが深刻な実問題を招いているケースが散見され、思ったよりもそれは常識ではないのかな？と思わされることが

blogger323 2023/11/12

データ

リンク

いらないダッシュボードを作らないようにしよう｜データ分析とインテリジェンス

なぜいらないダッシュボードを作らないようにしなければならないのかいらないダッシュボードとは、作っても見返りがないか、見返りがあっても非常に少ないダッシュボードのことである。作っても最初から誰も見ていないのは論外であるが、そうでなくてもいらないダッシュボードがたくさんある。作ったが最初だけで今は誰も見ていない意思決定の役に立たない作るのにとても手間がかかる維持管理にコストがかかりすぎるいらないダッシュボードは作るのにリソースが必要になる。放っておけば邪魔になるので維持管理も必要だし、いらなくなったら後で削除すればいいと思ってもコミュニケーションの手間がかかる。そしてこのいらないダッシュボードに費やした時間は何の価値も生まず、他にやるべきことに使えた時間を奪う。従って「いらないダッシュボードは作らない」に勝ることは無い。ではどうしたらいらないダッシュボードを作らないようにできるの

blogger323 2023/06/20

意思決定が目的で後続のアクションに繋がらないものは不要というのはその通り。他方データ探索系のデータを見て考えるという業務もあり得て、これは分析ツールリテラシー向上で対処すべき。混ぜないこと。

データ
BI

リンク

Importing Data To Excel Using ODBC

blogger323 2022/03/02

リンク

TJO on Twitter: "データサイエンティスト協会の偉い人なんだったら、これを見て最初にコメントすべきは「交絡因子はないのだろうか？」であり、いきなり財務省の一見奇妙な結論を鵜呑みにするのはどうなのかなと。特に「年齢」は曲者で、Pearl因果推論本だと本… https://t.co/78B83pRoRf"

データサイエンティスト協会の偉い人なんだったら、これを見て最初にコメントすべきは「交絡因子はないのだろうか？」であり、いきなり財務省の一見奇妙な結論を鵜呑みにするのはどうなのかなと。特に「年齢」は曲者で、Pearl因果推論本だと本… https://t.co/78B83pRoRf

blogger323 2021/05/24

データ

リンク

https://www.ipa.go.jp/jinzai/skill-standard/plus-it-ui/itssplus/ps6vr70000001ity-att/000083733.pdf

blogger323 2020/11/26

データ

リンク

無料で使える「住所マスターデータ」公開、表記統一や緯度経度への変換に活用可能　全国の町丁目レベル18万9540件の住所データを記録

blogger323 2020/08/21

データ

リンク

これから推薦システムを作る方向けの推薦システム入門｜masa_kazama

イントロ「Amazonのこの商品をチェックした人はこの商品もチェックしています」や「YouTubeのあなたへのおすすめ」、「Twitterのおすすめユーザー」などのレコメンド機能は多くのWebサービスに組み込まれております。そのレコメンドによって、ついつい商品をたくさん買ってしまったり、夜遅くまで動画を見てしまった経験はないでしょうか。この記事では、レコメンドシステムの裏側はどのような仕組みになっているのか、そもそもレコメンドとはどういうものなのかを具体例を交えながら俯瞰できればと思います。レコメンドシステムのアルゴリズムの詳細には触れず、ビジネスにおいてどのような形で実装されているかにフォーカスしています。ネット上に公開されているレコメンドに関するスライドや記事、論文のリンクをまとめましたので、アルゴリズムの詳細などはリンク先の記事でご確認ください。対象の読者は、自社のサービスにレコ

blogger323 2020/07/14

データ

リンク

データサイエンス概論第一=2-1 データ間の距離と類似度

九州大学大学院システム情報科学研究院「データサイエンス実践特別講座」が贈る，数理・情報系『でない』学生さんのための「データサイエンス講義

blogger323 2019/12/18

データ

リンク

NEC、従来技術の半分の学習データ量でも高精度に識別可能なディープラーニング技術を開発

NECは、従来の半分程度の学習データ量でも高い識別精度を維持できるディープラーニング技術を新たに開発しました。識別精度の向上には、識別が難しい学習データをより多く学習することが有効ですが、学習に適した質の良いデータを十分に確保することが重要です。本技術は、ニューラルネットワーク(注1)の中間層で得られる特徴量を意図的に変化させることで、識別が難しい学習データを集中的に人工生成します。これにより、少ない学習データ量でも識別精度を大きく向上させ、ディープラーニングを適用したシステムの開発期間短縮に貢献します。具体的には、ディープラーニング技術の適用に必要な学習データ量を半分程度に削減します。また本技術は、データの種類を問わず汎用的に適用可能であることから、専門家による調整が不要になります。これにより従来、学習データ収集時間やコストの高さが阻害要因となっていた製品の外観検査やインフラ保全など

blogger323 2019/08/20

データ

リンク

統計検定：Japan Statistical Society Certificate

「統計検定」とは、統計に関する知識や活用力を評価する全国統一試験です。問い合わせ：統計検定センター

blogger323 2019/07/17

リンク

Pythonでアプリオリ・アルゴリズムを実装してPyPI登録 - あきちゃんログ

アソシエーション分析（バスケット分析） Pythonでアプリオリ・アルゴリズムを実装したライブラリはいくつかありますが、リフト（Lift）値を考慮に入れたものは、Orangeしか見当たりませんでした。しかし、Orangeはpip installできないので不便だと思い、自前で実装してPyPIにパッケージ登録しました。 https://github.com/aknd/akapriori 使用方法 $ pip install akapriori インストールしておき、 from akapriori import apriori transactions = [ ("apricot", "apple", "cherry", "plum", "banana"), ("strawberry", "plum", "cherry"), ("persimmon", "peach", "banana",

blogger323 2019/06/13

データ

リンク

Apriori Algorithm (Python 3.0) - A Data Analyst

blogger323 2019/06/13

データ

リンク

株式会社ALBERT（レコメンドエンジン）

データ分析から導き出されたインサイト無しにAI（人工知能）の活用は始まりません。私たちは、各業界知識とデータ・アナリティクス技術を駆使しデータドリブン経営を強力に支援します。データ、アナリティクス、AIは企業にとって競合他社との差別化を図るかつてないほど大きな要因になっています。今日の経営幹部が効率を向上しながら新たな収益源を開拓し、新しいビジネスモデルをタイムリーに構築する方法を模索する中、価値を生み出し成長を続ける企業には「データ活用」という共通項があります。私たちは、無数のデータから企業にとって本当に必要なデータを活用するための方法を知っています。将来を見据えたオペレーション体制を備えている企業の半数以上（52％）は、すでにデータとアナリティクスを大規模に活用しています。データとAIに関する取り組みをビジネス戦略に沿って実施することで投資利益率を迅速に最大化し、最終的にはAIをビ

blogger323 2019/06/13

データ

リンク

2019年版：データサイエンティスト・機械学習エンジニアのスキル要件、そして期待されるバックグラウンドについて - 渋谷駅前で働くデータサイエンティストのブログ

(Image by Pixabay) この記事は、以前の同様のスキル要件記事のアップデートです。正直言って内容的には大差ないと思いますが、今回は2つ新たな軸を加えることにしました。一つは「ジュニアレベル（駆け出し）」と「シニアレベル（熟練職人）」とで分けるということ、もう一つは「データ分析以外の業界知識（ドメイン知識）」にも重きを置く、ということです。というのも、空前の人工知能ブームが予想よりも長く続いていることで、人材マーケットを観察する限りではデータサイエンティスト・機械学習エンジニアとも求人数が高止まりしているように見えるのですが、その結果としてこのブログの過去のスキル要件記事で挙げたような「完成されたデータ分析人材（熟練職人）」に限らず「駆け出し」でも良いからデータ分析人材が欲しいという企業が増えているように感じられるからです。その一方で、かつては主にwebマーケティング業界

blogger323 2019/06/08

データ

リンク

機械学習システム開発や統計分析を仕事にしたい人にオススメの書籍初級5冊＆中級10冊＋テーマ別9冊（2019年1月版） - 渋谷駅前で働くデータサイエンティストのブログ

(Image by Pixabay) この記事は以前の書籍リスト記事のアップデートです。機械学習エンジニアやデータサイエンティストとして（もしくはそうではない職名であったとしても）機械学習システム開発や統計分析を仕事にしたい人なら、最低限これだけは読んでおいて損はないだろうという書籍を初級向け5冊、中級向け10冊選定しています。ただし、以前とは若干異なり「仕事にする」イコール「プロフェッショナルを目指す」ということで、特に初級向けリストを若干レベルアップさせています。中には初学者でも結構読みこなすのが難しい本だけになっているかもしれませんが、中級向けリストに進む上でどうしてもこれだけは読破して欲しいという願望も込めました、ということで。完全にお馴染みのネタなので特に説明することはないかと思いますが、言うまでもなく以下のリストは完全なる僕個人の独断と偏見で、最近出版されたり自分で読んだ本

blogger323 2019/06/06

データ

リンク

データサイエンティストの定義は？必要スキルは？現役データエンジニア／アナリストと考えた結論 - エンジニアHub｜若手Webエンジニアのキャリアを考える！

データサイエンティストの定義は？必要スキルは？現役データエンジニア／アナリストと考えた結論需要が高まるデータサイエンティストというロールですが、業務の定義や、必要スキルは一体どのようなものでしょうか。3名のデータエンジニア／アナリストに実践から得た答えを聞きました。データエンジニアとデータアナリストの違い分析と実装。データサイエンティストに求められる要件数学の素養が重要。技術は仕事で身につけられる！データエンジニア／アナリストが考える必要なスキルセットデータアナリスト・データエンジニアにとっての「事業貢献」「データサイエンティスト」という肩書を耳にすることが増えています。データの蓄積はとどまるところを知らず、さらにビジネスにおけるデータの重要度が増し続ける現在、同職が同じく重要になっていることは想像に難くないでしょう。反面、データサイエンティストが現場で何をしているかは、

blogger323 2019/06/06

データ

リンク

疑似個人情報データ生成サービス

疑似個人情報とは、主にアプリケーションの開発／試験の際のテストデータとしての使用を目的とした架空の個人情報データです。個人情報保護法の施行により、本物の個人情報を目的外であるテストデータとして使用することはできなくなっています。また個人情報の漏洩が社会問題となっている今、「本物の個人情報」をテストデータのように別目的で使用することは、情報漏洩の危険性が高まるだけでなく、企業としてのモラルも問われます。このページは無料で、この擬似個人情報を生成することができる実験的サービスです。生成したデータの商用利用も可能です。下の「生成を開始する」ボタンを押して、条件を入力していくだけで簡単に個人情報データの生成を行うことができます。作成したデータはMicrosoft Excel、CSVなどの形式でダウンロードすることができます。

blogger323 2019/01/15

リンク

A/Bテストよりすごい？はじめてのインターリービング - Gunosyデータ分析ブログ

はじめにこんにちは。メディアデータ分析部の飯塚(@zr_4)です。弊社では現在、複数のニュース形式のアプリケーションを運用しており、各プロダクトでユーザーの趣向にあうような記事リストのパーソナライズを行っています。左から：LUCRA、ニュースパス、グノシーそのため、記事のランキングに関するA/Bテストをする機会が多々あり「少数のユーザーで高速に有力なパラメータを探したい」というニーズがありました。今回は上記ニーズを満たすべく、グノシーの本番環境に導入したインターリービングを紹介します。インターリービングとは概要インターリービングは高感度なランキング評価手法です。実験的に、10倍から100倍従来のA/Bテストよりも効率的であることが知られています。*1 従来のA/Bテストにおいて、2つのランキングリストを評価する際は、ユーザを2つの群に分け各々に別々のランキングリストを提示

blogger323 2018/10/15

リンク

はてなブックマーク

タグ

関連タグで絞り込む (7)

データに関するblogger323のブックマーク (44)

お知らせ

月間はてなブックマーク数ランキング（2024年5月）

今週のはてなブックマーク数ランキング（2024年6月第1週）

今週のはてなブックマーク数ランキング（2024年5月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス