今回の記事では、ちょっと感覚的でふわっとした話をしようと思います。それは「『仮説ドリブン』という考え方には往々にして落とし穴があるのではないか?」という問題提起です。 そもそも、「仮説ドリブン」(仮説駆動型:hypothesis-driven)というアプローチは実験科学分野出身の我が身にとっては、個人的には馴染み深いものです。まだ僕がポスドクだった頃、国際会議に際して日本人研究者同士で集まる会が毎回あったのですが、その席上でお話を聞く機会があった当時のトップ研究者の先生から「この世の森羅万象は網羅しようとするにはあまりにも広大過ぎる、故に森羅万象を区切って『仮説で白黒つけられる範囲』に絞り、これを検証するということを繰り返して前に進むべき」ということを聞かされ、感銘を受けたのを覚えています。 実際、仮説ドリブンの考え方は非常に有用なものであり、今現在僕自身が主戦場とする広告・マーケティング
前回のブログ記事は、論文紹介という地味なテーマだったにしてはだいぶ話題を呼んだ*1ようで、個人的にはちょっと意外な感があったのでした。確かに、今をときめくTransformerにも苦手なものがあるという指摘は、NN一強の現代にあってはセンセーショナルなものと受け止められても不思議はなかったかと思います。 しかし、それは同時に「データセットが持つ本質的な性質」と「データ分析手法の性質」とのミスマッチと、それが引き起こす問題とについてこれまであまり関心を持ってこなかった人が多いということなのかもしれません。そして、そのミスマッチは冗談でなく古来からある程度定まった類型があり、データ分析業界の古参なら「そんなの常識だよ」というものばかりだったりします。 ところが、最近僕の周囲でもそういうミスマッチが深刻な実問題を招いているケースが散見され、思ったよりもそれは常識ではないのかな?と思わされることが
なぜいらないダッシュボードを作らないようにしなければならないのかいらないダッシュボードとは、作っても見返りがないか、見返りがあっても非常に少ないダッシュボードのことである。作っても最初から誰も見ていないのは論外であるが、そうでなくてもいらないダッシュボードがたくさんある。 作ったが最初だけで今は誰も見ていない 意思決定の役に立たない 作るのにとても手間がかかる 維持管理にコストがかかりすぎる いらないダッシュボードは作るのにリソースが必要になる。放っておけば邪魔になるので維持管理も必要だし、いらなくなったら後で削除すればいいと思ってもコミュニケーションの手間がかかる。 そしてこのいらないダッシュボードに費やした時間は何の価値も生まず、他にやるべきことに使えた時間を奪う。従って「いらないダッシュボードは作らない」に勝ることは無い。 ではどうしたらいらないダッシュボードを作らないようにできるの
イントロ「Amazonのこの商品をチェックした人はこの商品もチェックしています」や「YouTubeのあなたへのおすすめ」、「Twitterのおすすめユーザー」などのレコメンド機能は多くのWebサービスに組み込まれております。そのレコメンドによって、ついつい商品をたくさん買ってしまったり、夜遅くまで動画を見てしまった経験はないでしょうか。 この記事では、レコメンドシステムの裏側はどのような仕組みになっているのか、そもそもレコメンドとはどういうものなのかを具体例を交えながら俯瞰できればと思います。レコメンドシステムのアルゴリズムの詳細には触れず、ビジネスにおいてどのような形で実装されているかにフォーカスしています。ネット上に公開されているレコメンドに関するスライドや記事、論文のリンクをまとめましたので、アルゴリズムの詳細などはリンク先の記事でご確認ください。 対象の読者は、自社のサービスにレコ
NECは、従来の半分程度の学習データ量でも高い識別精度を維持できるディープラーニング技術を新たに開発しました。 識別精度の向上には、識別が難しい学習データをより多く学習することが有効ですが、学習に適した質の良いデータを十分に確保することが重要です。本技術は、ニューラルネットワーク(注1)の中間層で得られる特徴量を意図的に変化させることで、識別が難しい学習データを集中的に人工生成します。これにより、少ない学習データ量でも識別精度を大きく向上させ、ディープラーニングを適用したシステムの開発期間短縮に貢献します。 具体的には、ディープラーニング技術の適用に必要な学習データ量を半分程度に削減します。また本技術は、データの種類を問わず汎用的に適用可能であることから、専門家による調整が不要になります。これにより従来、学習データ収集時間やコストの高さが阻害要因となっていた製品の外観検査やインフラ保全など
アソシエーション分析(バスケット分析) Pythonでアプリオリ・アルゴリズムを実装したライブラリはいくつかありますが、リフト(Lift)値を考慮に入れたものは、Orangeしか見当たりませんでした。 しかし、Orangeはpip installできないので不便だと思い、自前で実装してPyPIにパッケージ登録しました。 https://github.com/aknd/akapriori 使用方法 $ pip install akapriori インストールしておき、 from akapriori import apriori transactions = [ ("apricot", "apple", "cherry", "plum", "banana"), ("strawberry", "plum", "cherry"), ("persimmon", "peach", "banana",
データ分析から導き出されたインサイト無しにAI(人工知能)の活用は始まりません。私たちは、各業界知識とデータ・アナリティクス技術を駆使しデータドリブン経営を強力に支援します。 データ、アナリティクス、AIは企業にとって競合他社との差別化を図るかつてないほど大きな要因になっています。今日の経営幹部が効率を向上しながら新たな収益源を開拓し、新しいビジネスモデルをタイムリーに構築する方法を模索する中、価値を生み出し成長を続ける企業には「データ活用」という共通項があります。私たちは、無数のデータから企業にとって本当に必要なデータを活用するための方法を知っています。 将来を見据えたオペレーション体制を備えている企業の半数以上(52%)は、すでにデータとアナリティクスを大規模に活用しています。データとAIに関する取り組みをビジネス戦略に沿って実施することで投資利益率を迅速に最大化し、最終的にはAIをビ
(Image by Pixabay) この記事は、以前の同様のスキル要件記事のアップデートです。 正直言って内容的には大差ないと思いますが、今回は2つ新たな軸を加えることにしました。一つは「ジュニアレベル(駆け出し)」と「シニアレベル(熟練職人)」とで分けるということ、もう一つは「データ分析以外の業界知識(ドメイン知識)」にも重きを置く、ということです。 というのも、空前の人工知能ブームが予想よりも長く続いていることで、人材マーケットを観察する限りではデータサイエンティスト・機械学習エンジニアとも求人数が高止まりしているように見えるのですが、その結果としてこのブログの過去のスキル要件記事で挙げたような「完成されたデータ分析人材(熟練職人)」に限らず「駆け出し」でも良いからデータ分析人材が欲しいという企業が増えているように感じられるからです。 その一方で、かつては主にwebマーケティング業界
(Image by Pixabay) この記事は以前の書籍リスト記事のアップデートです。 機械学習エンジニアやデータサイエンティストとして(もしくはそうではない職名であったとしても)機械学習システム開発や統計分析を仕事にしたい人なら、最低限これだけは読んでおいて損はないだろうという書籍を初級向け5冊、中級向け10冊選定しています。ただし、以前とは若干異なり「仕事にする」イコール「プロフェッショナルを目指す」ということで、特に初級向けリストを若干レベルアップさせています。中には初学者でも結構読みこなすのが難しい本だけになっているかもしれませんが、中級向けリストに進む上でどうしてもこれだけは読破して欲しいという願望も込めました、ということで。 完全にお馴染みのネタなので特に説明することはないかと思いますが、言うまでもなく以下のリストは完全なる僕個人の独断と偏見で、最近出版されたり自分で読んだ本
データサイエンティストの定義は?必要スキルは?現役データエンジニア/アナリストと考えた結論 需要が高まるデータサイエンティストというロールですが、業務の定義や、必要スキルは一体どのようなものでしょうか。3名のデータエンジニア/アナリストに実践から得た答えを聞きました。 データエンジニアとデータアナリストの違い 分析と実装。データサイエンティストに求められる要件 数学の素養が重要。技術は仕事で身につけられる! データエンジニア/アナリストが考える必要なスキルセット データアナリスト・データエンジニアにとっての「事業貢献」 「データサイエンティスト」という肩書を耳にすることが増えています。 データの蓄積はとどまるところを知らず、さらにビジネスにおけるデータの重要度が増し続ける現在、同職が同じく重要になっていることは想像に難くないでしょう。 反面、データサイエンティストが現場で何をしているかは、
疑似個人情報とは、主にアプリケーションの開発/試験の際のテストデータとしての使用を目的とした架空の個人情報データです。 個人情報保護法の施行により、本物の個人情報を目的外であるテストデータとして使用することはできなくなっています。 また個人情報の漏洩が社会問題となっている今、「本物の個人情報」をテストデータのように別目的で使用することは、 情報漏洩の危険性が高まるだけでなく、企業としてのモラルも問われます。 このページは無料で、この擬似個人情報を生成することができる実験的サービスです。 生成したデータの商用利用も可能です。 下の「生成を開始する」ボタンを押して、条件を入力していくだけで簡単に個人情報データの生成を行うことができます。 作成したデータはMicrosoft Excel、CSVなどの形式でダウンロードすることができます。
はじめに こんにちは。メディアデータ分析部の飯塚(@zr_4)です。 弊社では現在、複数のニュース形式のアプリケーションを運用しており、各プロダクトでユーザーの趣向にあうような記事リストのパーソナライズを行っています。 左から:LUCRA、ニュースパス、グノシー そのため、記事のランキングに関するA/Bテストをする機会が多々あり「少数のユーザーで高速に有力なパラメータを探したい」というニーズがありました。 今回は上記ニーズを満たすべく、グノシーの本番環境に導入したインターリービングを紹介します。 インターリービングとは 概要 インターリービングは高感度なランキング評価手法です。 実験的に、10倍から100倍従来のA/Bテストよりも効率的であることが知られています。*1 従来のA/Bテストにおいて、2つのランキングリストを評価する際は、ユーザを2つの群に分け各々に別々のランキングリストを提示
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く