タグ

ブックマーク / tjo.hatenablog.com (15)

  • 「仮説ドリブン」という名の甘い罠 - 渋谷駅前で働くデータサイエンティストのブログ

    今回の記事では、ちょっと感覚的でふわっとした話をしようと思います。それは「『仮説ドリブン』という考え方には往々にして落とし穴があるのではないか?」という問題提起です。 そもそも、「仮説ドリブン」(仮説駆動型:hypothesis-driven)というアプローチは実験科学分野出身の我が身にとっては、個人的には馴染み深いものです。まだ僕がポスドクだった頃、国際会議に際して日人研究者同士で集まる会が毎回あったのですが、その席上でお話を聞く機会があった当時のトップ研究者の先生から「この世の森羅万象は網羅しようとするにはあまりにも広大過ぎる、故に森羅万象を区切って『仮説で白黒つけられる範囲』に絞り、これを検証するということを繰り返して前に進むべき」ということを聞かされ、感銘を受けたのを覚えています。 実際、仮説ドリブンの考え方は非常に有用なものであり、今現在僕自身が主戦場とする広告・マーケティング

    「仮説ドリブン」という名の甘い罠 - 渋谷駅前で働くデータサイエンティストのブログ
    houyhnhm
    houyhnhm 2023/12/21
    実験計画な話だなあ。多分、変にデータが見えすぎてしまっているからに思うのと、データの集め方の偏りが超えづらい壁なんだろうなあ。
  • LLM chatbotが人類にもたらすのは、絶望なのか希望なのか - 渋谷駅前で働くデータサイエンティストのブログ

    ちょっと前に以下のようなことを放言したら、思いの外反響が多くてちょっとびっくりしたのでした。それだけ、現代のLLM chatbot / generative AIの台頭に期待と不安を抱いている人が多いということの裏返しなのでしょう。 既に色々コメントが出ているけど、我々人類が「知的労働」だと思っていることの大半が実は「過去実績をなぞって適当にその場に合わせて組み立てているだけ」なんじゃないかと訝っているので、そういう「自称知的労働」は多分LLMで代替されると思う。新奇なものを生み出す仕事は相変わらず残る https://t.co/GGK41vSDcn— TJO (@TJO_datasci) 2023年3月15日 昨年の年末振り返り記事でも話題にしたChatGPT(そして後続の各種LLM chatbot)ですが、今年に入ってからの話題の広がり方には想像を超えるものがあり、ついに朝の情報番組な

    LLM chatbotが人類にもたらすのは、絶望なのか希望なのか - 渋谷駅前で働くデータサイエンティストのブログ
  • データサイエンティストの「真の実力」を測るための効果的な面接方法 - 渋谷駅前で働くデータサイエンティストのブログ

    (Image by neo tam from Pixabay) 最近こんな記事が出ていたようですが、僕にとっては既視感満載の話題でした。何故かというと、実は現職に来る以前に既にここで書かれている面接方法を実務担当者面接の責任者として実践していたからです。ちなみにその方法は2013年ぐらい当時のテック系メディアで記事として取り上げられていたものなのですが、残念なことに現在どれほど検索してもその記事が見つかりません……。 その内容自体はしばらく前に英語版Quoraに書いていたり*1もっと遡ればTwitterに書いたりしていたのですが、そう言えばブログには書いていなかったなと思い出したので、改めてブログ記事にしてみようと思います。なお、ここに書かれている内容は僕の現在の職務とは一切関係がないことを予めお断りしておきます。 データサイエンティストに必要なのは「解決する力」であって「瞬発力」ではない

    データサイエンティストの「真の実力」を測るための効果的な面接方法 - 渋谷駅前で働くデータサイエンティストのブログ
    houyhnhm
    houyhnhm 2020/11/02
    しんのじつりょく、を、ドブさらい側に倒しがちな年寄りではあるけど、どこかで「銀の弾丸はないから」という気持ちがあるからだったりする。
  • 機械学習の説明可能性(解釈性)という迷宮 - 渋谷駅前で働くデータサイエンティストのブログ

    ちょっと前に、しょうもないことを某所で放言したら思いの外拡散されてしまいました。 機械学習の説明可能性(解釈性)、大半のケースで求められているのは厳密な分類・回帰根拠ではなく受け手の「納得感」なので、特に実ビジネス上は説明可能性に長けたモデルを開発するより、納得できないお客さんを巧みに関係性構築した上で口八丁で完璧に説得できる凄腕営業ピープルを雇う方が重要— TJO (@TJO_datasci) 2019年11月23日 これ自体は与太話なので実際どうでも良い*1のですが、最近色々な研究や技術開発の進展はたまた実務家による考察などを見ていて、「機械学習の説明可能性(解釈性)というのは思った以上に複雑な迷宮だ」と感じることがままあったのでした。 ということで、今回の記事では僕のサーベイの範囲でザッと見て目についた資料などを超絶大雑把にリストアップした上で、主に実務における説明可能性とは何かとい

    機械学習の説明可能性(解釈性)という迷宮 - 渋谷駅前で働くデータサイエンティストのブログ
    houyhnhm
    houyhnhm 2019/12/20
    多分過程の説明可能性を省くと、突っ込むデータの品質とか問題になっては来るだろう。
  • 「データ分析をやるならRとPythonのどちらを使うべき?」への個人的な回答 - 渋谷駅前で働くデータサイエンティストのブログ

    (Background image by Pixabay) 最近また「データ分析をやるならRとPythonのどちらでやるべきか」という話題が出ていたようです。 言語仕様やその他の使い勝手という点では、大体この記事に書いてあることを参考にすれば良いと思います。その上で、人には当然ながら趣味嗜好がありますので、個々人が好みだと思う方を使えば良い話ではあります。 とは言え、僕自身もクソコードの羅列ながらこのブログにR & Pythonのコードを載せているということもあるので、便乗して今回の記事では僕個人の意見と感想も書いてみようと思います。いつもながらど素人の意見(特にPython業ではない)なのと、自分がメインに使っているRでもtidyverseをほとんど使わないなど割とout-of-dateな使い方をしているということもあり、読んでいておかしなところなどあればどしどしご指摘くださると有難

    「データ分析をやるならRとPythonのどちらを使うべき?」への個人的な回答 - 渋谷駅前で働くデータサイエンティストのブログ
    houyhnhm
    houyhnhm 2019/06/28
    そこでSASですよとか言ってみる。
  • 日本の人工知能バブル、いよいよ弾けるか? - 渋谷駅前で働くデータサイエンティストのブログ

    このブログでは定番のマーケットトレンド調査ですが、今回は若干雲行きの怪しさを感じさせる結果が得られたので取り急ぎシェアしておきます。ちなみに言うまでもなくこの調査は僕自身の個人的なものであり、この記事で述べられている見解はいかなり組織にも関係はなくまたいかなる組織をも代表しないものであることを予めお断りしておきます。 Googleトレンドで見る限りでは「人工知能」は既に幻滅期に突入、「機械学習」も踊り場に入るか? 冒頭のプロットのスクリーンショットでお見せした通りですが、Googleトレンドで見る限りでは 「人工知能」:2016年5月中旬を境に上昇トレンドから下降トレンドに転じる 「機械学習」:2018年8月現在も上昇トレンドを維持しているように見えるがトレンド自体は鈍りつつあるように見える という印象があります。「人工知能」に関して言えば、既にガートナーのハイプ・サイクルで言うところの「

    日本の人工知能バブル、いよいよ弾けるか? - 渋谷駅前で働くデータサイエンティストのブログ
    houyhnhm
    houyhnhm 2018/08/13
    そもそもバブルになってるかなという気が。話だけは聞こえるが、無茶な分野への横展開で死につつある。
  • AIブームに完全に出遅れたエグゼクティブの方々のための本を書きました - 渋谷駅前で働くデータサイエンティストのブログ

    空前の人工知能ブームの中、主にエンジニアを中心とする若い人たちは必死に人工知能機械学習)の研究開発・技術開発のトレンドを追いかけ続けているように見えますが、一方でそういう若い人たちをマネージする立場のエグゼクティブの方々を見ていると明らかに置いてきぼりをらっている感がどこの現場を見ても否めません。 ということで、以下の2年前にバズった記事をベースにエグゼクティブの方々のためのAI入門を書きました。 目次 第1章 なぜ世の中では今AIが騒がれているのか 第2章 なぜAIには理解不能な数学が使われているのか 第3章 なぜAIエンジニアの説明はあれほど小難しいのか 第4章 なぜAIの開発は大金を積んでもうまくいかないのか 第5章 なぜ鉄腕アトムやドラえもんが未だに作れないのか 第6章 なぜAIと国語教育の問題とがつなげて議論されているのか 第7章 なぜ我々は「ブラックボックスとしてのAI

    AIブームに完全に出遅れたエグゼクティブの方々のための本を書きました - 渋谷駅前で働くデータサイエンティストのブログ
    houyhnhm
    houyhnhm 2018/04/01
    寒い。
  • 「p値や有意性に拘り過ぎるな、p < 0.05かどうかが全てを決める時代はもう終わらせよう」というアメリカ統計学会の声明 - 渋谷駅前で働くデータサイエンティストのブログ

    以前から同様の指摘は様々な分野から様々な人々が様々な形で出してきていましたが、アメリカ統計学会が以下のような明示的な声明をこの3月7日(現地時間)に発表したということで注目を集めているようです。 AMERICAN STATISTICAL ASSOCIATION RELEASES STATEMENT ON STATISTICAL SIGNIFICANCE AND P-VALUES Provides Principles to Improve the Conduct and Interpretation of Quantitative Science https://www.amstat.org/newsroom/pressreleases/P-ValueStatement.pdf The ASA's statement on p-values: context, process, and p

    「p値や有意性に拘り過ぎるな、p < 0.05かどうかが全てを決める時代はもう終わらせよう」というアメリカ統計学会の声明 - 渋谷駅前で働くデータサイエンティストのブログ
    houyhnhm
    houyhnhm 2016/03/08
    ?何を今更という気しかしない。モデルにちゃんと適合しているかどうかの判断はまた別の形で検証するもんだしな。統計モデル自体が、シミュレーションの悪い冗談みたいな程度のモデルだったりもするし。
  • 「正答率100%」になってしまう機械学習モデルの例を挙げてみる - 渋谷駅前で働くデータサイエンティストのブログ

    何か僕がシンガポールに出張している間に妙なニュースが流れていたようで。 京大ビッグデータ副作用論文。機械学習知らない私でも疑問なのは、@sz_drさんも指摘してるが y'=a1*SCORE+a2*ACT+a3*GeneID+b (1) という式で、GeneIDという定量的に性質を示す値でないものを線形結合に加えているところだと思う。詳しい人教えて— torusengoku (@torusengoku) 2016年1月25日 (※記事そのものへのリンクは控えました) 見る人が見れば「ああこれはleakageだな」と一瞥して終わるところなんですが、そもそもleakageってどういうことなのかピンと来ない人もいるかと思いますので、以前取り上げたデータ分析題材を例にとって実演してみようと思います。お題はこちら。 何故これを選んだかというと、このテニス四大大会データには上記で話題になっていた"Gen

    「正答率100%」になってしまう機械学習モデルの例を挙げてみる - 渋谷駅前で働くデータサイエンティストのブログ
    houyhnhm
    houyhnhm 2016/01/28
    酷いな。
  • 杜氏のいない蔵元が示した「データ分析さえすれば職人の技を職人抜きでも再現できる」という事実の凄み(追記あり) - 渋谷駅前で働くデータサイエンティストのブログ

    先日、とあるコンサルの社長さんとお酒を飲みながらお話していて出てきた話題が「畢竟データ分析って何の役に立つんだろう?」というものだったんですが、そこで僕が思い出して紹介したのが「獺祭」で世界進出を成功させている旭酒造のエピソードだったのでした。 ということで、その事例を振り返りながら久しぶりにちょっと与太話でもしようと思います。 http://www.tv-tokyo.co.jp/cambria/backnumber/20140116.html ちなみに上ははてブでも大きな話題を呼んだ東洋経済の特集記事ですが、僕にとってはテレ東カンブリア宮殿で紹介された時の映像の方が遥かに衝撃的でした。 「獺祭」は杜氏でも何でもない普通の社員が、データに基づいて一挙手一投足を決めながら仕込んでいる 東洋経済の記事では割とざっくりとしか書かれてないんですが、カンブリア宮殿で放映された映像では獺祭の製造工程の

    杜氏のいない蔵元が示した「データ分析さえすれば職人の技を職人抜きでも再現できる」という事実の凄み(追記あり) - 渋谷駅前で働くデータサイエンティストのブログ
    houyhnhm
    houyhnhm 2014/11/01
    どこらへんにデータ分析のエッセンスがあるんでしょうかね。
  • ここ最近の博士人材の動向を見ながら感じていること - 渋谷駅前で働くデータサイエンティストのブログ

    ここ最近、データ分析業界では有名な博士人材の方々が相次いでアカデミア(学術界)から離れる事態になっているようで。また、それに輪をかけるかのようにキツいオチのついたブログ記事も人気を集めている模様で。 大学院をやめました|Colorless Green Ideas 言うなれば、優秀な船員がどんどん降りていく船のように感じられた。もしかして操船する者がいなくなって沈没するのではないかとも思った。「残った船員だけでも船は問題なく動くさ」と言う人もいる。実際、船はそう簡単に沈没するものではない。だが、一度抱いた不安はなかなかぬぐえなかった。 起業しました - はやしのブログ Rev.3 ちなみに優秀であれば業界の状況はさして障害になりません。上位10人とかそういうレベルの話ですが(適当ですが、社会学は規模が小さいので)。なので、自分が優秀であるという自信があるのであれば、業界がどんな状況かは関係な

    ここ最近の博士人材の動向を見ながら感じていること - 渋谷駅前で働くデータサイエンティストのブログ
  • Web系サービス運営でKPIを決める時に気を付けるべき3つのポイント - 渋谷駅前で働くデータサイエンティストのブログ

    そろそろ新職場にも慣れてきましたよ、ということでちょっと与太話でも。少し前のTokyoWebminingでも話題になっていた、「KPIの決め方」についてです。 ところで、現場によってはKPIが何故か売上高とか営業利益とか「目標そのもの」になってしまっているケースがあると聞くんですが、そういう方には『「KPI」=「目標」だと勘違いしていませんか?|中野康之のソーシャルメディア運営で「ビジネスを加速」させるブログ』を一読されることをお薦めします。 売上や利益など、 対外的に提示する一般的な指標を「目標」とするのに対し、 内向きの行動に繋がる具体的な指標が「KPI」です。 ものすごーく当たり前のことだと思うんですが、一昔前の体育会系営業みたいな「とにかく毎日の売上高にしか興味がない」というやり方*1でいくと、Web系サービスのような施策介入できる余地が限られている業界*2ではどんどん手詰まりにな

    Web系サービス運営でKPIを決める時に気を付けるべき3つのポイント - 渋谷駅前で働くデータサイエンティストのブログ
    houyhnhm
    houyhnhm 2013/07/24
    共線性弾いてったら減りそうなもんだけど。
  • 「データサイエンティスト」「ビッグデータ」狂想曲の裏で何が進んでいるのか - 渋谷駅前で働くデータサイエンティストのブログ

    ついに「データサイエンティスト」「ビッグデータ」の語が、お茶の間にやってくる日が来たようです。 数字のカラクリ・データの真実 ~統計学ブームのヒミツ~ - NHKクローズアップ現代 ノイズとシグナルの狭間で - スタッフの部屋 ワールドビジネスサテライト7月10日「データサイエンティスト」特集 - ワールドビジネスサテライトFacebookページ これらの放送の後のTwitterの狂騒ぶりといったら、それはそれはもう凄かったです(笑)。支持派もアンチも入り乱れて「データサイエンティスト」の連呼で、検索するとTLが溢れてしまって*1全く読み切れないという。。。 所詮すぐに消えていくただのバズワード? ところで、支持派でもアンチでもおそらく大多数の人は「データサイエンティスト」「ビッグデータ」という語について、このように捉えているのではないでしょうか? まだ全然広まっていなくて、これから広まる

    「データサイエンティスト」「ビッグデータ」狂想曲の裏で何が進んでいるのか - 渋谷駅前で働くデータサイエンティストのブログ
    houyhnhm
    houyhnhm 2013/07/12
    本当にそうだったら楽なんだけど。
  • Webデータ分析&データサイエンスで役立つ統計学・機械学習系の分析手法10選 - 銀座で働くデータサイエンティストのブログ

    追記 2016年3月に以下の記事によってこの内容はupdateされています。今後はそちらをお読み下さい。 主に自分向けのまとめという意味合いが強いんですが(笑)、僕が実際に2013年6月現在webデータ分析&データサイエンスの実務でツール・ライブラリ・パッケージを利用しているものに限って、統計学・機械学習系の分析手法を10個挙げて紹介してみようと思います。 追記 回帰分析(特に線形重回帰分析) 独立性の検定(カイ二乗検定・フィッシャーの正確確率検定) 主成分分析(PCA) / 因子分析 クラスタリング 決定木 / 回帰木 サポートベクターマシン(SVM) ロジスティック回帰 ランダムフォレスト アソシエーション分析(バスケット分析・相関ルール抽出) 計量時系列分析 おわりに おまけ1:「素性ベクトル+分類ラベル」なるデータ前処理 おまけ2:グラフ理論*10 {igraph}パッケージでグラ

    Webデータ分析&データサイエンスで役立つ統計学・機械学習系の分析手法10選 - 銀座で働くデータサイエンティストのブログ
    houyhnhm
    houyhnhm 2013/06/11
    んんんん
  • 「n日間移動平均」+「±2σ境界線」をExcelでプロットしてお手軽にKPIの異常値をチェックする(厳密ではないけど) - 渋谷駅前で働くデータサイエンティストのブログ

    僕の得意分野は計量時系列分析(Econometric time series analysis)なんですが、実際にソーシャルwebサービス企業でデータ分析に取り組む上ではそんなに細かいことやる必要はない、というかそこまで正確な分析をする前に実務上色々やるべきことがある、ということは結構多いです。 実際のところ、当は異常値検出・外れ値検出みたいな手法でゴリゴリやりたい(例えばyokkunsさんが提供なさっているRの{ChangeAnomalyDetection}パッケージとか、はたまた{tsDyn}パッケージでも実装されているようなSETARとか、もしくは{MSwM}パッケージでやれるマルコフ状態転換モデルとか)んですが、Rを使ってもらうだけでも一苦労という現場ではそうも言ってられないという実態もあります。 ということで、もう何もかも面倒なのでお手軽に「KPIの上がり下がりを見て『これ凄く

    「n日間移動平均」+「±2σ境界線」をExcelでプロットしてお手軽にKPIの異常値をチェックする(厳密ではないけど) - 渋谷駅前で働くデータサイエンティストのブログ
    houyhnhm
    houyhnhm 2013/05/30
    何じゃこの説明。
  • 1