タグ

ブックマーク / tjo.hatenablog.com (42)

  • 「入試に数学を課さないデータサイエンス学部」は是か非か - 渋谷駅前で働くデータサイエンティストのブログ

    最近の話ですが、以下のようなニュースが話題になっているのを見かけました。 データサイエンス系の学部は文理融合の学びを掲げ、文系の受験生も集めるため、受験科目に「数学」を含まない入試方式を設ける大学も少なくない。河合塾によると、私立大のデータサイエンス系学部・学科における昨春の一般選抜のうち、数学を選ばずに受験できる大学は約半数もあった。 要は「数学不要」のデータサイエンス学部が出てくるようになったというお話で、各種SNSでは論議を呼んでいるようです。界隈によってはほとんど「嘲笑」に近い評が流布していることもあり、少なくともデータサイエンス業界におけるこのニュースの受け止められ方としてはかなり冷ややかだという印象があります。 とは言え、冗談でも何でもなく「全国津々浦々どこに行っても大学の新設データサイエンス学部の広告を見かける」*1というのが既に常態化している昨今では、これに類する話題は今後

    「入試に数学を課さないデータサイエンス学部」は是か非か - 渋谷駅前で働くデータサイエンティストのブログ
    honeybe
    honeybe 2024/01/23
  • 「仮説ドリブン」という名の甘い罠 - 渋谷駅前で働くデータサイエンティストのブログ

    今回の記事では、ちょっと感覚的でふわっとした話をしようと思います。それは「『仮説ドリブン』という考え方には往々にして落とし穴があるのではないか?」という問題提起です。 そもそも、「仮説ドリブン」(仮説駆動型:hypothesis-driven)というアプローチは実験科学分野出身の我が身にとっては、個人的には馴染み深いものです。まだ僕がポスドクだった頃、国際会議に際して日人研究者同士で集まる会が毎回あったのですが、その席上でお話を聞く機会があった当時のトップ研究者の先生から「この世の森羅万象は網羅しようとするにはあまりにも広大過ぎる、故に森羅万象を区切って『仮説で白黒つけられる範囲』に絞り、これを検証するということを繰り返して前に進むべき」ということを聞かされ、感銘を受けたのを覚えています。 実際、仮説ドリブンの考え方は非常に有用なものであり、今現在僕自身が主戦場とする広告・マーケティング

    「仮説ドリブン」という名の甘い罠 - 渋谷駅前で働くデータサイエンティストのブログ
    honeybe
    honeybe 2023/12/21
  • 「機械学習で時系列予測はできるのか」論議がTransformerと共に帰ってきた - 渋谷駅前で働くデータサイエンティストのブログ

    先日、こちらのポストをお見かけしました。 AI技術開発部の高橋が社内勉強会の資料「時系列予測にTransformerを使うのは有効か?」を公開しました。 論文Are Transformers Effective for Time Series Forecastingの紹介を中心に、時系列予測について解説しています。ぜひご覧ください。https://t.co/LplxTT8b1d pic.twitter.com/nUXb4bGiQ3— GO Inc. AI Tech (@goinc_ai_tech) 2023年9月28日 なるほど、NN全盛というかNN一択の時代にあっては時系列予測もNNでやるのが当たり前になったのだなという感想でした。大昔「沖」で古典的な計量時系列分析を一通り学んだ身としては隔世の感がありますが、これもまたNN時代の趨勢なのでしょう。 なお、元論文2点は上記リンクから辿

    「機械学習で時系列予測はできるのか」論議がTransformerと共に帰ってきた - 渋谷駅前で働くデータサイエンティストのブログ
    honeybe
    honeybe 2023/10/22
  • エンジニア・データ分析職の方々にお薦めしたい、LLM時代に不可欠な教養が身に付くテキスト3選 - 渋谷駅前で働くデータサイエンティストのブログ

    (『IT Text 自然語処理の基礎』より) 3ヶ月ほど前に空前のLLMブームについて概観する記事を書きましたが、それ以降も世間のLLMに対する狂騒ぶりは収まるどころかますます拍車がかかるという有様で、あまつさえ僕自身の仕事における日常業務にもじわじわと影響が及びつつあり、今後も良きにつけ悪しきにつけLLMと共生し続ける必要がありそうだと感じている今日この頃です。 そんなも杓子もLLMに群がるが如き空前のブームを受けて、エンジニアデータ分析職の方々の中には「LLMに興味はあるんだけど世の中にあまりにも多くのLLM関連コンテンツが溢れ返っていて何から手をつけたら良いのか分からない」という向きもあるように見受けられます。そこで、僕も断じてLLM以下生成AIの専門家などではないのですが、個人的に「このテキストを読めばLLM時代を生き抜くことが出来そうだ」と感じた書籍を、全くの独断と偏見で3冊

    エンジニア・データ分析職の方々にお薦めしたい、LLM時代に不可欠な教養が身に付くテキスト3選 - 渋谷駅前で働くデータサイエンティストのブログ
    honeybe
    honeybe 2023/07/03
  • LLMにデータ分析をさせてみる:テーブルデータの概要解釈 - 渋谷駅前で働くデータサイエンティストのブログ

    先日こんな記事を書いたのでした。はてブも400近くに達しており、良くも悪くもバズったようです。 で、この記事の中で言いたかったことは幾つかあるのですが、その一つに「文書・テキスト要約など『そもそもLLMというかLM自体が得意な仕事』をさせると便利なはず」というのがありました。そして実際に現職の日常業務の中でも時々使っているのですが、確かに便利だなぁと思うことが多いです(もっとも時々凄まじいhallucinationを炸裂させてくることもありますが)。 そこでちょっと考えたのが「データ分析の諸作業のうち何をLLMにやらせると効率的か」というお題です。これはちょっと調べれば既に試している人が結構いて、例えば以下のような事例があったりします。 ただ、例えば "Titanic" のような有名過ぎるデータセットだとそこらじゅうにこれを対象として分析してみましたという記事やドキュメントが沢山転がってお

    LLMにデータ分析をさせてみる:テーブルデータの概要解釈 - 渋谷駅前で働くデータサイエンティストのブログ
    honeybe
    honeybe 2023/05/24
  • 難局を乗り越えた先に見えるもの - 渋谷駅前で働くデータサイエンティストのブログ

    (Stable Diffusion 2.1でこの記事のタイトルをプロンプトとして与えて生成した画像) 時が経つのは早いもので、あっという間に今年2022年も恒例の年末振り返り記事の時期が来てしまいました。ということで、例年通り何のオチも学びも技術的内容もない記事ですが、この1年を振り返ってみようと思います。 相次ぐ世界規模の難局 クリエイティブAIの飛躍的な進歩がもたらした混沌 個人的な話 最後に 相次ぐ世界規模の難局 一般的な時事問題を論じるのはこのブログの題ではないのですが、それを差し置いても今年は世界規模の難局があまりにも多過ぎたように思います。オミクロン株主体に移行し現在も継続している新型コロナウイルス感染症のパンデミック然り、2月に始まったウクライナ戦争然り*1、そしてその影響を受けて突然陥った世界規模の不況*2然り、とコロナが収まり切らないうちに大変なことが立て続けに起きてい

    難局を乗り越えた先に見えるもの - 渋谷駅前で働くデータサイエンティストのブログ
    honeybe
    honeybe 2022/12/26
  • 「データ分析の民主化」の在り方を、「社員全員Excel経営」が「社員全員データサイエンス経営」へと進化していった事例に見る - 渋谷駅前で働くデータサイエンティストのブログ

    以前こんな記事を書いたことがあります。 「社員全員Excel経営」で名高い、ワークマン社のサクセスストーリーを論評したものです。2012年にCIOに就任した土屋哲雄常務のリーダーシップのもと、取引データの完全電子化を皮切りに「全社員がExcelを使いこなして数字とデータで経営する」戦略へと移行し、社内のExcelデータ分析資格を一定以上取得しないと管理職に昇進できないとか、はたまた幹部クラスの企画・経営会議ではデータに基づかない議論や提案は相手にすらされないとか、「Excelを社員全員が使えるようになるだけでもここまで企業カルチャーは変わり得るのか」という事例のオンパレードで、関連記事や書籍を読んでいて舌を巻いたのを覚えています。まさしく「ワークマンのすごいデータ活用」だったのです。 一方、個人的に強く印象を受けたのが土屋常務が様々なところでコメントしていた「我が社には突出したデータサイエ

    「データ分析の民主化」の在り方を、「社員全員Excel経営」が「社員全員データサイエンス経営」へと進化していった事例に見る - 渋谷駅前で働くデータサイエンティストのブログ
    honeybe
    honeybe 2022/12/12
  • 『標準ベイズ統計学』はベイズ統計学をきちんと基礎から日本語で学びたいという人にとって必携の一冊 - 渋谷駅前で働くデータサイエンティストのブログ

    標準 ベイズ統計学 朝倉書店Amazon 発刊当時に話題になっていた『標準ベイズ統計学』。実は訳者のお一人、菅澤翔之助さんからオフィス宛てでご恵贈いただいていたのですが、親父の没後処理やら自分のDVTやら実家の片付けやらで全く手が回らずオフィスに置いたままにしてしまっていたのでした。で、この度改めて拝読してみたら「何故もっと早く読まなかったんだ」と後悔するくらいあまりにも内容が素晴らしかったので、遅まきながら書評記事を書こうと思い立った次第です。 ベイズ統計学というと、殆ど詳しくない人だと「ベイズの定理以外に何があるの?」という印象ぐらいしかないかもしれませんし、一方でとりあえず技法としてやり方だけ覚えてしまった人だと「とりあえずMCMC回せばいいんだよね?」みたいな雑な理解になってしまうかもしれません。いずれにせよこれまで邦書ではベイズ統計学というと超初歩か実装重視かの二択が多かったせい

    『標準ベイズ統計学』はベイズ統計学をきちんと基礎から日本語で学びたいという人にとって必携の一冊 - 渋谷駅前で働くデータサイエンティストのブログ
    honeybe
    honeybe 2022/11/22
  • データサイエンティストという職業の10年間の変遷を振り返る - 渋谷駅前で働くデータサイエンティストのブログ

    (Image by Gordon Johnson from Pixabay) TL;DR 今年の6月に僕自身がデータサイエンティストに転じて10年という節目の年を迎え、10月でDavenportの「データサイエンティストは21世紀で最もセクシーな職業である」HBR総説から10周年になるのを機に、この10年間のデータサイエンティストという職業の変遷を振り返ることにしました。 6月の回顧録記事でも書いた通り、僕がデータサイエンティストの仕事に就いてから今年で10年になります。最近も同じかどうかは分かりませんが、古くから「10年ひと昔」という常套句がある通りで個人的には大きな節目の年だと感じています。 一方で、今年の10月にはあまりにも有名な「データサイエンティストは21世紀で最もセクシーな職業である」HBR総説が出てから10周年を迎え、後述するようにDavenportは「今もデータサイエンティ

    データサイエンティストという職業の10年間の変遷を振り返る - 渋谷駅前で働くデータサイエンティストのブログ
    honeybe
    honeybe 2022/10/22
  • 再現性問題のはなし - 渋谷駅前で働くデータサイエンティストのブログ

    経済セミナー2022年6・7月号 通巻726号【特集】経済学と再現性問題 日評論社Amazon 最近は計量経済学・統計学方面の方々との交流が多いんですが、そのご縁で『経済セミナー』の2022年6・7月号が再現性問題を取り上げていたと知り、入手して読んでみました。特集部分の目次を以下に引用すると、 特集= 経済学と再現性問題 【鼎談】再現性の問題にどう向き合うか?……川越敏司×會田剛史×新井康平 心理学における再現性の危機――課題と対応……大坪庸介 経済学における再現性の危機――経済実験での評価と対応……竹内幹 フィールド実験・実証研究における再現性……高野久紀 健全な研究慣習を身に付けるための実験・行動経済学101……山田克宣 再現性問題における統計学の役割と責任……マクリン謙一郎 という内容で、幾つかの分野にまたがって論じられています。特に、このブログ含めて個人的に度々お世話になってい

    再現性問題のはなし - 渋谷駅前で働くデータサイエンティストのブログ
    honeybe
    honeybe 2022/07/07
  • 私論:メトリクスで評価される研究をむしろ「質的」に評価してみてはどうか - 渋谷駅前で働くデータサイエンティストのブログ

    (Image by Arek Socha from Pixabay) 江添さんがこんな記事を書かれていました。個人的な感想ですが、面白い観点だなと思った次第です。 この記事では、江添さんが取り上げた論文についての直接の議論はあえて避けます*1。が、江添さんが提起した問題をより一般化して、SOTAに限らず「ある何かしらのメトリクスで評価される」分野の研究をどう見たら良いか?という問題についてちょっと考えてみようと思います。 メトリクスで評価される結果「僅かな改善」ばかりが繰り返される世界 メトリクスの改善は僅かかほぼ無いが「質」には大きな差があるケースもある 最後に 追記 メトリクスで評価される結果「僅かな改善」ばかりが繰り返される世界 今や機械学習のSOTAレースはその代表例になった感がありますが、メトリクスを競い続けた結果「僅かな改善」ばかりが多数繰り返される世界というのは意外と珍しくあ

    私論:メトリクスで評価される研究をむしろ「質的」に評価してみてはどうか - 渋谷駅前で働くデータサイエンティストのブログ
    honeybe
    honeybe 2022/06/01
  • 『「誤差」「大間違い」「ウソ」を見分ける統計学』は既に統計学を学んだ人がさらなる理解の深みと多様さを求めて読むべき「副読本」 - 渋谷駅前で働くデータサイエンティストのブログ

    「誤差」「大間違い」「ウソ」を見分ける統計学 作者:デイヴィッド・サルツブルグ共立出版Amazon しばらく前に共立出版様からご恵贈いただいたのがこちらの『「誤差」「大間違い」「ウソ」を見分ける統計学』。お気付きの方もいらっしゃるかもしれませんが、原著者デイヴィッド・ザルツブルグは『統計学を拓いた異才たち―経験則から科学へ進展した一世紀』で知られる生物統計学者で、その彼の近著です。なお書の訳者の一人竹内惠行氏は『統計学を拓いた〜』の翻訳も手がけており、同じチームによるいわば「続編」的な一冊と言って良いかと思います。 前著は割と分厚い「統計学史」についての「読み物」という雰囲気の強い一冊でしたが、書はそれに比べると古今東西の統計学がキーワードとなった幅広い分野における実例を挙げつつ、同時に統計学の具体的なポイントについての解説を加えていくというスタイルで書かれており、いわば統計学テキスト

    『「誤差」「大間違い」「ウソ」を見分ける統計学』は既に統計学を学んだ人がさらなる理解の深みと多様さを求めて読むべき「副読本」 - 渋谷駅前で働くデータサイエンティストのブログ
    honeybe
    honeybe 2021/11/16
  • 「あえて精度勝負をしない機械学習」という選択肢 - 渋谷駅前で働くデータサイエンティストのブログ

    少し前のことですが、こんな話題がありました。 自分がこれまで現職で手がけた機械学習ソリューションでは 1. そもそも「予測」ではなく「説明(解釈)」をアウトプットにする 2. クラス分類確率の高いものだけアウトプットし、低いものは「未定」扱いにして捨てる などという形で実務の現場で使ってもらってます。精度勝負をしないのも一つの解かと https://t.co/NmZJCPnue2— TJO (@TJO_datasci) 2021年8月29日 実際問題として「ある目的のために機械学習システムを開発し、非常に高精度のものが出来上がったが、結局色々あって実戦投入されなかった」という話は、自分の身の回りでも業界内の伝聞でも事欠きません。 しかし、機械学習と言えばどちらかというと「より精度の高いモデルを追い求める」試み、もう少し下世話に言うと「精度勝負」によって、連綿と発展してきたという歴史がありま

    「あえて精度勝負をしない機械学習」という選択肢 - 渋谷駅前で働くデータサイエンティストのブログ
    honeybe
    honeybe 2021/09/12
  • DS/AIブームは「ソフトランディング」できるか - 渋谷駅前で働くデータサイエンティストのブログ

    旧知の友人でもある、アラヤ創業者・社長の金井さん*1が興味深い記事を書かれて評判になっているようです。 その内容はズバリ「AIブーム終焉」。AIブームが終焉すれば一種の「連れ高」として再燃していたデータサイエンス・データサイエンティスト(DS)ブームも終焉すると予想されるので、これはDS/AIブームの終焉とも言い換えられそうです。 当事者でありながら他人事みたいなことを言うようで気が引けますが、何であれブームというものはいつかは終わりを迎えます。あるもののブームが終わったからといってそのものが滅んでしまうということは一般に多くありませんが、ブームが「ソフトランディング」するかどうかによってその後の状況は変わってくるもの。「浮かれてみんな飛びついていたけれども実は大したことがなかった・金と時間の無駄だった・害悪の方が大きかった」というような感じで反動が強ければ、ブームだったものはその後も定着

    DS/AIブームは「ソフトランディング」できるか - 渋谷駅前で働くデータサイエンティストのブログ
    honeybe
    honeybe 2020/08/14
  • データサイエンティストに王道無し - 渋谷駅前で働くデータサイエンティストのブログ

    TL;DR(思ったよりもかなりの長文になってしまったので*1、時間がないという方は1番目と2番目のセクションの冒頭だけお読みください) しんゆうさんの舌鋒鋭いブログ&note記事にはいつも楽しませていただいているのですが、この記事は一点僕のデータ分析業界の認識に新たな視点を与える話題があって特に目を引きました。それが以下の箇所です。 資格があるわけでもないので名乗るのは自由だし、未経験だろうが文系だろうがそれはどうでもいいのだけど、傍から見ていると「サイエンティスト」と名乗っているわりには「サイエンス」な話をしていないなぁとは思っている。(中略) 現在起きている第3次データサイエンティストブームは「データサイエンティストと名乗りたい人」が盛り上げているように見える。 (太字筆者) この問題は、このブログの前々回の記事でも取り上げています。 ただ、僕はこういう「データサイエンティストになりた

    データサイエンティストに王道無し - 渋谷駅前で働くデータサイエンティストのブログ
    honeybe
    honeybe 2020/07/28
  • 何故データサイエンスは魅力を失いつつあるのか - 渋谷駅前で働くデータサイエンティストのブログ

    (Image by Pixabay) こんな記事が、しばらく前に我らが盟主タカヤナギ=サンによって言及されていました。 データサイエンティストになる魅力がなくなってきた理由を4つの理由(ジュニアのポジションが減っている、アナリスト職種で良い、データサイエンスを簡単だと思いすぎ、AutoML出てきた)とともに紹介。 Why Is Data Science Losing Its Charm? by @iamharshitahuja https://t.co/fqRUil9QLr— Shinichi Takayanagi (@_stakaya) 2020年6月8日 Why Is Data Science Losing Its Charm? データ分析業界の中の人という立場から見れば、ここで言われている主張については分からないこともありません。ただ、同意できる部分もあれば同意できない部分もあり、ま

    何故データサイエンスは魅力を失いつつあるのか - 渋谷駅前で働くデータサイエンティストのブログ
    honeybe
    honeybe 2020/06/27
  • 新型コロナウイルス不況でデータサイエンティスト・機械学習エンジニアは失業するのか - 渋谷駅前で働くデータサイエンティストのブログ

    (Image by Pixabay) のっけから不穏なタイトルで恐縮ですが、個人的に新型コロナウイルスの感染拡大初期の頃から懸念していた事態が徐々に現実になる流れが見え隠れしており、自分自身の警戒も込めて記事にしてみました。関連資料の誤読・理解不足・認識の誤りなどあればご指摘ください。 UberのAI部門解散というニュースの衝撃 その他の企業及びデータ分析業界の雇用情勢について 新型コロナウイルス禍で「余興」としてのデータサイエンスやAI研究開発を続ける余裕が失われていく? 結局のところは「業」「好景気」なprofit center部門に行くべき? UberのAI部門解散というニュースの衝撃 先日3700人を解雇すると発表したUberなのですが、最近さらに中核であるライドシェア事業を中心に3000人を解雇すると発表して波紋が広がっているようです(フードデリバリー事業は拡充するとのこと)。

    新型コロナウイルス不況でデータサイエンティスト・機械学習エンジニアは失業するのか - 渋谷駅前で働くデータサイエンティストのブログ
    honeybe
    honeybe 2020/05/23
  • 改めて、汎化性能と交差検証のはなし - 渋谷駅前で働くデータサイエンティストのブログ

    追記 再現性をチェックする実験を後日実施しています。併せてお読みください。 以前こんな記事を書きました。 この辺の話はとっくの昔に常識になっていると思っていたのですが、昨今様々な「モデル」が提唱されて公の場で喧伝されることが増えてきており、その中には明らかにこれらの記事で指摘されている問題に引っかかっているものがあるようなので、注意喚起も兼ねて改めてブログ記事として書いてみようと思います。 追記 (May 08, 2020) 文中にも記事公開当初の初稿の時点でいくつか但し書きを入れてありますが、この記事で最も強調したかったことは「時系列データに対して多項式フィッティングを行うという来あり得ないモデリングのやり方であっても、交差検証を行えば短期的な予測性能(汎化性能)を改善することができる」ということです。データセットにランダムウォークを選択したのは、単に極値が2つ以上ある時系列を生成し

    改めて、汎化性能と交差検証のはなし - 渋谷駅前で働くデータサイエンティストのブログ
    honeybe
    honeybe 2020/04/12
  • AIで皆さんの好みにぴったり合う絶品インドカレーを作る方法をまとめて本にしました - 渋谷駅前で働くデータサイエンティストのブログ

    最近思い出したように趣味の自作インド料理の話題を各所で披露することが多いのですが、完全に趣味が高じた結果としてAIというか機械学習とインド料理を掛け合わせたら面白いことが出来るのではないか?と思い、ついにこの度まで出すことになりました(笑)。題して『AIでインドカレーを自作しよう』というです。 必要なものは、書と、インド料理に必要な材やスパイス以下各種調味料と、厚手の鍋と、こちらのGitHub repoから入手できるKerasをバックエンドとするpre-trained modelだけ。このモデルは日に限らずシンガポール・インド・US・UKのカレー好きの人たち多数から集めたデータをもとに構築したものです。これを同じrepoに置いてあるnotebookに従ってインポートしてKerasベースNNを組み、初期値として皆さんの居住国・年齢・身長・体重などのdemograpihic info

    AIで皆さんの好みにぴったり合う絶品インドカレーを作る方法をまとめて本にしました - 渋谷駅前で働くデータサイエンティストのブログ
    honeybe
    honeybe 2020/04/01
  • AutoML Natural Languageで青空文庫に収録された作家8名の文章を分類してみる - 渋谷駅前で働くデータサイエンティストのブログ

    先日の記事ではAutoML Tablesを試してみましたが、調子に乗ってこれまで触ってこなかったAutoML Natural Languageも試してみようと思ったのでした。 以前の記事にも書いたように、僕は元々自然言語処理が苦手でTensorFlow Hubのpre-trained modelによるfine-tuningが登場するまでは殆ど自分ではテキスト分析をやったことがなく、出来ればもっとずっと簡単にやれる方法はないのかなと思っていました。そういう意味ではTF-Hubは渡りに船だったんですが、何ならノンプログラミングでサクサク回せた方がずっと良いわけで、AutoML Natural Languageはまさに僕にとっては願ったり叶ったりのプロダクトです。ということで、実際に触ってみたのでそのレポートをつらつら書いてみようと思います。 ちなみに、実はこちらの記事が公開されると知らずに今回

    AutoML Natural Languageで青空文庫に収録された作家8名の文章を分類してみる - 渋谷駅前で働くデータサイエンティストのブログ
    honeybe
    honeybe 2019/06/01