satokunyaのブックマーク (4,553)

  • 実務において回帰分析を行うに当たっての注意点を改めて挙げてみる - 渋谷駅前で働くデータサイエンティストのブログ

    先日のことですが、以下のニュースが統計的学習モデル界隈で話題になっていました。 肝心の箇所が会員限定コンテンツなので簡潔にまとめると、従来モデルよりも説明変数に入れる海域の数を増やした上で、Lasso(L1正則化)回帰で多重共線性を抑えつつ汎化性能を高めるというアプローチを取った、というお話です*1。これは回帰分析という基に立ち返った、昨今の「も杓子も生成AI」という流れからは一線を画した試みで、いかにも玄人好みという感があるなと僕も感じた次第です。 一方で、僕が身を置く広告・マーケティング業界でもMMM (Media/Marketing Mix Models)を初めとして様々なタイプの回帰分析が広く行われていますが、個人的に見聞する範囲では冗談でなく当にピンキリで、中には「そんなデタラメな回帰分析で当に役員会の意思決定に使っているんですか???」みたいなケースも珍しくありません。

    実務において回帰分析を行うに当たっての注意点を改めて挙げてみる - 渋谷駅前で働くデータサイエンティストのブログ
    satokunya
    satokunya 2024/07/21
  • 2024年最新版:Pythonデータ解析ライブラリ総まとめ - 実践的ガイド - Qiita

    はじめに Pythonのデータ解析エコシステムは日々進化を続けています。2024年現在、効率的なデータ処理、直感的な可視化、高度な機械学習の自動化など、様々な新しいツールが登場しています。記事では、最新のPythonデータ解析ライブラリを紹介し、それぞれの特徴や使用例、実際のユースケース、そして導入方法まで詳しく解説します。 1. データ操作ライブラリ 1.1 Polars: 高速データ処理の新標準 Polarsは、Rustで実装された高速なデータ操作ライブラリです。pandasに似たAPIを持ちながら、大規模データセットでより高速に動作します。 特徴: 高速な処理速度 メモリ効率が良い pandasに似たAPI 使用例: import pandas as pd # サンプルデータを作成 data = { "age": [25, 32, 28, 35, 40, 50], "categor

    2024年最新版:Pythonデータ解析ライブラリ総まとめ - 実践的ガイド - Qiita
  • AWS RDS/Auroraでモニタリング&チューニングを始めるための資料11選

    これはなに ども、レバテック開発部のもりたです。 もりたはデータベースが好きなんですが、最近は特にAWS RDS/Auroraでのモニタリングとパフォーマンスチューニングについて興味があります。ただ、これらのうちモニタリングは扱っている話題が若干ローレベルであまりピンとこず、またチューニングもどこから手をつければいいのかわかりませんでした。 この記事では、もりたがモニタリング&チューニングを学習する上で役に立った書籍やWeb上の資料をロードマップ形式で紹介していきます。対象読者はDBのモニタリングとチューニングをやりたいけどどこから手をつければいいか分かんないなとなっている人、ゴールはそんな人がモニタリング&チューニングの第一歩を踏み出せることです。 スコープ 今回扱うもの、扱わないものは以下の通りです。 扱う モニタリング&チューニングの概要 モニタリングの前提知識 チューニングの前提知

    AWS RDS/Auroraでモニタリング&チューニングを始めるための資料11選
    satokunya
    satokunya 2024/07/20
  • 産業革命はなぜ日本に最初に広がり、他の非西洋諸国には広がらなかったのか?データドリブンの研究

    Tsuyoshi Miyakawa @tsuyomiyakawa 「現在、世界には4種類の高所得国しかない。1) 英語圏、2) イギリスに近い国、3) 資源に恵まれた国、そして4) 日とその旧植民地である。」 1〜3まではよく研究されているが、なぜ4なのか?産業革命がなぜ日に最初に広がり、他の非西洋諸国には広がらなかったのかに関するデータドリブンの研究。 pic.twitter.com/caUwCwpbAI x.com/juhreka13/stat… Reka Juhasz @juhreka13 Happy to see our WP w Shogo Sakabe and @deweinstein (so many years in the making!) out. We examine the role of codifying knowledge in the spread of

    産業革命はなぜ日本に最初に広がり、他の非西洋諸国には広がらなかったのか?データドリブンの研究
    satokunya
    satokunya 2024/07/20
  • みんな妙蓮寺に住めばいいのに。横浜にほど近い、日常を生きるまち|文・安達茉莉子 - SUUMOタウン

    写真・文: 安達茉莉子 筆者:安達茉莉子(あだちまりこ) 作家、文筆家。大分県日田市出身。政府機関での勤務、限界集落での生活、留学などさまざまな組織や場所での経験を経て、言葉と絵による作品発表・エッセイ執筆を行う。著書に『毛布 - あなたをくるんでくれるもの』(玄光社)、『私の生活改善運動 THIS IS MY LIFE』(三輪舎)、『臆病者の自転車生活』(亜紀書房)、『世界に放りこまれた』(twililight)ほか。 菊名の次、というより横浜から各停で4駅 横浜の妙蓮寺に住んでいます——と言うと、大体の人はどこでしたっけ、という顔をする。東急東横線で、菊名駅の次。新幹線も停まる新横浜の近く。そう説明するが、実際住んでみると、「横浜駅から各停で4駅」と言いたくなる。 3年前にここに引越してきてから、私の生活地図はそれまでの都内を中心にしたものから、ぐんと変わって、横浜文化圏を中心とするも

    みんな妙蓮寺に住めばいいのに。横浜にほど近い、日常を生きるまち|文・安達茉莉子 - SUUMOタウン
    satokunya
    satokunya 2024/07/19
    六角橋はラーメン屋多くて街ぶら楽しかった
  • 日本のSIerの技術力の低さの要因から考えるアメリカソフトウェアの強さ - きしだのHatena

    この連休はなんだかSIerについて考えることが多かったのですが、そういうことを考えると、なぜアメリカのソフトウェアが強いのかがわかってきた気がします。 まず、もちろんSIer技術力が低いといっても技術力が高いSIerもいるわけで、とくにこのブログを見てる人だと技術力の高い側にいる人が多いと思います。 けれども、DX白書2023によればSIerIT人材というのは75万人いて、技術力の高い人はその一部で、多くは技術力の低い側にいるんじゃないでしょうか。 https://www.ipa.go.jp/publish/wp-dx/gmcbt8000000botk-att/000108046.pdf 2014年、ちょうど10年前に、プログラマはSIerと自社サービスで2分化するんではないかというブログを書いていますが、そのまま現実になった形です。 プログラマ業界の二分化 - きしだのHatena

    日本のSIerの技術力の低さの要因から考えるアメリカソフトウェアの強さ - きしだのHatena
  • 「Pythonのドキュメントでも読むか~」「え、何その裏技」 - Qiita

    読み飛ばしてください おはようございます、しなもんです。 Pythonの公式ドキュメントを読んでたら、なんか知らない便利機能がたくさん出てきました。 なんだこれ。 というわけでまとめてみました。 参考になれば幸いです。 f-stringsの拡張機能 f-strings、便利ですよね。大好きです。 そんなあいつには裏技があるみたいです。 デバッグ用の=演算子 Python 3.8以降、f-stringの中で=演算子を使用することで 変数名とその値を同時に表示できるらしい。

    「Pythonのドキュメントでも読むか~」「え、何その裏技」 - Qiita
    satokunya
    satokunya 2024/07/15
  • Snowflake の情報流出騒動は異例の事態ではなく、危険が迫っている前兆

    執筆:Nick Biasini、協力:Kendall McKay、Guilherme Venere クラウド データ プラットフォーム Snowflake のログイン情報の流出、盗難に端を発した数々の影響と流出後の攻撃が続々とニュースになっています。 攻撃者は、情報窃取マルウェアを使用して Snowflake アカウントのログイン情報を入手しました。中には多要素認証(MFA)で保護されていないものがあり、それを使用して Snowflake の顧客アカウントに侵入し、機密情報を盗み出しました。しかし、Snowflake の当の問題はこの点ではありません。このインシデントは、ここしばらく脅威環境で見られているはるかに大きな変化の現れであり、その焦点はアイデンティティにあります。 過去数十年の間に犯罪的脅威を取り巻く環境が崩壊し、ランサムウェアやデータ強奪が広まっている状況を Talos は目

    Snowflake の情報流出騒動は異例の事態ではなく、危険が迫っている前兆
  • Rye × uvでPython環境と機械学習環境を整える

    チューリングのE2E自動運転チームの岩政(@colum2131)です。 最近、チーム内でPythonを使った開発はRyeとuvを使うことが多くなり、特に機械学習環境もRyeとuvで問題なく開発できるようになりました。社内でのオンボーディング資料としてRyeとuvの操作を整備しようと思い、このテックブログで紹介します。 1. Rye × uvとは? RyeはPythonの包括的なプロジェクトおよびパッケージ管理のツールです。これまでもPoetryなど管理ツールはありましたが、pyenvなどPythonのバージョン管理ツールが必要でした。Ryeは、Pythonのバージョン管理からパッケージ管理を行えて、Poetry同様にpyproject.tomlの設定ファイルを使用したプロジェクト管理も可能です。 uvは非常に高速なパッケージインストーラおよびリゾルバーで、一般的なpipおよびpip-too

    Rye × uvでPython環境と機械学習環境を整える
    satokunya
    satokunya 2024/07/13
  • 忙しすぎるプレイングマネージャーの負担を軽くするヒント 管理職の仕事を切り分け、部下に適切に任せるコツ

    部下育成、トラブル対応、ハラスメント対策…近年は管理職の業務負担が増大し、「罰ゲーム化」の状況が深刻化しています。そこで今回は、『チームレジリエンス 困難と不確実性に強いチームのつくり方』著者の池田めぐみ氏に、管理職の負担を軽減しつつ、成果も上がる組織づくりの秘訣をお聞きしました。記事では仕事を適切に任せる方法や、「マネージャー任せ」のメンバーの意識を変えるコツについてお伝えします。 部下育成、トラブル対応、ハラスメント対策…増える管理職の業務負担 ——ここ数年、「管理職の罰ゲーム化」といった話がよく聞かれるようになっていると思います。部下のマネジメントや後任者の育成、トラブル対応に加え、リスキリングやハラスメント対策など、管理職の業務負担が増大している現状が問題視されています。池田さんはこうした現状についてはどのような課題があるとお思いでしょうか。 池田めぐみ氏(以下、池田):私自身も

    忙しすぎるプレイングマネージャーの負担を軽くするヒント 管理職の仕事を切り分け、部下に適切に任せるコツ
    satokunya
    satokunya 2024/07/12
  • スタートアップなのにフロントエンドのテストカバレッジが90%を超えている話 | Resilire Tech Blog

    はじめに サプライチェーンリスク管理クラウドサービスResilireでエンジニアをしている奥村@showkittie です。 Resilireでは、1歳の子の育児に悪戦苦闘しながら、フロントエンド、サーバサイドを問わずプロダクトエンジニアをやっています。 ResilireはシリーズAを迎えたばかりのアーリースタートアップでありながら、フロントエンドのテストカバレッジが90%を超えており、必要なケースについてはほぼテストが網羅されています。 私は今年の4月に入社したばかりですが、すでにテストカバレッジの高さに助けられ、不具合の混入をせずに済んだことが何度もあります。 今日は、Resilireのフロントエンドのテスト戦略とカバレッジの高さの理由についてお伝えしたいと思います。 スタートアップとテスト 冒頭にもお伝えした通りResilireはアーリースタートアップです。エンジニアリングに求められ

    スタートアップなのにフロントエンドのテストカバレッジが90%を超えている話 | Resilire Tech Blog
    satokunya
    satokunya 2024/07/12
  • 時系列データのための大規模言語モデル

    近年の大規模言語モデル(LLM)の出現は、自然言語処理(NLP)においてパラダイムシフトをもたらし、ChatGPTをはじめとする様々な革新的サービスを生み出している。LLMの急速な進化は、NLPの領域を超えて、より広範なデータモダリティへのLLMの適用可能性を探る研究への発展を促している。その中で今回注目したのが、時系列データへのLLMの適用である。例えば、[Gruver+, 2023] では、GPT-3やLLaMA-2などの既存のLLMが、ダウンストリームタスクで教師あり学習した時系列モデルの性能に匹敵するか上回るレベルで、zero-shotで時系列予測ができることを報告しており、大変興味深い。ブログでは、2024年に公開されたサーベイ論文「Large Language Models for Time Series: A Survey」を参考にLLM for Time Seriesの全

    時系列データのための大規模言語モデル
    satokunya
    satokunya 2024/07/11
  • 「単体テストの考え方/使い方」が主張するたった一つのこと

    はじめに 読書会をやってみました オープンロジのエンジニアのrikuto(@riku929hr)です。 社内で「単体テストの考え方・使い方」というテストに関する有名な読書会を実施し、1回1時間、15回の開催を経て読み切りました。 原著は「Unit Testing Principles, Practices, and Patterns」で、Oreilly Learning Platformでも読むことができます。 400ページにもわたるで、読み切るのには大変な手応えがありました。 たぶん読書会のようなものを開催しない限り、僕自身読みきれなかったかもしれません。 しかし読んでみると、著者が主張しているのはごくシンプルなことでした。 この記事のタイトル、ちょっと嘘ついてます タイトルには、「主張するたった一つのこと」としていますが、細かく言えば1つではありません。 このが主張することはそ

    「単体テストの考え方/使い方」が主張するたった一つのこと
    satokunya
    satokunya 2024/07/10
  • 初めてのGitは電車で例えて学ぼう!初学者向け基本Gitコマンド入門 - Qiita

    Gitを学びたての人へ Gitを学びたての皆さん、こんにちは!今年の4月よりエンジニアとして新卒入社した k_uki512です!🎉 会社の新人研修や、プログラミングスクールでGitを初めて触り始めた方もいらっしゃるのではないでしょうか。そんな方が「分からない」という状態に陥りやすいのが "Git" のコマンドだと思います。 分からない理由を分析してみた Gitのコマンドが分かりづらい理由として以下のような原因があると考えました。 データをコマンドでやり取りすることがなかった 用語いっぱい。違いが分からない、、(add,commit…) データ(変更履歴)の流れが見えづらい つまり変更履歴という概念が抽象的かつ、pushまでのステップが多いことが原因だと考えました。 そこで、この記事ではGitの一連の流れを、わかりやすく電車に例えて解説していきます! この記事を通じてGitの流れを学び、会

    初めてのGitは電車で例えて学ぼう!初学者向け基本Gitコマンド入門 - Qiita
  • 「田舎の元ヤンはどうして家を建て妻子を持てるほど稼げるのか」というツイートがあったが成功した人たちは根性も能力もあるし手に職つけて体を動かしてる

    酒樽 蔵之介 @KulasanM 昨日だったかな… 「田舎の元ヤンはどうして家を建て子を持てるほど稼げるのか」みたいなツイートが流れてて。 まず属性で決めつけるのは間違い、ケースバイケースとはいえ。 成功した人たちは、実際根性も能力もある。 周りがあーだらこーだら言ってるうちに、手に職つけて体動かしてる。 独立するとこまで行くし、営業するのも、人を使うのも上手い。 酒樽 蔵之介 @KulasanM でまあ、人の頭の回転早いのもあるし。 奥様がまたしっかりしてて、 「ウチがやるし」 とか言って、経理や事務覚えて支えてたりする。 元ヤンだから、というより。 成功すべく努力をしてる人が成功してる、だと思う。

    「田舎の元ヤンはどうして家を建て妻子を持てるほど稼げるのか」というツイートがあったが成功した人たちは根性も能力もあるし手に職つけて体を動かしてる
    satokunya
    satokunya 2024/07/09
    可視化されてないだけで、工場勤務独身アパート暮らし趣味はパチンコの人めっちゃいると思う
  • 自己肯定感低くてもなんとか頑張れたいくつかの方法 - 腹は減る

    自己肯定感高いことに越したことはない。専門家のアドバイスを受けながら自己肯定感高められるならそうしたほうがよいし、高まらずとも低くなる原因を低減できるならそれも良いと思う。 そして自己肯定感って後から手に入れるのは結構難しいと思っているので、持っている人は当に大事にしてほしい。 そんな自己肯定感低低な私でもここまでなんとかやってきましたってことでいくつか気をつけていることを書きます。誰かの参考になったらいいな。 自己肯定感とは Wikipediaによると 自己肯定感(じここうていかん)とは、自らの在り方を積極的に評価できる感情、自らの価値や存在意義を肯定できる感情などを意味する言葉である。しかし、後述のように定まった定義はなく、他の類似概念との弁別も充分とは言えない。 ということだそうです。長らく私は自己肯定感とは「自分を愛すること」だと思っており、「自分を愛せない自分はダメだ」と思って

    自己肯定感低くてもなんとか頑張れたいくつかの方法 - 腹は減る
  • 誰も教えてくれない「分かりやすく美しい図の作り方」超具体的な20のテクニック

    【追記】この記事をきっかけに、名著「ノンデザイナーズ・デザインブック」の20周年記念特典eBookの制作に協力させていただきました。詳しくはこちらを御覧ください。 ノンデザイナーズ・デザインブック20周年記念の特典に寄稿しました デザイナーである・なしに関わらず、仕事の中で伝えたいことを「図」で説明する機会は多々あります。提案書で事業内容を説明することもあるでしょうし、具体的な数値をグラフで説明することもあるでしょう。そんな中でこんな指摘を受けたことはありませんか? ・最終的に何を言いたいのか結論が見えないよ。 ・関係性が複雑すぎて理解しずらいんだけど。 ・要素が多すぎて全てを把握するのが大変。 ・何をどこから見れば良いの? ・結局一番言いたいことはなんなの? ・文字サイズがたくさんありすぎてまとまりがないね。 ・安っぽいチラシみたいでダサイなぁ。 ・全体的にバランスが偏ってて不安定。 ・

    誰も教えてくれない「分かりやすく美しい図の作り方」超具体的な20のテクニック
  • [提案]テーブル名はもう全部単数形にしようや

    こんにちは、データベース愛好家のみなさん!今日は、データベース設計で永遠の議論となっている「テーブル名、単数形 vs 複数形問題」について、徹底的に掘り下げていきます。私は単数形派です!でも、なぜそうなのか、一緒に深掘りしていきましょう。 イントロダクション:我らが主人公、単数形くん みなさん、こんな経験ありませんか? You: テーブル名って、users? user? どっちがいいんだろう... 先輩: いや、絶対usersだよ!Rails使ってるし。 You: でも、user_idって書くときは単数形だよね? 先輩: あ、そうだね...でもやっぱりテーブルは複数形! You: (心の中で)なんかモヤモヤする... 実は、この「モヤモヤ」には理由があるんです。今日はその理由を解き明かし、単数形テーブル名の魅力をお伝えします。準備はいいですか?Let's dive in! 言語の壁を突破せ

    [提案]テーブル名はもう全部単数形にしようや
  • システム内製を進めている企業ほどDXで成果、IPA「DX動向2024」で明らかに

    IPAは2024年6月27日、調査リポート「DX動向2024」を発表した。同リポートは事業会社の人事部門や情報システム部門、DX推進部門などを対象に2024年2月9日~5月2日にかけて実施したアンケートの結果をまとめたもの。回収数は1013件だった。 DXの取り組みは米国企業並みだが成果に差 DXの取り組み状況について聞いたところ、「取り組んでいる」と回答した日企業の割合は2021年度の55.8%から、2023年度は73.7%に増えた。米国企業は2022年度調査で77.9%であり、「日企業もDXに取り組むことが一般化し、(取り組み状況が)米国企業並みになってきている」と、同調査を担当したIPAの河野浩二総務企画部調査分析室室長は説明する。

    システム内製を進めている企業ほどDXで成果、IPA「DX動向2024」で明らかに
  • 詳細設計書なんて、書きたくない・・・・Doxygenを使って自動生成してみる - Qiita

    はじめに お客様に提案をしているときの会話です。 お客様:「詳細設計書は作りますか」 私:「昔ながらの詳細設計(ロジックを日語で書くもの)は作りません。クラス図とか、シーケンス図は複雑であれば作りますが、今回のシステムはそこまで必要なものはないものなので、割愛しようと思っています。」 お客様:「保守をお願いするかどうか未定なので、場合によっては引継ぎのために作ってもらうかもしれません」 私:「・・・・」 といった感じで、私がこの業界に入った30年前は、確かにプログラムを作る前に、詳細設計書と呼ばれるプログラムを日語で書いていました。 最近、詳細設計と呼ばれるものを作った記憶がなく、無駄なものは作りたくないなぁという思いから、コードから自動生成できないかなと思って、いろいろ試してみました。 Doxygenって いろいろ調べてみると、Doxygen にたどり着きました。 色々な言語に対応し

    詳細設計書なんて、書きたくない・・・・Doxygenを使って自動生成してみる - Qiita