並び順

ブックマーク数

期間指定

  • から
  • まで

241 - 280 件 / 1990件

新着順 人気順

dataの検索結果241 - 280 件 / 1990件

  • データエンジニア道の俺のバイブル

    先人の知恵に学ぶ データエンジニア道で、本当に良かった!読み物を、不定期に追記していく。 A Beginner’s Guide to Data Engineering — Part I データエンジニアをこれから始める人に、必ず薦める記事。データエンジニアの基本を学べるかつ、どういう世界に広がっていくのかまで、一気に学べるのでとても良い。 Functional Data Engineering — a modern paradigm for batch data processing 関数型パラダイムを使ったデータパイプラインの構築方法。これを初めて読んだ時の衝撃は今でも忘れないし、フルスクラッチからdbtを使ったデータパイプラインになっても健在な設計手法。 Engineers Shouldn’t Write ETL: A Guide to Building a High Function

      データエンジニア道の俺のバイブル
    • 「データビジュアライゼーションの基礎」のまとめ グラフ編

      こんにちは、Wantedlyでデータサイエンティストをしている樋口です! 先日会社で買ってもらったデータビジュアライゼーションの基礎を読みました。データ可視化について網羅的にわかりやすく書かれており参考になったため、記事にまとめてみました。書籍の英語版は無料で公開されているため、よければこちらも参考にしてみてください。 データビジュアライゼーションの知識を学ぶことで、科学的に誤った表現をせずに、芸術的に美しい表現ができ、明確で明瞭かつ魅力的にデータから得られる示唆を伝えることができる様になります。📊 本記事では、特定のライブラリや描画手段によらないデータ可視化の基礎について紹介します。 分量が多くなってしまったので、本記事ではデータビジュアライゼーションの”グラフ"にのみ着目しています。グラフ以外の構成要素(色、タイトル、テキスト、etc.)については別途記事にしたいと思います。 本記事

        「データビジュアライゼーションの基礎」のまとめ グラフ編
      • Tカード会社、4千万人分の顧客データを販売へ…「同意」は有効か(読売新聞オンライン) - Yahoo!ニュース

        カルチュア・コンビニエンス・クラブ(CCC)が、Tカード利用者の個人データ販売を本格化させる。使われるのは、全国5300の提携企業から集めた私たちの利用履歴だ。CCC側は「規約で説明し、利用者の同意は得ている」というが、自分が「同意」したと気づいている人はどのくらいいるだろう。そのような「同意」は果たして有効なのだろうか。有識者から疑問の声も出ている。(編集委員 若江雅子) 【写真】利用履歴を分析して作成された「顧客DNA」 プロファイリングで「顧客DNA」 CCC傘下のCCCマーケティングによると、Tカード利用者は現在約7000万人。30代では同世代の日本人の81・4%に上る。TSUTAYAのほか、コンビニ、ドラッグストア、ガソリンスタンド、家電量販店やネットショップなど約5300社の15万店舗でポイントをためたり使ったりすることができる。 CCCは、こうした提携企業から、利用者がいつ、

          Tカード会社、4千万人分の顧客データを販売へ…「同意」は有効か(読売新聞オンライン) - Yahoo!ニュース
        • データサイエンティストとして読んで役立った本たち@2020-07|だみ〜

          2016年10月に未経験・新人データサイエンティストで雇ってもらいました。当時はまだ業界が牧歌的だったのと、比較的書類上のスペックが高い若者だったのもあり、運良く拾ってもらえたのでした。今だと100%受かってないです。 そんな私が今までで読んだ本の中で、役に立った本をつらつら書いていきます。 現代の若者がどんどん優秀になっているので、これくらいでいまんとこいっぱしのデータサイエンティスト(@ビジネスサイド)になれるんだなあという基準を述べようかと思いました。何年か後に振り返りたいですね。 もちろん、これが誰かの学習の役に立てばと思っています。 ちなみに、アフィリエイト入れてないので気にせず買っていってください。 数学無難に解析学と線形代数学を勉強しておくといいと思っています。

            データサイエンティストとして読んで役立った本たち@2020-07|だみ〜
          • 全くのゼロから「駆け出しデータサイエンティスト」を育てる方法論 - 渋谷駅前で働くデータサイエンティストのブログ

            (Image by Pixabay) 「データサイエンティスト」の第一次ブーム勃興から6年余り、人工知能ブームに便乗した第二次ブームで人口に膾炙してから3年余り、気が付いたら何やかんや言われながらもデータサイエンティスト及びその類似職が、じわじわと日本国内の産業各分野・企業各社に広まりつつあるように僕の目には映ります。 そういう背景がある中で、ここ1年ぐらいの間にそこかしこで目立つようになってきたのが「ゼロからデータサイエンティストを育てたいのだがどうしたら良いか」という相談や議論。割とあるあるなのが「取引先がデータサイエンティストを採用して商談の席に同席させるようになって、彼らがデータサイエンスの知識を駆使してビシバシ突っ込んでくるのだが、こちらにデータサイエンティストがいないので対応できない」みたいなお話。これは実はUSでも同様だと聞くので*1、案外洋の東西を問わない課題なのかもしれま

              全くのゼロから「駆け出しデータサイエンティスト」を育てる方法論 - 渋谷駅前で働くデータサイエンティストのブログ
            • 2023年版:実務データ分析を手掛けるデータサイエンティスト向け推薦書籍リスト(初級6冊+中級8冊+テーマ別15冊) - 渋谷駅前で働くデータサイエンティストのブログ

              (Image by wal_172619 from Pixabay) 去年で恒例の推薦書籍リストの更新は一旦終了したつもりだったんですが、記事を公開して以降に「これは新たにリスト入りさせないわけにはいかない!」という書籍が幾つも現れる事態になりましたので、前言撤回して今年も推薦書籍リストを公開しようと思います。 初級向け6冊 実務総論 データサイエンス総論 R・Pythonによるデータ分析プログラミング 統計学 機械学習 中級向け8冊 統計学 機械学習 テーマ別15冊 回帰モデル PRML 機械学習の実践 Deep Learning / NN 統計的因果推論 ベイズ統計学 時系列分析 グラフ・ネットワーク分析 データ基盤 コメントや補足説明など 完全なる余談 初級向け6冊 今回は新たに加わったテキストがあります。 実務総論 AI・データ分析プロジェクトのすべて[ビジネス力×技術力=価値創出

                2023年版:実務データ分析を手掛けるデータサイエンティスト向け推薦書籍リスト(初級6冊+中級8冊+テーマ別15冊) - 渋谷駅前で働くデータサイエンティストのブログ
              • 「pixivのイラストを非公開にしました」 フォロワー数十万の“有名絵師”から発表相次ぐ AI巡る対応に不信感

                「pixivに投稿したイラストをいったん非公開にしました」──5月6日ごろから、Twitterで数十万のフォロワーを集めるイラストレーターの間で、こんな発表が相次いでいる。背景にあるのは、画像生成AIへの対応を巡るpixivへの不信感だ。 例えばTwitterフォロワー数24万人超のイラストレーター・あかもくさんは7日、pixivへの新規投稿を控える他、過去に投稿したイラストを全て非公開にしたとTwitterに投稿。「抜本的なAI対策とそれに伴うpixiv社の会社としての意思が明確になるまで」継続するという。 他にもフォロワー数64万人超のイコモチさん、約13万人の皐月恵さんなど、複数のイラストレーターが同様の方針を発表している。いずれも、pixivに投稿したイラストを勝手にAIに学習されることを危惧しての対応という。 イラストレーターの対応について、SNSではさまざまな反応が出ている。「

                  「pixivのイラストを非公開にしました」 フォロワー数十万の“有名絵師”から発表相次ぐ AI巡る対応に不信感
                • 2023年版データ分析の100冊 - Qiita

                  【データ分析の必読10冊+差をつける10冊+100冊超】データサイエンス、データ分析、機械学習関連の本がご好評いただいてましたが古くなりごちゃごちゃしているので新たに作り直しました 本記事のめあて IT系の技術者の方がデータ分析関連の仕事をするために役立つ本を紹介する(私が学び始めた時にあれば欣喜雀躍したであろう)記事として書いております。 本記事作者の青木はバイオインフォマティクス(ゲノムデータのDB化中心・Perl・MySQL)からRで時系列分析→Pythonでデータ分析一般と業務をしてまいりました。 ですので研究者目的の本はありません。また、データ分析の基礎は主にRで学んだのですが、昨今の流行に合わせてPython本を中心に、Rの本は参考程度にしています(本記事のR版のご要望があれば爆裂書きます!) こういうリストをあげる奴は大抵読んでいない、と過去にも言われたのですが、ほとんど読ん

                    2023年版データ分析の100冊 - Qiita
                  • モデリングから考える長期的なCOVID-19戦略

                    青が何も介入をしなかったとき、黄色が4月8日から8割の接触を減少させたときです。 4月8日から接触を8割カットすると、新規患者数は4月17日頃にピークを迎え、その後減少が予想されます。5月8日から普段通りの生活に戻ると再度感染者は増加する。 長期的に見ると 波は横にずれますが、形はほとんど変わりません。ピーク時の1日の新規感染者数が120万人となると到底医療システムが成り立ちません。 ところで、「集団免疫」という言葉がかなり聞かれるようになりましたが、免疫をもつ人が人口のある程度の割合(この割合は病原体それぞれの感染力や人々の接触パターンによりますが)に達した時に、感染拡大は収まります。 逆に集団免疫の状態に到るまでは一時的な措置を取っている間は感染拡大がおさまってもそれをやめると再燃する、というジレンマがあります。 厳しい外出制限をこのまま永遠に(ワクチンが開発されるまで)しなければいけ

                      モデリングから考える長期的なCOVID-19戦略
                    • [独自記事]リクナビが提携サイトの閲覧履歴も取得していた事実が判明

                      就職情報サイト「リクナビ」を運営するリクルートキャリアは2019年8月6日、就職活動をしている学生のサイト閲覧履歴などを基に内定辞退の指標を顧客企業に提供していたサービスで、同社と提携するサイトの閲覧履歴も取得していたと日経xTECHの取材に明らかにした。提携サイトから「個人を特定できないcookie(クッキー)情報を取得していた」(社外広報グループ)と説明するが、同社はクッキーを「リクナビID」に突合していた。他社が運営するサイトの閲覧履歴を基にした個⼈情報を第三者提供していたことになる。 内定辞退の可能性を指標データとして顧客企業に提供していたのは「リクナビDMPフォロー」。同社のプライバシーポリシーは、学生であるユーザーがログインしてサービスを利用した場合、「個人を特定したうえで、ユーザーが本サービスに登録した個人情報、およびcookie(クッキー)を使用」して、同サービスのほかに同

                        [独自記事]リクナビが提携サイトの閲覧履歴も取得していた事実が判明
                      • なるべく数式を使わない!滋賀大学の無料データサイエンス講座が開講 | Ledge.ai

                        画像は『滋賀大学「大学生のためのデータサイエンス(Ⅱ)」講座PV~ gacco:無料で学べる大学講座』より オンライン講座サイト「gacco(ガッコ)」では11月16日から、滋賀大学データサイエンス学部による「なるべく数式を使わない」という方針で構成した「大学生のためのデータサイエンス(Ⅱ)」が開講される。受講料は無料。 本講座では、機械学習の諸手法とその応用について説明する。まず「機械学習とは何か?」という説明から始め、その後に機械学習の応用事例を紹介。応用事例を先に見ることによって、機械学習の有用性が理解でき、機械学習の手法をより積極的に学べるとしている。 次に、分類問題と回帰問題の具体的な手法を説明し、同時に特徴量の設計・選択など、実践的なテクニックについても紹介する。最後に、近年、発展の著しいニューラルネットワークについても説明してくれる。また、本講座は、機械学習の分野のなかでも教

                          なるべく数式を使わない!滋賀大学の無料データサイエンス講座が開講 | Ledge.ai
                        • APIキーもログインも不要!完全無料で使える天気予報API「Open-Meteo」を使ってみた! - paiza times

                          どうも、まさとらん(@0310lan)です! 今回は、誰でも無料で使える天気予報APIを提供してくれるWebサービスをご紹介します! 面倒なユーザー登録やAPIキーの設定などが不要で、欲しい天気情報のパラメータを含めたURLを好きなように構成するだけで簡単にJavaScriptから制御できるのが特徴です。 日本はもちろん、世界中の詳細な天気情報を取得できるのでご興味ある方はぜひ参考にしてみてください! 【 Open-Meteo 】 ■「Open-Meteo」の使い方 それでは、「Open-Meteo」をどのように使えばいいのか詳しく見ていきましょう! 「Open-Meteo」が提供する天気予報APIを利用するにあたり、何か特別な登録や申請は必要ありません。もっと言えば、ユーザー登録も不要でAPIキーもありません。 非営利プロジェクトであれば誰でも自由に使うことが可能で、以下のエンドポイント

                            APIキーもログインも不要!完全無料で使える天気予報API「Open-Meteo」を使ってみた! - paiza times
                          • はじめに — Python早見帳

                            Python早見帳は、プログラムと実行例をカタログ的に提示しながら、Pythonの言語仕様やライブラリを紹介しています。Pythonの基礎を素早く習得したり、ライブラリやオブジェクトの使い方を確認することができます。

                              はじめに — Python早見帳
                            • はてなブックマーク経由PV黄金時代とFACTFULNESS - 本しゃぶり

                              質問 はてなブックマーク経由のPV/ブクマ数の比率は、3年前と比べてどうなっているでしょう? A 減少している B 変わらない C 増加している 3年前はすごかった説 この記事に気になることが書いてあった。 それでも3年前なら150ブクマもついてたらさすがに5000pv~10000pvくらいは「はてブからだけで」流入があったりしたものです。 ところが、昨日書いた記事、内容の是非はともかくとして、はてなブックマークが150以上ついているのも関わらず、はてブ経由でのPVはわずか2000でした。 ブコメを見ても人が減っていることについて同意が多く、限界集落はてな村だから仕方ないといった雰囲気である。かつてあった、はてな黄金時代と比べて見る影もない、と。 黄金時代には、人間は神々と共に住み生きていた。「世の中」は調和と平和に満ち溢れて、争いも犯罪もなかった。あらゆるコンテンツが自動的に生成され、手

                                はてなブックマーク経由PV黄金時代とFACTFULNESS - 本しゃぶり
                              • 一周回って、人間が読み書きする設定ファイルはJSONが良いと思った | フューチャー技術ブログ

                                最近GoでCLIツールを作っていますが、JSONが良いとなんとなく思っています。 続編も公開しました(追記:2019年10月2日)。 CUEを試して見る 設定ファイルフォーマット近年、設定ファイルを書くプレーンテキストのフォーマットとしては次のようなものが多いかと思われます。 XML 多くのプログラミング言語において標準ライブラリで扱える(ただしNode.jsにはない) XMLスキーマ、XSLTなどの周辺ツールも揃っているが、記述が冗長になりがちで、敬遠されがち。 ini QtやPythonの標準ライブラリで扱える 深い階層や配列を扱うのが苦手 JSON ほとんどのプログラミング言語で標準ライブラリに入っている 特にフロントエンドのJavaScriptでは追加のライブラリを利用する必要がなく、速度も早く、gzipすればファイルサイズもかなり小さくなる。T 閉じかっこが必要、コメントがつけら

                                  一周回って、人間が読み書きする設定ファイルはJSONが良いと思った | フューチャー技術ブログ
                                • データエンジニアの私が機械学習・データサイエンスでオススメしたいスキルマップと本まとめ - 2020年版 - Lean Baseball

                                  要約すると, データサイエンス・機械学習周りでよく聞かれること&回答を言語化しました. 「データサイエンティストやりたい」「機械学習エンジニアになりたい」というキャリア志望を持つ方は多いと思います. 私の周りでも, 公私ともにそんな志望者の相談を聞いたり, (主にインターンの学生さんですが)一緒に仕事をしたりする機会もメッチャ多いです. 「ビジネスサイド強いマン」「サーバーサイドエンジニア」という視点からデータエンジニア兼データサイエンティストな自分が, そんな彼ら彼女らにオススメしている, データサイエンティストを目指すためのスキルマップ 各領域のスキルアップを実現するためにオススメしたい書籍 を紹介したいと思います. なお, 昨年も同様のエントリーを書いておりそのUpgrade版となります. shinyorke.hatenablog.com このエントリーの対象読者 データサイエンスに

                                    データエンジニアの私が機械学習・データサイエンスでオススメしたいスキルマップと本まとめ - 2020年版 - Lean Baseball
                                  • ケンオール 📮 郵便番号住所検索・住所逆引き・法人情報API

                                    ソフトウェアを常に最新に私たちはソフトウェアを最新に保つことがいかに難しいかを知っています。 ケンオールはデータを最新に保ち整理するプロセスを自動化し、変更を自動的に取り込むことができます。 さまざまなデータに対するAPIを使用して、既存のシステムを当社のシステムにリンクします。

                                      ケンオール 📮 郵便番号住所検索・住所逆引き・法人情報API
                                    • COVID-19

                                      Loading...

                                      • エラーは出ないけど…何か変??Vue.jsでやりがちな「サイレント・ミス」(ロジック編) - ICS MEDIA

                                        Vue.jsは初学者にもとても手厚いサポートを提供してくれるフレームワークです。 たとえば、以下のコードで「リセット」ボタンを押すと「propsのcountは子コンポーネントから変更すべきではない」とわかりやすくエラーを表示してくれます。 <template> <div class="CountViewComponent"> カウント={{count}} <button @click="reset">リセット</button> </div> </template> <script> export default { props: { // 表示するカウント値 count: { type: Number, default: 3 } }, methods: { // カウントをリセットします reset() { this.count = 0 } } } </script> それでも時として、

                                          エラーは出ないけど…何か変??Vue.jsでやりがちな「サイレント・ミス」(ロジック編) - ICS MEDIA
                                        • データサイエンティストは何を勉強すべきか:「教養」と「必須」と「差別化」と - 渋谷駅前で働くデータサイエンティストのブログ

                                          (Image by Wokandapix from Pixabay) 個人的な観測範囲での話ですが、データサイエンティストという職業は「21世紀で最もセクシーな職業」として刹那的な注目を集めた第一次ブーム、人工知能ブームに煽られて火がついた第二次ブーム、そして「未経験から3ヶ月で人生逆転」ムーブメントと折からのDXブームに煽られる形で沸き起こった第三次ブームを経て、何だかんだで社会に定着してきた感があります。 で、このブログを始めた頃からの連綿と続くテーマになっていますが、いつの時代も話題になるのが「データサイエンティスト(になるに)は何を勉強すべきか」ということ。7年前から恒例にしてきた「スキル要件」記事では、基本的には「どれも必要な知識(学識)」であるという前提で分野・領域・項目を挙げてきました。少なくとも、最初の3回ぐらいはそういう認識でスキル要件記事を書いていた気がします。 ところ

                                            データサイエンティストは何を勉強すべきか:「教養」と「必須」と「差別化」と - 渋谷駅前で働くデータサイエンティストのブログ
                                          • 非エンジニアのSQL学習ことはじめ 〜1日1時間・3か月でSQLがそこそこできるようになる勉強方法とおすすめ書籍〜

                                            これは何「来年こそはSQL書けるようになるぞ」と思ってる方に向けた、1日1時間・3か月でSQLそこそこできるようになる学習方法について書いた記事です長文がつらつら書いてある本稿ですが、要するに言いたいことは

                                              非エンジニアのSQL学習ことはじめ 〜1日1時間・3か月でSQLがそこそこできるようになる勉強方法とおすすめ書籍〜
                                            • GitHub - google/budoux

                                              You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session.

                                                GitHub - google/budoux
                                              • 新しい亜系統「KP.3」に置き換わり、新型コロナ急増中 データと独自の推定で見る現状は?

                                                新型コロナウイルスがなくなったかのように暮らしていますが、目に見えなくても感染は広がっています。新しい亜系統「KP.3」への置き換わりが進み、大きな流行が始まっています。西浦博さんに現状を分析してもらいました。

                                                  新しい亜系統「KP.3」に置き換わり、新型コロナ急増中 データと独自の推定で見る現状は?
                                                • REST vs. GraphQL vs. gRPC · Dan Hacks

                                                  REST, GraphQL, and gRPC are 3 popular forms client-server and server-to-server communication. Choosing can be difficult, so this concise guide can help. In each section, an example will be provided to illustrate retrieving a user. REST Notes HTTP paths describing data, e.g. /users as a collection of users Easily discoverable data, e.g. user ID 3 would be at /users/3. All of the CRUD (Create Read U

                                                  • 近年のデータ分析基盤構築における失敗はBigQueryを採用しなかったことに全て起因している - データエンジニアの酩酊日記

                                                    久しぶりにペラペラな思いつきを書き捨てて、寝ます。 2、3年前ぐらいにSIerやコンサルでTreasure Dataとか使ってマネージドDWH作ろうぜっていう風潮が流行って、今は運用フェーズに入ってどこも結構苦しんでるってのが僕のすごく狭い観測範囲での印象。 AWSのReadshiftしかり。 なぜ苦しんでるかっていうと、言うほどスケールしないからであり、言うほどマネージドじゃないから。 Treasure Dataは基本的に割当メモリが固定でオートスケールしないので、ピーク時に合わせて必要なメモリを確保しておかないといけない。そうなるとメモリ使用量とか負荷とかをモニタリングしないといけないわけだけど、Saasだから内部のアーキテクチャが隠蔽されていていちいちサポートに問い合わせないといけなかったりする。 Redshiftの場合はそもそも自前でクラスタ管理しなくちゃいけないのでそれが大変って

                                                      近年のデータ分析基盤構築における失敗はBigQueryを採用しなかったことに全て起因している - データエンジニアの酩酊日記
                                                    • 新型コロナ 東京都で診断されていない感染者はどれくらいいるのか?(忽那賢志) - 個人 - Yahoo!ニュース

                                                      東京都の新規感染者数は現在も1日当たり5000人前後と非常に高い水準で推移していますが、SNSなどでは「ピークアウトが近いのでは?」という声が聞かれるようになってきました。 一方、東京都の専門家は「診断されていない感染者が多くいるのではないか」という懸念を示しています。 都内の感染者は本当に減ってきているのでしょうか?東京都の新規感染者の報告数は、実際の感染者数をどれくらい正しく反映しているのでしょうか? 東京都の感染者数の推移は「やや増加〜横ばい」に東京都における新規感染者数(東京都新型コロナウイルス感染症対策サイト) 東京都における新型コロナ新規感染者数は7月下旬から8月中旬までの急激な増加ペースと比べると、現在は緩やかな増加もしくは横ばいになってきました。 現在も非常に多くの感染者が発生していることには変わりありませんが、増加ペースだけを見れば良い兆候と言えます。 しかし、東京都の専

                                                        新型コロナ 東京都で診断されていない感染者はどれくらいいるのか?(忽那賢志) - 個人 - Yahoo!ニュース
                                                      • 叢雲くすり (創薬ちゃん) on Twitter: "・初回接種後しばらくはまだ免疫はついていないから気を緩めてはいけない ・2回接種で抗体価は何倍にもなる(のでやはり2回打ちしたほうがいい) というのが分かるように身体を張って何十回もセルフ採血してグラフで可視化した(n=1だが)… https://t.co/Qvb4oOO0ix"

                                                        ・初回接種後しばらくはまだ免疫はついていないから気を緩めてはいけない ・2回接種で抗体価は何倍にもなる(のでやはり2回打ちしたほうがいい) というのが分かるように身体を張って何十回もセルフ採血してグラフで可視化した(n=1だが)… https://t.co/Qvb4oOO0ix

                                                          叢雲くすり (創薬ちゃん) on Twitter: "・初回接種後しばらくはまだ免疫はついていないから気を緩めてはいけない ・2回接種で抗体価は何倍にもなる(のでやはり2回打ちしたほうがいい) というのが分かるように身体を張って何十回もセルフ採血してグラフで可視化した(n=1だが)… https://t.co/Qvb4oOO0ix"
                                                        • データ基盤にありがちな「何を使って作ればよいか?」という問いに対する処方箋を用意してみました. - Lean Baseball

                                                          ちょっと昔まではデータ基盤の管理人・アーキテクト, 現在は思いっきりクラウドアーキを扱うコンサルタントになったマンです. 私自身の経験・スキル・このブログに書いているコンテンツの関係で, 「データ基盤って何を使って作ればいいの?」的なHow(もしくはWhere)の相談. 「Googleのビッグクエリーってやつがいいと聞いたけど何ができるの?」的な個別のサービスに対するご相談. 「ぶっちゃけおいくらかかりますか💸」というHow much?な話. 有り難くもこのようなお話をよくお受けしています. が, (仕事以外の営みにおける)個人としては毎度同じ話をするのはまあまあ疲れるので, データ基盤にありがちな「何を使って作ればよいか?」という問いに対する処方箋 というテーマで, クラウド上でデータ基盤を構築する際のサービスの選び方 (データ基盤に限らず)クラウド料金の基本的な考え方 をGoogle

                                                            データ基盤にありがちな「何を使って作ればよいか?」という問いに対する処方箋を用意してみました. - Lean Baseball
                                                          • 量的な概念をちゃんと認識しようぜ(参考文献追記)

                                                            anond:20230321094940 量的な概念をちゃんと認識しようぜ。 合計特殊出生率は、20年で30%以上低下してるが、夫婦の完結出生児数は、1割程度しか低下してないんだよ。 下がっていると行っても全然程度が違う。 では、合計特殊出生率と連動するように下がっている統計というと、婚姻率になる。これが概ね20ポイント以上低下している。 これと夫婦の完結出生次数が掛け算すると、ほぼ合計特殊出生率になる訳だ。 問題の解決に必要なコストは、100%に近づければ近づけるほど、指数関数的に増大する事が知られている。なので、パレート図というものを用いて、特に理想から乖離している差が大きいところ、影響が大きいところから重点的に対応する事が、よりよい問題解決に繋がるとされる。 今のところ、分析として影響が大きいのは 非婚化による婚姻率の低下(経済的理由が主)結婚年齢の高齢化による出産人数の低下経済的理

                                                              量的な概念をちゃんと認識しようぜ(参考文献追記)
                                                            • Alfredの代替としてRaycastを使っている - 詩と創作・思索のひろば

                                                              新春ツール入れ替えシリーズです。macOS における Spotlight 的なランチャーツールとして Alfred を長いこと使ってきたが、最近 Raycast を使ってみてこれがよかったので、以来ずっと使い続けている。 Raycast - Supercharged productivity 開発者のための便利ツールという売り文句のようで、そういう点がまさに気に入った。 カレンダーの次の予定が表示される まずこれがいい。これだけで十分使える。ランチャーを起動したときにカレンダーの次の予定を表示してくれる。Enter でそのまま Meet や Zoom を開いてくれるのでキーボードから手を離す必要がない。 もともとカレンダーの確認には Dato を使っていたし今も使ってるが、これでミーティングへのアクセスがかなりよくなった。 コミュニティベースの Store で機能を追加できる https:

                                                                Alfredの代替としてRaycastを使っている - 詩と創作・思索のひろば
                                                              • Pythonを用いたPDFデータからの情報抽出 / Extraction data from PDF using Python

                                                                ■イベント 
:第54回情報科学若手の会 https://wakate.connpass.com/event/222829/ ■登壇概要 タイトル:Pythonを用いたPDFデータからの情報抽出 / Extraction data from PDF using Python 発表者: 
技術本部 DSOC R&D研究員  青見 樹 ▼Twitter https://twitter.com/SansanRandD

                                                                  Pythonを用いたPDFデータからの情報抽出 / Extraction data from PDF using Python
                                                                • IT未経験からMLエンジニアになるまでの2年半でやったこと - MLaaSS - Machine Learning as a Self-Satisfaction

                                                                  はじめに 自身の転職活動にあたり皆さんの転職エントリが非常に参考になったので、私も同じ境遇の方の参考になればと思い、書き残すことにしました。(ただ、本当に私と似た境遇の方にはなかなかリーチしづらい気がしていますが・・・) TLDR; 30歳でIT未経験からMLエンジニアに転職 約2年半独学で勉強(ほとんどkaggleしてただけ) 無関係に思えた現職での経験もなんだかんだ転職で役に立った 目次 自己紹介 現職について 転職の理由 勉強したこと 転職活動 終わりに 1.自己紹介 かまろという名前でTwitterなりkaggleなりをやっています。kaggleでは画像やNLPといったdeep learning系のコンペを中心に取り組んでおり、2019年の9月に金メダルを獲得しMasterになることができました。 恐らくここが他の転職エントリを書かれている方々と大きく異なる点かと思うのですが、現職

                                                                    IT未経験からMLエンジニアになるまでの2年半でやったこと - MLaaSS - Machine Learning as a Self-Satisfaction
                                                                  • 慶応のPCR6%の意味

                                                                    慶応大学病院が無症状の患者67人に新型コロナウイルスSARS-CoV-2のPCRを行い、4名が陽性であったと発表した。6%である。 これだとnが少ないのでシンプルな二項検定を行うと、95%信頼区間は 1.7%-14.6%となる。東京都民の1395万人に当てはめると 237,150人-2,036,700人となる。今朝(4月23日)見た、PCRで陽性になった感染者の累計が3,439人だから、実際の感染者はPCRで把握されている患者の69-592倍いる、ということになる(追記。これは観察期間が違うので不適切な分数でした、すみません。実際はもっと大きな数になります。慶応の検査実施期間が報道では分からなかったので適切な計算は今できませんが、要するに「分かってるよりずっとずっとたくさん」ということだ)。 PCRの感度は30-70%くらいと考えられるから、楽観的シナリオだと真の感染者は4/0.7=約6人

                                                                    • 日本に潜む分断 衆院選分析、40歳未満で自民300迫る - 日本経済新聞

                                                                      米国などでみられる政治の分断が日本にも潜む。衆院選は事前予想を上回る自民党の勝利だった。出口調査や自治体ごとの得票のデータをひもとくと40歳未満の層で強さが顕著で、高齢者と溝がある。東北や信越の農業が盛んな県で集票力を高める一方、大都市や女性層は勢いがなく、様々な断絶が浮かび上がる。米国は政治の二極化の様相が強まっている。白人の中高年層は共和党が優勢で、「米国第一」を唱えたトランプ前大統領の誕

                                                                        日本に潜む分断 衆院選分析、40歳未満で自民300迫る - 日本経済新聞
                                                                      • 普通のデータサイエンティストと世界トップクラスのデータサイエンティストの違い ニュースイッチ by 日刊工業新聞社

                                                                        「データサイエンティストと名乗るのは厚かましいというか、自分はむしろ外れ値です」そう切り出した小野寺和樹さんは現在、DeNAのAI本部データサイエンス第一グループに所属している。 確かにデータサイエンティストには数学や物理学の修士や博士といった理系のバックグラウンドを有する人が多い中、小野寺さんは経済学部出身で数学の知識も「二次関数の頂点がわかるくらい」だという。 そんな小野寺さんだがKaggle Grandmaster(カグル グランドマスター)という称号を持っている。世界では163人、日本では10人程度しかいない(2019年11月現在)。 【補足説明】Kaggle(カグル)とは、データサイエンティストや機械学習エンジニアが集まる世界最大のコミュニティ。大きな特徴は、誰でも参加可能なコンペティションがあることだ。世界中の企業や研究機関などが提供したビッグデータと課題に対し、モデルの精度を

                                                                          普通のデータサイエンティストと世界トップクラスのデータサイエンティストの違い ニュースイッチ by 日刊工業新聞社
                                                                        • 24時間365日動き続けるデータシステムの設計手法 : 「データ指向アプリケーションデザイン」実践編

                                                                          「データ指向アプリケーションデザイン」をベースに、24時間365日動き続けるデータシステムを実装する際に必要となる技術や考え方を紹介します。 この資料は、2023年大阪大学大学院 情報科学科 マルテメディア工学特別講義で使われた資料を一般用に修正して公開しています。 参考: 「30分でわかるデータベースデザイン」https://speakerdeck.com/xerial/30fen-dewakarudetazhi-xiang-apurikesiyondezain-data-engineering-study-number-18

                                                                            24時間365日動き続けるデータシステムの設計手法 : 「データ指向アプリケーションデザイン」実践編
                                                                          • にゃんこそば🌕データ可視化 on Twitter: "この日を待ってた。国土交通省が東京23区の3D都市モデルを無償公開。 FBXにも対応してるから、業務用はもちろん、東京を舞台にした3DゲームやVRアプリだって作れる。今後50以上の都市に拡大予定。これは未来が始まったかも! Pr… https://t.co/xmM18hOjTl"

                                                                            この日を待ってた。国土交通省が東京23区の3D都市モデルを無償公開。 FBXにも対応してるから、業務用はもちろん、東京を舞台にした3DゲームやVRアプリだって作れる。今後50以上の都市に拡大予定。これは未来が始まったかも! Pr… https://t.co/xmM18hOjTl

                                                                              にゃんこそば🌕データ可視化 on Twitter: "この日を待ってた。国土交通省が東京23区の3D都市モデルを無償公開。 FBXにも対応してるから、業務用はもちろん、東京を舞台にした3DゲームやVRアプリだって作れる。今後50以上の都市に拡大予定。これは未来が始まったかも! Pr… https://t.co/xmM18hOjTl"
                                                                            • プログラマーを苦しめてきた郵便番号データ「KEN_ALL.CSV」が改善! 扱いやすい新形式/従来形式のデータも引き続き利用できるから安心してネ【やじうまの杜】

                                                                                プログラマーを苦しめてきた郵便番号データ「KEN_ALL.CSV」が改善! 扱いやすい新形式/従来形式のデータも引き続き利用できるから安心してネ【やじうまの杜】
                                                                              • Mini Tokyo 3D

                                                                                A real-time 3D digital map of Tokyo's public transport system. This data visualization was produced by Akihiko Kusanagi.

                                                                                  Mini Tokyo 3D
                                                                                • ゴッホの大規模データベース「Van Gogh Worldwide」が誕生。1000点以上の作品を掲載

                                                                                  ゴッホの大規模データベース「Van Gogh Worldwide」が誕生。1000点以上の作品を掲載フィンセント・ファン・ゴッホの作品のみを集めた大規模なデータベース、「Van Gogh Worldwide」がローンチされた。ゴッホ美術館やクレラー=ミュラー美術館などが作品データを提供しており、現時点で1000点以上の作品を閲覧できる。 出典=Van Gogh Worldwideのウェブサイト(https://vangoghworldwide.org) あるようでなかったアーティスト・データベースが誕生した。フィンセント・ファン・ゴッホの作品のみに特化した「Van Gogh Worldwide」だ。 このデータベースは、世界最大のゴッホ・コレクションを誇るオランダのゴッホ美術館と、それに次ぐ規模のコレクションを有するクレラー=ミュラー美術館、そしてオランダ美術史研究所がタッグを組んでローン

                                                                                    ゴッホの大規模データベース「Van Gogh Worldwide」が誕生。1000点以上の作品を掲載