並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 121件

新着順 人気順

BigDataの検索結果1 - 40 件 / 121件

  • 1000万件オーバーのレコードのデータをカジュアルに扱うための心構え - joker1007’s diary

    自分が所属している会社のメンバーの教育用資料として、それなりの規模のデータを扱う時に前提として意識しておかなければいけないことをざっくりまとめたので、弊社特有の話は除外して公開用に整理してみました。 大規模データ処理、分散処理に慣れている人にとっては今更改めて言うことじゃないだろ、みたいな話ばかりだと思いますが、急激にデータスケールが増大してしまったりすると環境に開発者の意識が追い付かないこともあるかと思います。 そういったケースで参考にできるかもしれません。 弊社は基本的にAWSによって運用されているので、AWSを前提にした様なキーワードやサービス名が出てきます。後、句読点があったり無かったりしますが、ご容赦ください。 追記: 社内用の資料の編集なのでかなりハイコンテキストな内容だから誤解するかもしれませんが、これらはそもそもRDBの話ではありません。(関係無くは無いけど) 1000万オ

      1000万件オーバーのレコードのデータをカジュアルに扱うための心構え - joker1007’s diary
    • 「悪いやつをAIで予測する」のがなぜいけないか - yhara.jp

      「この人、家賃を滞納しそう?」AIが予測 入居審査を45分→16分に - ITmedia NEWS いやーこれはまずい。この件に限らず、「悪いやつをAIで予測する」というのはすなわち 「あなたに似た人が悪いことをしたので、あなたも悪い人と見なします」 ということだからだ。 レストランのランプ たとえばこんな例を考えてみよう。ある街でレストランが強盗に襲われる事件が相次いだ。これを防ぐため、レストランの入口に防犯カメラを設置することにした。このカメラはAIで犯罪者の顔を学習していて、「犯罪を犯しそう」な人間を検知してくれるのだ。 もちろん検知するといってもサイレンが鳴ったりするわけじゃない。あくまで「犯しそう」なだけで、まだ犯罪を犯したわけではないからね。でもキッチンに置いてある赤いランプがピカピカ光って、「要注意人物」が来たことはわかるようになっている。ああこれで安心だ。 …さて、これは本

      • 人気レジャー施設が「現地払いのWeb予約」をやめただけで、売り上げ2.5倍以上に──なぜ?

        人気レジャー施設が「現地払いのWeb予約」をやめただけで、売り上げ2.5倍以上に──なぜ?:PANZA宮沢湖(1/3 ページ) PANZA宮沢湖は、2019年4月に埼玉・飯能市にオープンしたアドベンチャーパークだ。施設内では「ファンモック」という空中アスレチックが楽しめる。森の中に張り巡らしたネットの上で揺られながら寝転んだり飛び跳ねて浮遊感を味わったりと、自分なりの方法で過ごせ、子どもから大人まで利用できる。 長引くコロナ禍の中、自然豊かな土地に出掛けて「非日常を気軽に味わえれば」と集まる人も多いだろう。コロナ禍でも人気は絶えず、安定して利用者が訪れている。 このPANZA宮沢湖では、予約システムを見直し「現地払いのWeb予約」をやめたことで、月商が対前年比で平均157%、最高値の月では272%もアップしたという。つまり売り上げが平均して2.5倍以上にもなった。なぜそれほどの効果があった

          人気レジャー施設が「現地払いのWeb予約」をやめただけで、売り上げ2.5倍以上に──なぜ?
        • 「NHK全国ハザードマップ」を公開した理由 34テラバイトのデータと格闘 - NHK

          34テラバイトのデータと格闘して「全国ハザードマップ」を公開した理由 5月下旬に公開を開始したNHKの「全国ハザードマップ」。川の氾濫による洪水リスクを中心に掲載し、多くの方に活用頂いています。 ⇒「NHK全国ハザードマップ」の紹介記事はこちら 一方で、「市町村が出しているハザードマップがあれば十分だ」「リスクを網羅していない不完全なマップの公開は良くない」「NHKではなく国が取り組むべき仕事ではないか」といった意見も頂きました。 今回なぜ、このような取り組みを行ったのか。どうやってデータを収集して地図を作ったのか。詳しく説明します。 2022年のNHKスペシャルなどで紹介された内容です なぜ「デジタルデータ」を集めたのか? 私たちはこれまで「ハザードマップを見て下さい」という呼びかけを、テレビやラジオのニュースや番組、ネット記事、SNSなどで繰り返してきました。 なぜなら、自分の暮らす場

            「NHK全国ハザードマップ」を公開した理由 34テラバイトのデータと格闘 - NHK
          • 風俗客とキャスト「性接触の全国ネットワーク」を可視化 口コミ9万件分析で見えた「世界の狭さ」 - 弁護士ドットコムニュース

              風俗客とキャスト「性接触の全国ネットワーク」を可視化 口コミ9万件分析で見えた「世界の狭さ」 - 弁護士ドットコムニュース
            • データサイエンティスト生活でお世話になった本|武田邦敬|Kunihiro TAKEDA

              みなさんこんにちは。くにです。 データ分析の世界に足を踏み入れてから9年が過ぎました。 分析実務未経験でキャリアチェンジできたのは幸運としか言えませんが、ある意味無知だったからこそ無謀な挑戦ができたのかもしれません。この挑戦の泥臭い記録は、この記事に書きました。 ポジションは変われど、データを扱う仕事をまだ続けています。 私は実務で手を動かしつつ、不格好に失敗しながら学んできました。わからないことにぶつかるたびに本を買い、その本でわからないことがあればまた本屋に行き、自分が少しでも理解できそうな本を探して買いました。そして、気になる参考文献があれば、それも買って読んでみる…。 こんな生活を続けているうちに、部屋が本だらけになってしまいました。 正直に言って読み切ったという実感のある本はありません。しかし、実務で何かしらお世話になった本は数多くあり、そういう本は手放さずに手元に置いています。

                データサイエンティスト生活でお世話になった本|武田邦敬|Kunihiro TAKEDA
              • Netflixを支える推薦システムの裏側|masa_kazama

                イントロNetflixは、スマホやPCがあれば、どこでもいつでも、映画やドラマを見放題で楽しむことができます。今年はお家時間が増えたことで、Netflixをより満喫している方も多いのではないでしょうか。実際に、2020年1月〜3月に会員が全世界で1600万人ほど増え、合計1億8000万人を超えています。 Netflixをいくつかの数字で見てみると、さらにその凄さに驚かされます。 ・全世界のインターネット通信量(下り)の15%をNetflixが占めており、YouTubeを超える世界一の動画サービス ・時価総額が20兆円超え ・サブスクリプション収入が月々約1500億円 そんな多くのユーザーを有するNetflixの魅力の1つに、推薦システムがあります。Netflixのホーム画面には、今話題の作品やユーザーにパーソナライズ化されたおすすめの作品が並びます。 Googleの検索と違って、Netfl

                  Netflixを支える推薦システムの裏側|masa_kazama
                • スマホ99個を1カ所に集めてGoogle Mapsに幻の渋滞を起こし,現実世界の人間の動きを誘導する実験が面白い

                  高梨陣平 @jingbay 99台のスマホを手押し車で運び、virtualな交通渋滞をGoogle Map上で起こす。この活動によりグリーンで表示された道路を赤に変えることで現実世界に対し、自動車を他の道へ誘導するという影響を与えることが可能だ。 twitter.com/simon_deliver/… Simon Weckert @simon_deliver 99 smartphones are transported in a handcart to generate virtual traffic jam in Google Maps. Through this activity, it is possible to turn a green street red which has an impact in the physical world by navigating cars

                    スマホ99個を1カ所に集めてGoogle Mapsに幻の渋滞を起こし,現実世界の人間の動きを誘導する実験が面白い
                  • 新型コロナ・季節性インフルエンザ・RSウイルス リアルタイム流行・疫学情報

                    本Webサイトでは、エムスリー株式会社が保有する医療リアルワールドデータであるJAMDAS(日本臨床実態調査)をベースとした国内患者数に関する推計値と、厚生労働省または国立感染症研究所(NIID)による公表値を掲載しています。 JAMDASデータは、統計処理された集計データとして個人と紐づかない形で医療機関から提供されており、一切の個人情報を含みません。 新型コロナウイルス感染症新規陽性者全数報告に関する厚生労働省からの公表が2023年5月8日をもって終了したため、本Webサイトにおける新型コロナウイルス感染症新規陽性者の公表値の更新も、2023年5月8日分をもって終了しています。 JAMDASは国内約4,100医療機関(2022年12月時点)由来の臨床データに基づくデータベースで、検査結果等も含んだ前々日までの臨床データをリアルタイムに反映しています。 JAMDAS推計値は、医療機関の受

                      新型コロナ・季節性インフルエンザ・RSウイルス リアルタイム流行・疫学情報
                    • エンジニアのスキルマップ・テックリードへの途 - 電通総研 テックブログ

                      みなさんこんにちは。電通国際情報サービス(ISID) 金融ソリューション事業部の水野です。 これは電通国際情報サービス Advent Calendar 2022の16日目の記事です。 今回は、ISID金融事業部で運用しているスキルマップについてご紹介します。 テックリードとは 実は、ISIDの少なくとも金融事業部にテックリードと言うポジションはありません。 実在するのはチーフアーキテクトと言う職種のみで、各プロジェクトでリードエンジニアやテックリードという仮想的なロールがあるのが実態です。 一時期はフルスタックエンジニアと呼んでいる時期もありましたが、近年このワーディングが好まれない印象なので、大々的に使っていません。 主観ですが、フルスタックエンジニアはインフラ知識/運用系の知識のウェイトが高いエンジニアで、テックリードはソフトウェアアーキテクチャ、Webアプリケーション実装技術寄りのエ

                        エンジニアのスキルマップ・テックリードへの途 - 電通総研 テックブログ
                      • データサイエンティストとして読んで役立った本たち@2020-07|だみ〜

                        2016年10月に未経験・新人データサイエンティストで雇ってもらいました。当時はまだ業界が牧歌的だったのと、比較的書類上のスペックが高い若者だったのもあり、運良く拾ってもらえたのでした。今だと100%受かってないです。 そんな私が今までで読んだ本の中で、役に立った本をつらつら書いていきます。 現代の若者がどんどん優秀になっているので、これくらいでいまんとこいっぱしのデータサイエンティスト(@ビジネスサイド)になれるんだなあという基準を述べようかと思いました。何年か後に振り返りたいですね。 もちろん、これが誰かの学習の役に立てばと思っています。 ちなみに、アフィリエイト入れてないので気にせず買っていってください。 数学無難に解析学と線形代数学を勉強しておくといいと思っています。

                          データサイエンティストとして読んで役立った本たち@2020-07|だみ〜
                        • 大きなGitリポジトリをクローンするときの工夫を図解します - DeNA Testing Blog

                          こんにちは、SWETでCI/CDチームの前田( @mad_p )です。 SWETではCI/CDチームの一員として、Jenkins運用のサポートや、CI/CD回りのノウハウ蓄積・研究をしています。 はじめに Gitリポジトリをクローンすると、ローカルフォルダにはそのリポジトリの全体がダウンロードされ .git というフォルダに格納されます。ブランチをチェックアウトすると、ブランチ内のファイルがワーキングツリーとして展開されます。この様子を図にするとこのようになります。 この .git とワーキングツリーの使うディスク容量を節約しようというのが今回のお話です。特にJenkinsにおいて、大きめのGitリポジトリをクローンしてくる場合に課題があり、いろいろ工夫してみたので、その結果を紹介します。同じCI/CDチームの加瀬による記事「大規模リポジトリで高速にgit cloneするテクニック」と内容

                            大きなGitリポジトリをクローンするときの工夫を図解します - DeNA Testing Blog
                          • 近年のデータ分析基盤構築における失敗はBigQueryを採用しなかったことに全て起因している - データエンジニアの酩酊日記

                            久しぶりにペラペラな思いつきを書き捨てて、寝ます。 2、3年前ぐらいにSIerやコンサルでTreasure Dataとか使ってマネージドDWH作ろうぜっていう風潮が流行って、今は運用フェーズに入ってどこも結構苦しんでるってのが僕のすごく狭い観測範囲での印象。 AWSのReadshiftしかり。 なぜ苦しんでるかっていうと、言うほどスケールしないからであり、言うほどマネージドじゃないから。 Treasure Dataは基本的に割当メモリが固定でオートスケールしないので、ピーク時に合わせて必要なメモリを確保しておかないといけない。そうなるとメモリ使用量とか負荷とかをモニタリングしないといけないわけだけど、Saasだから内部のアーキテクチャが隠蔽されていていちいちサポートに問い合わせないといけなかったりする。 Redshiftの場合はそもそも自前でクラスタ管理しなくちゃいけないのでそれが大変って

                              近年のデータ分析基盤構築における失敗はBigQueryを採用しなかったことに全て起因している - データエンジニアの酩酊日記
                            • 都庁と伽藍とバザール|miyasaka

                              東京都の情報技術利活用への取り組みは都庁内に常勤で働いている情報技術系職員に加え高い専門性の人にフェローとして非常勤でサポートしてもらってます。 その一人の関フェローの嬉しいニュースが。 デブサミ2020夏のベストスピーカーが決定、1位はCode for Japan 関治之氏 日本で有数の伝統もあって大規模なエンジニアのイベントでの受賞。東京都の新型ウイルス感染症対策サイトは職員とシビックテックのコミュニティによって運営されていますがそのことにもプレゼンでは触れていただいています。 このプロジェクトを通じてシビックテックについて多くを彼やその仲間から学びました。全員の名前はとても書ききれないんだけどまさに私にとってのジェダイマスターたちです。せっかくなのでジェダイマスターたちから学んだことをこれを機会に書き留めておきます。行政でシビックテックやオープンデータの推進を検討してる人の参考になる

                                都庁と伽藍とバザール|miyasaka
                              • 「つながらない」の声が浮き彫りにしたドコモの現状--他社から数年レベルの遅れ鮮明

                                NTTドコモは10月10日、ネットワーク通信品質対策を発表した。 2023年の春ぐらいから、ドコモのユーザーからネットワーク品質に関する不満の声がSNSなどで多く上がっている。当初は渋谷や池袋などの都心部、ターミナル駅周辺が中心であったが、最近では地方にも拡大している印象だ。 他キャリアでは数年前に実施済みの対策をようやく 発表会で実際にドコモのネットワーク通信品質に対する改善策を聞いたが、第一印象としては「後手後手」に回っており、他社に比べても大きく遅れている感が強かった。 例えば、ドコモでは駅や繁華街、住宅地など全国2000カ所以上で集中的に対策を実施。さらに乗降客の多いJRや私鉄などの鉄道動線を強化するという。 しかし、鉄道動線を強化する考え方はKDDIが5G開始当初から行っており、2021年6月にはJR東日本の山手線全30駅、JR西日本の大阪環状線全19駅のホームで、5Gネットワー

                                  「つながらない」の声が浮き彫りにしたドコモの現状--他社から数年レベルの遅れ鮮明
                                • 今すぐ無料でPythonやデータサイエンスを学べる学習コンテンツ7選 | Ledge.ai

                                  画像はUnsplashより 在宅時間が増加したであろう現在は、学生や社会人が人工知能(AI)やデータサイエンスについて身につける絶好のチャンスと言える。「AIについて何か勉強したい」「統計学について知りたい」という人も少なくないのでは。 近頃、Pythonなどのプログラミングについて勉強したり、データサイエンスについて知識を深めたりできる学習コンテンツが無料で公開される機会が増えつつある。そこで、2021年1月27日現在、無料で学べるAIやデータサイエンス関連の学習コンテンツを集めてみた。 総務省、社会人のためのデータサイエンス入門を無料開講 総務省は2021年1月12日開講した「誰でも使える統計オープンデータ」に先駆け、「社会人のためのデータサイエンス入門」を特別開講している。登録料および受講料は無料。 本講座では入門編として、統計学の基礎やデータの見方・データの取得方法などを学べる。統

                                    今すぐ無料でPythonやデータサイエンスを学べる学習コンテンツ7選 | Ledge.ai
                                  • 『データ指向アプリケーションデザイン』を読んだ - hydrakecat’s blog

                                    『データ指向アプリケーションデザイン』を読んだ。たいへんおもしろかった。技術書でこんなにわくわくしながら一気に読んだのは『Androidを支える技術』以来かもしれない。 データ指向アプリケーションデザイン ―信頼性、拡張性、保守性の高い分散システム設計の原理 作者: Martin Kleppmann,斉藤太郎,玉川竜司出版社/メーカー: オライリージャパン発売日: 2019/07/18メディア: 単行本(ソフトカバー)この商品を含むブログを見る 本書はソフトウェアシステムの設計について「データ」という観点からまとめたものだ。もちろんデータベースは登場するが、それだけでなくJSONなどのデータ形式、RPC、メッセージキュー、全文検索インデクス、バッチ処理やオンライン処理も等しく「データ」という観点から扱っている。特筆すべき点は、理論だけでなく実際のミドルウェア製品を引き合いに出しつつ具体例を

                                      『データ指向アプリケーションデザイン』を読んだ - hydrakecat’s blog
                                    • CCC、Tポイントデータをオープン化 - 7000万人の会員データが利用可能に

                                      CCCマーケティングとトレジャーデータは7月28日、CDP(Customer Data Platform)領域において業務提携を行い、同意取得済のT会員データ(Tポイントデータ)を、生活者のライフスタイルを基点とした情報プラットフォーム「CDP for LIFESTYLE Insights」として8月から提供を開始すると発表した。 2022年3月現在、名寄せをし重複を排除したT会員数は7025万人で、週間の利用者は2469万人、月間利用者は4175万人だという。この会員により、年間35億件以上の購買トランザクション、15万店舗のネットワークで扱われる60億種類の商品データ、数千項目からなる顧客DNAのペルソナデータ、 オフライン・オンライン上の移動・行動データやメディア接触データ、またCCCマーケティンググループオリジナルのエンハンスデータなとが得られ、データベースに蓄えられている。 20

                                        CCC、Tポイントデータをオープン化 - 7000万人の会員データが利用可能に
                                      • 来春に消滅する「Tポイント」栄華と没落の20年

                                        コンテンツブロックが有効であることを検知しました。 このサイトを利用するには、コンテンツブロック機能(広告ブロック機能を持つ拡張機能等)を無効にしてページを再読み込みしてください。 ✕

                                          来春に消滅する「Tポイント」栄華と没落の20年
                                        • データ収集の基本と「JapanTaxi」アプリにおける実践例

                                          1. Mobility Technologies Co., Ltd. Data Engineering Study #2 データ収集の基本と 「JapanTaxi」アプリにおける実践例 株式会社 Mobility Technologies 渡部 徹太郎 2020/8/19 2. Mobility Technologies Co., Ltd. 自己紹介 2 ID :fetaro 名前:渡部 徹太郎 学生:東京工業大学でデータベースと情報検索の研究 (@日本データベース学会) 職歴: * 野村総合研究所(NRI) - オンライントレードシステム基盤 - オープンソース技術部隊 * リクルートテクノロジーズ - ビッグデータ分析基盤 * MobilityTechnologies - データエンジニア エディタ:emacs派→ InteliJ派 日本AWSユーザ会(JAWS) ビッグデータ支部長

                                            データ収集の基本と「JapanTaxi」アプリにおける実践例
                                          • 「江の島」「巣鴨」はどこから人々が訪れた?――KDDIが提供する「Location Analyzer」で見える化

                                              「江の島」「巣鴨」はどこから人々が訪れた?――KDDIが提供する「Location Analyzer」で見える化
                                            • 新しいデータ基盤アーキテクチャである「データレイクハウス」について調べてみた - Taste of Tech Topics

                                              最近ソーダストリームを買い、炭酸水を飲むのにはまってます。機械学習エンジニアの@yktm31です。 以前に「AWS Lake Formationでデータレイク体験!」という記事を書いてみて、データ基盤アーキテクチャに興味が湧いてきました。 データレイクハウスは、「データウェアハウス」と「データレイク」を統合したようなアーキテクチャで、 2020年にDatabricks社により提唱され、新しいデータ基盤アーキテクチャとして注目されているようです。 www.databricks.com そこで今回、「データレイクハウス」について調べてみたことをまとめてみたいと思います。 なぜデータレイクハウスが注目されているのか? データウェアハウスの特徴・課題 データレイクの特徴・課題 データレイクハウスの特徴 データレイクハウスのアーキテクチャ Azure Azure Synapse Analyticsを

                                                新しいデータ基盤アーキテクチャである「データレイクハウス」について調べてみた - Taste of Tech Topics
                                              • 渋谷100台プロジェクト | IDEA(イデア)

                                                プロジェクトの背景 Intelligence Design 株式会社では、これまで渋谷のセンター街、宮下パークなどに、商業施設や交通管理会社と連携し、AIカメラを設置してきました。(センター街の映像はこちら) 今回、人流データを複合的に可視化、分析することにより、 マーケティングや防犯における新たな視座の獲得や、データ利用価値を模索するべく、渋谷駅周辺の広域に100台のAIカメラを設置します。

                                                  渋谷100台プロジェクト | IDEA(イデア)
                                                • 竹中平蔵氏、中国社会でひそかに「大人気」になっていた(梶谷 懐) @gendai_biz

                                                  あの竹中平蔵氏が、中国で大いに人気を集めているらしい。中国の人々はいったい竹中氏の何に惹かれ、彼から何を得ようとしているのか。その背景を追っていくと、日中で共振する「新自由主義」の動きが見えてきた。神戸大学・梶谷懐教授による全3回のレポート。 スーパーシティ法案成立の陰で 本年5月27日に、国家戦略特区法の改正案、いわゆる「スーパーシティ法案」が国会で成立した。新型コロナウイルス禍の拡大に伴う緊急事態宣言発令中の成立であり、報道などでは、遠隔医療の本格導入を始めスマート技術を用いた感染対策の進展に期待する声も多く聞かれた。 このスーパーシティ構想の背景としてAIやビッグデータを活用して社会のあり方を根本から変えるような都市設計を目指す動き、すなわちスマートシティの建設が、世界各地で本格化していることが指摘されている。 それを踏まえた上で(1)生活を支える複数のサービスが導入されている(2)

                                                    竹中平蔵氏、中国社会でひそかに「大人気」になっていた(梶谷 懐) @gendai_biz
                                                  • ピボットを経てグローバル戦略へ、そして1兆円企業に…Treasure Data CEO・太田一樹の「忘れられない30分間」

                                                    データの収集・分析・連携ができるCDP(カスタマーデータプラットフォーム)を手掛けるTreasure Dataは、グローバルでも急成長中の注目SaaS企業。2018年にはArm社へイグジットしましたが、その後、今年になって創業者たちが「出戻り」の形で経営陣につき、さらなる飛躍を目指すというニュースは、業界に驚きをもたらしました。 今でこそCDPとして名高いTreasure Dataも、実はARR 30億円の段階でピボットし、現在の姿へと変わった経緯がありました。その背景にあったストーリー、ピボット後にARR 100億円を突破するため必要だったこと、そしてカムバックの理由まで、共同創業者でCEOを務める太田一樹さんに伺います。 聞き手は、ALL STAR SAAS FUNDマネージング・パートナーの前田ヒロです。 3年でARR10億、しかしテックジャイアントの参戦で…──早速ですが、ARR3

                                                      ピボットを経てグローバル戦略へ、そして1兆円企業に…Treasure Data CEO・太田一樹の「忘れられない30分間」
                                                    • BigQueryでクエリ一撃で29万円溶かしたけど助かった人の顔

                                                      SolanaのPublic DataをBigQueryで取得したかった# えー、お笑いを一席. ブロックチェーンSolanaのデータがGoogle Cloud BigQueryで使えるようになったというニュースをたまたまネット推薦記事でみかけた1. おや, 面白そうだ. ちょっとやってみようかな… BigQueryはさわるのが1年以上つかってないかも, どうやるんだっけ… とりあえずカラムとかサンプルでちょっとデータをみたいよな, こんな感じだっけか? とりあえず動かしてみよう, ポチッとな. … 5秒でレスポンスが帰ってくる. おー、速い. えーっと, あれ課金データ309TB?! いちげきひっさつ、ハサンギロチン2. BigQueryでクエリ一撃5 秒で29万円溶かした人の顔# 話題の画像生成AI, DALL・Eをつかって BigQueryでお金溶かした人の顔を表現してもらった3. あ

                                                      • 行政プロセスにデータ分析を取り入れるために知っておきたい知識と事例

                                                        2020年2月6日に開催された「令和元年度 政策評価に関する統一研修」(埼玉会場)の講義資料です。 (2020-02-09追記) 受講者以外の方々にもたくさんご覧頂いているようでありがとうございます。 注意点として、口頭での説明を前提とした資料であるため、スライド中の文章は最小限にとどめてある点ご了承下さい。

                                                          行政プロセスにデータ分析を取り入れるために知っておきたい知識と事例
                                                        • 世界的な航空便の欠航で天気予報の精度低下も 世界気象機関 | NHKニュース

                                                          世界の気象に関する国連の専門機関は、新型コロナウイルスの影響による世界的な航空便の欠航で、天気予報に利用されている民間の旅客機からのデータが大幅に減り、今後、天気予報の精度が低下する可能性があるという見解を明らかにしました。 しかし、新型コロナウイルスの影響で世界的に航空便の欠航が相次いでいることを受け、旅客機からのデータをこれまでのようには得ることができなくなり、特にヨーロッパで顕著になっているということです。 WMOのターラス事務局長は、この状況が続けば「天気予報への信頼性が徐々に低下すると予想される」とし、今後、世界で航空便の欠航が長引けば、天気予報の精度が低下する可能性があるとしています。

                                                            世界的な航空便の欠航で天気予報の精度低下も 世界気象機関 | NHKニュース
                                                          • 百貨店から感染拡大か 客ら2万人割り出し隔離 中国 天津 | NHKニュース

                                                            新型コロナウイルスの感染拡大が続く中国の天津では、市内にある大規模な百貨店から感染が広がったとして、利用客らおよそ2万人を自宅に隔離する徹底した対策が行われています。 これを受けて地元当局は百貨店の従業員およそ200人全員を隔離したほか、地域の住民に百貨店を利用していた場合は報告するよう呼びかけ、さらに、ビッグデータを使いながら、担当者が地域の住宅を1軒ずつ回って、最終的におよそ2万人の利用客らを割り出したということです。 地元当局はこの2万人に自宅での隔離を求めたうえで、7人が発熱していることを突き止め、このうち5人は感染していないことが確認され、残る2人を確認中だということです。 天津では17日までに確認された感染者は124人で、このうち3人が死亡しています。 ※テイは土偏に「抵」のつくり

                                                              百貨店から感染拡大か 客ら2万人割り出し隔離 中国 天津 | NHKニュース
                                                            • “ワクチンで不妊”のデマ なぜ拡散し続けているのか | NHKニュース

                                                              去年からネットで広がっている「ワクチン接種で不妊になる」という、科学的根拠がないとして多くの専門家が否定している情報は、誰が広め、なぜ拡散し続けているのか。 私たちが専門家と協力してSNSのビッグデータを分析したところ、誤った情報の「拡散者」の存在と、そこにごく一部の現役の医療関係者たちが加わっていることも見えてきました。 感染拡大の不安が広がるなかで、誤った情報に惑わされないためにはどうしたらいいのでしょうか。 (フェイク・バスターズ 新型コロナワクチンと誤情報 取材班 / 総合テレビ 8月10日 午後10時 放送予定) https://www.nhk.jp/p/ts/XKNJM21974/ “ワクチンで不妊” 20万件の投稿を分析すると 私たちはまずツイッターで「ワクチン」と「不妊」という言葉が含まれる投稿を分析しました。 対象は去年12月から6月までの投稿で、リツイートを含めて約20

                                                                “ワクチンで不妊”のデマ なぜ拡散し続けているのか | NHKニュース
                                                              • 【Team & Project】LINE全社のデータ基盤のミドルウェアやData ingestion pipelineの開発・運用を担当しているチームを紹介します

                                                                ―― 今のチーム課題と課題解決に向けた取り組みを教えてください。 Wang:私たちのチームでは、主に3つの課題について取り組みを進めています。 まずは1つ目の課題は「マルチテナントのクラスターの運用」についてです。 Hadoopは一般的に、有数のユーザと予測可能なワークロードで運用されていますが、LINEのData OpenによってDAUが700人弱であり、且つワークロードも10万+/日となっています。Isolationがまだ完備されていないので、ユーザ間にリソースの競合が発生している状況です。 2つ目は「Data catalog」についてです。ユーザが自由にデータを生成したり利用したりする環境においては、データのカタログがとても重要です。そのため、Data Lineageを自動的に生成する仕組みが必要となってきます。 そして「大規模のインフラを効率よく運用すること」も私たちの課題です。私

                                                                  【Team & Project】LINE全社のデータ基盤のミドルウェアやData ingestion pipelineの開発・運用を担当しているチームを紹介します
                                                                • そろそろオープンデータを無秩序に管理するのは卒業したいので📦データを管理するパッケージマネージャを開発した【ツール開発】 - Qiita

                                                                  今回はdim(オープンデータパッケージマネージャ) v1.0のリリースに伴って開発したツールの紹介をしたいと思います。 オープンデータもパッケージマネージャ(apt、npm、gem、pipなど)と同じようにnpm install xxxxxのような形でオープンデータをインストールして管理すると良いのではないかという話です。 以前のバージョンに関しては以下の記事で紹介 【個人開発】パッケージマネージャーの考えを流用してオープンデータ管理ツールを作ってみた話 以前の記事を読んでいてv1.0からの変更点に関して読みたい方 dim v1.0 変更点 オープンデータを無秩序に管理するのはやめたい ソフトウェアやライブラリの管理は世の中様々な体系化された方法が確立されつつあります。ソフトウェアであればaptやbrewなど、ライブラリであれば言語ごとにnpmやgemなどが存在します。しかし、データに関し

                                                                    そろそろオープンデータを無秩序に管理するのは卒業したいので📦データを管理するパッケージマネージャを開発した【ツール開発】 - Qiita
                                                                  • 医療機関データのオンプレ → クラウド移行にかけた1年と、6倍の効率化について - JMDC TECH BLOG

                                                                    株式会社JMDC開発本部データ基盤開発部の中村と申します。 私が所属する医療機関基盤グループでは、昨年から今年にかけて基幹システムをオンプレからクラウド(AWS)へ刷新しました。 この移行プロジェクトは、JMDC史上トップを争うくらい難易度の高いプロジェクトだったと個人的に感じています。マネージャーの立場から今回のシステム刷新のきっかけや、プロジェクトのハードな道のり、そしてクラウド化で得られた成果などを振り返っていきます。 プロフィール 中村竜甫(https://twitter.com/rh1011_) 株式会社JMDC 開発本部 データ基盤開発部 医療機関データ基盤グループ マネージャー SIerにて広告配信システムの企画・開発・運用を経験。その後2015年9月から現職。 基幹システムの刷新リーダーを担当後、Webプロダクト開発のマネージメントを経験。現在は医療機関基盤Gマネージャとし

                                                                      医療機関データのオンプレ → クラウド移行にかけた1年と、6倍の効率化について - JMDC TECH BLOG
                                                                    • 「ETC2.0」がサーバに送信している速度や位置情報、民間活用の動き始まる トラック運行情報や保険にも

                                                                      「ETC2.0」がサーバに送信している速度や位置情報、民間活用の動き始まる トラック運行情報や保険にも(1/3 ページ) 高速道路の料金を無線通信で支払えるETCは、1日あたりの利用台数が780万台を超え93.9%が利用するまで普及した。そして次世代版であるETC2.0も、2015年に始まって以来835万台に搭載され、利用率で見ると28.7%を占めるに至っている。高速道路を走っているクルマの4台に1台はETC2.0を使っているわけだ。 しかしETC2.0が、クルマの位置情報や速度などを、国土交通省のサーバに随時アップロードしていることは意外と知られていない。

                                                                        「ETC2.0」がサーバに送信している速度や位置情報、民間活用の動き始まる トラック運行情報や保険にも
                                                                      • デジタルを問う 欧州からの報告:民主主義を破滅させる巨大IT企業による「監視資本主義」 | 毎日新聞

                                                                        膨大な個人データを収益化する巨大IT企業のビジネスモデルを、自著で「監視資本主義」と名付けたショシャナ・ズボフ米ハーバード大経営大学院名誉教授が、毎日新聞のオンライン取材に応じた。ズボフ氏はインターネット空間を支配するこのビジネスモデルは「民主主義にとって破滅的なもの」で、法律によるルール作りが不可欠だと主張。欧州連合(EU)が進める巨大IT規制を、変革に向けた「新たな局面」をもたらす動きだとして高く評価した。 現在のネット空間では、人々がパソコンやスマートフォンで情報を検索したり、ネット交流サービス(SNS)などを使ったりするたびに、利用履歴など個々人に関するデータが収集される仕組みになっている。ズボフ氏はグーグルやフェイスブック(FB、現メタ)などの巨大ITがこれらのデータを事実上無断で利用し、人々がどんな行動をとるのか予測して広告主などに販売する、新たな市場を構築したと指摘する。そし

                                                                          デジタルを問う 欧州からの報告:民主主義を破滅させる巨大IT企業による「監視資本主義」 | 毎日新聞
                                                                        • 勃起ペニスの長さが30年間で24%も増加していると判明! - ナゾロジー

                                                                          勃起ペニスの長さが30年間で24%も増加していると判明! / Credit:Canva . ナゾロジー編集部「精子の数が年々低下している」というニュースを聞いたことがある人は多いでしょう。 恐ろしいことに、これは事実です。 男性の生殖にかかわるデータによると、53カ国に住む5万7000人の男性の精子を調べたところ、過去46年間で1mlあたりの精子数が1億400万個から4900万個に、実に50%以上(年率にすると1.2%)減少していたことが報告されています。 さらに精子の減少速度は加速しており、2000年から2018年までの毎年の減少率は2.6%にも及んで切ることが示されました。 受精に必要な精子は1つです。 しかし、膣から子宮への旅を乗り切れる精子は極めて少なく、子供をつくるには1mlあたり4000万個の濃さが必要とされています。 このしきい値を下回る場合、それだけ自然な受精は困難になって

                                                                            勃起ペニスの長さが30年間で24%も増加していると判明! - ナゾロジー
                                                                          • 聞けば聞くほど納得しかない……。世界最大のIT企業・テンセント、ゲーム業界制覇への道筋──日本でのヒットこそが、世界的ヒットへの試金石になる!?

                                                                            日本と中国、両国での実績からテンセントへ──今回の取材の趣旨として、テンセントという企業がゲーム業界において世界的にも非常に重要な企業であるにも関わらず、その実態が知られていなかった、それ故に憶測で語られる部分もあったかと思うのですが、改めて当事者の言葉を聞かせていただきたいと。 レオ氏: よろしくお願いします。僕も日本と中国のゲーム業界で十数年仕事した経験があり、双方の市場を客観的に見てきた立場として共有できることも色々あるかと思いますので、何でも聞いてください。 ──ではさっそく。レオさんがテンセントジャパンに入社されたのは、ちょうどテンセントが日本での展開を本格化するタイミングだったと聞いていますが、それまでの経歴をお教えください。 レオ氏: 初めて来日したのは20年前、早稲田大学の大学院に入った時ですね。それからNTTデータ、次にD2C、DeNA、Bytedance Japan、そ

                                                                              聞けば聞くほど納得しかない……。世界最大のIT企業・テンセント、ゲーム業界制覇への道筋──日本でのヒットこそが、世界的ヒットへの試金石になる!?
                                                                            • Delta Lake とは何か - connecting the dots

                                                                              はじめに 環境情報 Delta Lake (デルタレイク) とは Delta Lake の実体 Delta Lake の構造 Parquet と Delta の相違点 Parquetとは何か Parquetの構造 Parquet と Delta の違い Delta Lake が生まれた経緯: データレイクと Delta Lake の違い データレイクのメリット データレイクの課題 *Parquetで構築した場合 Delta Lake の特徴 ACIDトランザクションの担保 スケーラブルなメタデータ管理 バッチとストリーミングワークロードの統合 タイムトラベル (バージョン管理) CONSTRAINT句のサポート DML (データ操作言語) のフルサポート UPDATE DELETE MERGE 柔軟なスキーマ管理 1. スキーマ エンフォースメント 2. スキーマ エボリューション ストレ

                                                                                Delta Lake とは何か - connecting the dots
                                                                              • 高性能分散SQLエンジン「Trino」最速ガイド - NTT Communications Engineers' Blog

                                                                                こんにちは。なんの因果かNTTコミュニケーションズのエバンジェリストをやっている西塚です。 この記事は、NTT Communications Advent Calendar 2021 22日目の記事です。 5分でわかる「Trino」 「Trino」は、異なるデータソースに対しても高速でインタラクティブに分析ができる高性能分散SQLエンジンです。 以下の特徴を持っており、ビッグデータ分析を支える重要なOSS(オープンソースソフトウェア)の1つです。 SQL-on-Anything: Hadoopだけでなく従来のRDBMS(リレーショナルデータベース)やNoSQLまで、標準SQL(ANSI SQL)に準拠したアクセスをワンストップに提供 並列処理でビッグデータに対して容易にスケールアップ しかも高速(hiveの数十倍) Netflix, LinkedIn, Salesforce, Shopif

                                                                                  高性能分散SQLエンジン「Trino」最速ガイド - NTT Communications Engineers' Blog
                                                                                • Big Data is Dead

                                                                                  For more than a decade now, the fact that people have a hard time gaining actionable insights from their data has been blamed on its size. “Your data is too big for your puny systems,” was the diagnosis, and the cure was to buy some new fancy technology that can handle massive scale. Of course, after the Big Data task force purchased all new tooling and migrated from Legacy systems, people found t

                                                                                    Big Data is Dead