タグ

データに関するnekonyantaroのブックマーク (14)

  • イーロンマスクは何を見ている|tanu

    SpaceX、Tesla、X、xAIの共通点は2つある。1つはイーロンマスクの会社であること。もう1つはリアルタイムデータ収集装置に転用できる点だ。AIの学習データが枯渇した世界で枯渇しないリアルタイムデータを持つことの意味を考えてみる。 人工知能系のトップカンファレンスNeurIPSで元OpenAIのIlyaがキーノート発表をした。 "We have but one internet" Ilya Sutskeverという言葉から、Ilyaは学習フェーズが終わったと認識している事がわかる。著作権関係で外に出てない高品質なデータもあるはずだがそこも含めてデータを集めて学習をするフェーズ自体が終わったという意味だ。これはfine tuningを基軸とした希少データの利活用さえも過去のものであるという示唆を与えている。 今後は推論スケーリング(一度出した答えを反芻しより精度の高い答えを出すこと)

    イーロンマスクは何を見ている|tanu
    nekonyantaro
    nekonyantaro 2025/01/03
    (情報の)入口を制する者が覇者となる、という話か。
  • デイリーポータルZ・林さんがリクルート流「データマネジメント」を深掘り。そもそもデータって大事なんですか……? - はてなニュース

    デイリーポータルZ」代表の林雄司です。これまではウェブマスターとか編集長と名乗って、一企業のなかでサラリーマンとしてサイトを運営していましたが、2024年1月にとうとう独立してしまいました。これからは、自分でコンテンツを作るだけじゃなく、営業とか経営をして、きちんとお金を稼がないといけません。 デイリーポータルZは、これまで大きな企業のもとで運営してきましたが、正直なところ20年余りずっと赤字でした。独立して赤字だとサイトを続けられないので、なんとか自分でも稼ごうといろいろやっていますが、けっこう難しいことだと身にしみています。 独立してみたら想像以上に多くの方や企業に応援していただき、驚くべきことに今は何とか黒字を保っています。でも、これからずっとこの状況が続くかどうかは分かりません。だから、もっとちゃんと稼がないとと思って、そのためにはどうすればいいんだろう、といろいろ考えたり、お金

    デイリーポータルZ・林さんがリクルート流「データマネジメント」を深掘り。そもそもデータって大事なんですか……? - はてなニュース
    nekonyantaro
    nekonyantaro 2024/09/28
    アナリティクスエンジニアの仕事は「データマネジメント」と呼ばれる。これ、知っておいてよさそう。
  • 「データエンジニアの市場価値」を上げたい。リクルートグループのニジボックスが“有料級のインプット教材”をつくるワケ - はてなニュース

    「全ての企業のサービスを成長させる」をミッションに掲げ、WebサイトやアプリのUI/UX改善をはじめ、技術力でサービスやプロダクトの成長を支援してきた、リクルートグループのニジボックス。 そんな同社が今注力するのは「データ人材」の育成です。具体的には、BIエンジニア、データエンジニアなど、データ領域でリクルートとともにプロダクトを「共創」できる専門家集団の立ち上げを進めています。その背景には、リクルートでプロダクトのデータ利活用が急速に進んだ結果、「共創」ニーズに対して人材が圧倒的に不足している、という課題がありました。 リクルートグループにおいて、データ実務が担えるエンジニアを、スピーディーに育てなければならない。そのために社内で活用されているのが、「インプットプログラム」と名付けられた新人エンジニアの研修プログラムです。プログラムを修了すれば、リクルートグループの実務で通用する知識やス

    「データエンジニアの市場価値」を上げたい。リクルートグループのニジボックスが“有料級のインプット教材”をつくるワケ - はてなニュース
    nekonyantaro
    nekonyantaro 2024/09/28
    「全ての企業のサービスを成長させる」
  • 「住所は英数字もすべて全角で入力してください」はなぜそうなったのか - Qiita

    Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? Webサービスのフォームに住所を入力するとき、丁目や番地などを入れる欄について、数字やハイフンを全角で書かなければいけない「全角縛り」をやっているフォームをよく見ます。半角文字を入力してしまってエラーになったり、咄嗟に変換方法を思い出せなかったり、全角と半角の見分けが付きづらかったり、「全角縛り」であることが明示されていなかったり、「ハイフン」としてどの文字を使うべきかわからなかったり……と、陶しさを感じることが多くあります。 「住所は全角のみ」(数字やハイフンも絶対に半角を受け付けない)という仕様がどういう経緯で生まれて、どう広まっ

    「住所は英数字もすべて全角で入力してください」はなぜそうなったのか - Qiita
    nekonyantaro
    nekonyantaro 2024/08/04
    セキュリティ面や既存システムとの互換も含めて内部データを全角に統一したいなら、入力フォームのほとんどがUTF-8である現状では「ユーザーが入力した文字を全角に変換してから保存」が最適解だと思うのですが。
  • シールを貼ったらスピーカーの音がよくなる!? 産総研の実験データからも明らかになったAdPower Sonicの威力

    シールを貼ったらスピーカーの音がよくなる!? 産総研の実験データからも明らかになったAdPower Sonicの威力
    nekonyantaro
    nekonyantaro 2022/10/30
    今回は産総研の生命工学の研究者がデータを出したようですが、産総研には音響計測の専門家もいたはずですから、その辺まで巻き込んで精査して貰いたいところです。
  • Twitter可視化システムを作ってみたら日本に笑顔が溢れていた話 - NTT Communications Engineers' Blog

    はじめに はじめまして。 プラットフォームサービス部 データプラットフォームサービス部門の森分です。 もともと私は、NTT Comのクラウドサービスをベースにした法人向けソリューションの個社別運用やインフラ関連のプロジェクトマネージャ業務を担当しておりました。 最近はSmart Data Platform(以下、SDPF)アーキテクトなる、お客様課題の解決やNTT Comのビジネスの中でSDPFの活用を推進する部隊に参画しています。 データ利活用を支えるSDPFのアーキテクトがデータ利活用に詳しくなければ立つ瀬がありません。 そうならないように日々研鑽を積んでいるわけですが、その中で作ったTwitter分析システムっぽいもののご紹介が稿の趣旨となります。 来のデータ利活用プロジェクトでは、課題および仮説をまず明確にして、それに応じたデータ解析を進めていくのですが、稿では堅苦しいもの

    Twitter可視化システムを作ってみたら日本に笑顔が溢れていた話 - NTT Communications Engineers' Blog
    nekonyantaro
    nekonyantaro 2022/06/21
    興味深い。たしかに最近のTwitterユーザーは絵文字多用する気はする。特に「にっこり」系は気軽に使われるからデータ抽出するといっぱい掛かるのは納得。
  • 厚労省が公式データ修正→「ワクチン有効」は嘘でした…の衝撃。|森田 洋之

    国の統計で未接種と比べ、接種済の方が陽性になる割合が低いことが示されています。未接種者と接種者では感染対策意識に差があるので割り引く必要がありますが、県の高齢者施設の調査でも、3回目接種済の高齢者の方が感染割合が低く、行動に差が無い層であることを考えると予防効果は実証されています https://t.co/2emNjdf0o2 pic.twitter.com/Ps3TlThLpB — 熊谷俊人(千葉県知事) (@kumagai_chiba) April 25, 2022 ということなのですが…なんと!このデータが「インチキ」だったと、厚労省が正式に公表したのです。 厚労省は毎週、ワクチンに関するデータを公開するのですが、さる5月11日の発表から重大なデータ修正。 で、その結果がこちら。 出典:第83回(令和4年5月11日) 新型コロナウイルス感染症対策 アドバイザリーボード https:/

    厚労省が公式データ修正→「ワクチン有効」は嘘でした…の衝撃。|森田 洋之
    nekonyantaro
    nekonyantaro 2022/05/18
    統計で「うそ」をつかなくても都合良くミスリードできる良い例。未接種、2回接種、3回接種の母数の違いを無視して全部「人口」を母数にしているあたりが謎。
  • 総務省「誰でも使える統計オープンデータ」無料オンライン講座スタート

    総務省は1月11日、データサイエンスのオンライン講座「誰でも使える統計オープンデータ」を、MOOC講座プラットフォーム「gacco」で開講した。社会人・大学生に、統計オープンデータを活用したデータ分析の手法を解説する講座で、3月7日まで受講できる。 週約3時間×4週間の内容。政府統計の総合窓口「e-Stat」、総務省と統計センターが提供する統計GISAPI機能などを使い、データ分析の手法を学べる。 講師は「統計学が最強の学問である」の著書で知られる統計家の西内啓氏や、総務省統計局の担当者など。 2017年6月に初開講して以来、断続的に開講し、のべ約2万8000人が受講した講座。 関連記事 政府が「ワクチン接種状況ダッシュボード」公開 性別や都道府県別に可視化 政府が、全国の新型コロナワクチンの接種状況を一覧にまとめた「ワクチン接種状況ダッシュボード」を公開。統計情報をまとめたCSVやJS

    総務省「誰でも使える統計オープンデータ」無料オンライン講座スタート
    nekonyantaro
    nekonyantaro 2022/01/12
    自分は年齢的に、若いときにきちんと学んでおくべきだったとは感じるが、今からでも遅くない。できことからやろう。
  • 初学者に教えたい、MicrosoftがGitHubで公開している教材が最高だった! - Qiita

    はじめに エンジニアやデータサイエンティストの人材育成のためのオープンソースな教材を探していたらMicrosoftGitHubでかなり質の高い教材をweb開発、データサイエンティスト、機械学習、IoTの四項目を対象に提供してるのを発見したため共有したいと思う。 正直、マイクロソフトと聞くとGoogleやらFacebookに比べていけてないイメージを持っていたけど、実際にMicrosoftGitHubレポジトリを見て、彼らはここ数年で大きく変わったように思える。特に人材育成や学習教材に関しては世界一かもしれないなんて思っています。記事では筆者が自信を持っておすすめするMicrosoftのオープン教材を紹介するのでぜひ自身の勉強や人材育成に生かしてもらえれば記事を執筆した甲斐があります。(もちろん僕がお勧めしているだけでなくてGitHubのスター数も多く世界的に認められています!) こ

    初学者に教えたい、MicrosoftがGitHubで公開している教材が最高だった! - Qiita
    nekonyantaro
    nekonyantaro 2021/11/21
    技術文書に関しては言語の壁は機械翻訳で「だいたい」なんとかなる。
  • 個人情報テストデータジェネレーター

    アプリケーションのテストなどで利用できる、リアルな架空の個人情報データ(疑似データ)を生成するツールです。

    個人情報テストデータジェネレーター
    nekonyantaro
    nekonyantaro 2021/09/15
    「個人情報テストデータジェネレータ」」これ、個人的に欲しかった奴だ。
  • 犯罪者は「IQが"中の下"の男性」に集中している

    医師や障害者家族は、 よく「知的障害者の犯罪率は低いです!差別しないでください!」と主張する。 その主張は正しい。 犯罪率をIQ70未満とIQ70以上で比較すると、IQ70未満のほうが低い。 ポリコレ的にも、いい感じのデータである。 しかし「健常者こそ危険!」という主張に対しては反論したい。 IQ70以上を全部健常者として括るのは雑過ぎるからである。 犯罪者は、IQ70~IQ89の男性(いわゆるギリ健の男性)に集中している。 IQ70未満は犯罪が行えないため犯罪率が低い。 IQ90以上は犯罪を行う必要性がないため犯罪率が低い。 IQ70~IQ89は、IQ90以上と違って"困っている"が、IQ70未満と違って犯罪の実行に必要なだけの知能は持っている。 IQ70~IQ89の犯罪に走らない層は、性格的に自責自罰の傾向があるようだ。 困って苦しんでいるし、犯罪・攻撃行為(他責他罰)にも向かえないの

    犯罪者は「IQが"中の下"の男性」に集中している
    nekonyantaro
    nekonyantaro 2021/08/01
    それぞれの「知的段階」ごとの犯罪率のデータも男女別の数字も出さずに雑な展開。「境界知能」の問題はつい最近もNHKで取り上げていたが、犯罪については「可能性」でしか述べていなかった。
  • 東京の感染者数を5週間ぶん予測した (6月28日版)

    (※ 新しい予測を公開しました→ 東京の感染者数を5週間ぶん予測した (7月5日版)) 東京の感染者数を5週間ぶん予測した (6月21日版) の続き。まえがきは前回の記事でご覧ください。 前回の予測はかなり高い精度で当てることができました。日曜までの週単位では 3368人 の予測に対して 3342人 の現実となりました。 今回は、宣言解除による~6月27日の週の人流増を反映し、~7月11日の週の予測を上振れさせました。2人での飲酒が解禁になった影響は、ある程度は人流の増加に織り込み済みとみなしています。ただし、「3週前の感染者数の最大値」を予測に用いている性質上、上振れした週の感染者数は都民を緊張させ、3週後のブレーキにつながるので、全体としての影響は限定的です。新たに追加した~8月01日の週では、5月の大阪並みの緊張感にワクチンの効果も加わって急減速するも、デルタ株を減らすにはまだ及ばな

    東京の感染者数を5週間ぶん予測した (6月28日版)
    nekonyantaro
    nekonyantaro 2021/06/29
    今は300人台だが、これが指数関数の恐ろしさと実感する。7月中にはほぼデルタに置き換わるのか。
  • 全国民に配るべき!総務省が示した「データ入力の統一ルール」|Excel医ブログ

    2020年12月、総務省より 【機械判読可能なデータの表記方法の統一ルール】が策定されました。 統計表における機械判読可能なデータの表記方法の統一ルールの策定 https://www.soumu.go.jp/menu_news/s-news/01toukatsu01_02000186.html 2020年11月に河野太郎 行政改革担当大臣のツイートが話題となりました。 その後正式に統一ルールが公開された形です。 各省庁がネット上で公開する統計を機械判読可能にするために、データの表記方法を統一させます。「政府統計の総合窓口(e-Stat)」で日から12月1日までの間、表記方法案に関する意見照会を行います。研究者をはじめ、皆様のご意見をお待ちしています。https://t.co/h07tCTDazc — 河野太郎 (@konotarogomame) November 25, 2020

    全国民に配るべき!総務省が示した「データ入力の統一ルール」|Excel医ブログ
    nekonyantaro
    nekonyantaro 2021/06/14
    「機械可読なデータ」を基に「人間に容易に可読な表」を作るという仕事の切り分けをしないと、やたら横に長くて直感的な理解が困難な表が出来てしまう。
  • 全人類に告ぐ。セル結合をやめろ。 - hibitの技術系メモ

    (12/13追記 タイトルや表記に過剰な表現があり、セル結合を全否定するかのような印象を与えてしまいました。そのような意図はなかったのですが、補足記事を書きましたので、併せて読んでいただけると幸いです。すみませんでした。) 人類よ、なぜそんなにセル結合を使いたがる? それが罪深い行為とも知らずに……。 思わず神視点になってしまいましたが、この世界にはExcelのセル結合を無意味に使いたがる人が多すぎます。いや、メリットがないことはないのですが、それを余裕で上回るデメリットがあることを意識している人が少ないように思われます。データというのは、コピペしやすいこと、集計しやすいこと、数え間違いをしづらいことが第一なので、それを損ねるような行為は許されざる大悪というべきでしょう。断固として弾劾していきます。 綺麗なデータとは ここにエクセルで作った、同じソースから作成した3種類のデータ(東京都の区

    全人類に告ぐ。セル結合をやめろ。 - hibitの技術系メモ
    nekonyantaro
    nekonyantaro 2018/12/10
    Aの形式は人の目で見るのに適し、Cの形式はデータを利用するのに適している。マルチシートでシート間の参照が使えるので元データはCの形式のシートに保管し、Aの形式のシートから参照すれば解決。
  • 1