ブックマークしました ここにツイート内容が記載されます https://b.hatena.ne.jp/URLはspanで囲んでください Twitterで共有
![『顔写真から自閉症を判別してみた - Qiita』へのコメント](https://cdn-ak-scissors.b.st-hatena.com/image/square/4b2d3747e35d0c00fe3f133977d7c5197c7474ef/height=288;version=1;width=512/https%3A%2F%2Fqiita-user-contents.imgix.net%2Fhttps%253A%252F%252Fcdn.qiita.com%252Fassets%252Fpublic%252Farticle-ogp-background-412672c5f0600ab9a64263b751f1bc81.png%3Fixlib%3Drb-4.0.0%26w%3D1200%26mark64%3DaHR0cHM6Ly9xaWl0YS11c2VyLWNvbnRlbnRzLmltZ2l4Lm5ldC9-dGV4dD9peGxpYj1yYi00LjAuMCZ3PTk3MiZoPTM3OCZ0eHQ9JUU5JUExJTk0JUU1JTg2JTk5JUU3JTlDJTlGJUUzJTgxJThCJUUzJTgyJTg5JUU4JTg3JUFBJUU5JTk2JTg5JUU3JTk3JTg3JUUzJTgyJTkyJUU1JTg4JUE0JUU1JTg4JUE1JUUzJTgxJTk3JUUzJTgxJUE2JUUzJTgxJUJGJUUzJTgxJTlGJnR4dC1hbGlnbj1sZWZ0JTJDdG9wJnR4dC1jb2xvcj0lMjMxRTIxMjEmdHh0LWZvbnQ9SGlyYWdpbm8lMjBTYW5zJTIwVzYmdHh0LXNpemU9NTYmcz1lZWJlMzcwZjJiYjE1ODM2YTJkYzRmNzM2NzQ2OWVhYw%26mark-x%3D142%26mark-y%3D57%26blend64%3DaHR0cHM6Ly9xaWl0YS11c2VyLWNvbnRlbnRzLmltZ2l4Lm5ldC9-dGV4dD9peGxpYj1yYi00LjAuMCZoPTc2Jnc9NzcwJnR4dD0lNDBZVVVVVVVVVVVVTkEmdHh0LWNvbG9yPSUyMzFFMjEyMSZ0eHQtZm9udD1IaXJhZ2lubyUyMFNhbnMlMjBXNiZ0eHQtc2l6ZT0zNiZ0eHQtYWxpZ249bGVmdCUyQ3RvcCZzPTg3NzBiOTcwYzQ2MjA0NDI2MmM2MDdjOTkwZGIzNzVh%26blend-x%3D142%26blend-y%3D486%26blend-mode%3Dnormal%26s%3D94a070e464630c2829cb80d89a5efbfb)
Innovative Tech: このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 ブリストル大学、Youtility、キングス・カレッジ・ロンドン、ソーレン・プライブッシュ氏による英国の研究チームが発表した「Truth or Dare」は、オンライン上で入力された個人情報が真実なのか虚偽なのかを予測する、機械学習を用いたシステムだ。 結果は、827人を対象にした映画の割引券アンケートにおいて、約89%の精度で真偽判定できた。また、ユーザーは真実を隠すため、主に4つの方法を用いてプライバシーを保護することが分かった。 近年、オンライン上で個人情報を求められるケースが往々にしてある。これらデータは、企業側である処理者において、サービスのパーソナライズ、製品開発、ターゲット広
Statistical Quality Control for Human Computation and Crowdsourcing
Twitterでたびたび告知させていただいていますが、『施策デザインのための機械学習入門』という本を技術評論社さんから出させていただきます。紙版は8月4日発売(本記事公開の翌日)、電子版は7月30日にすでに発売されています。 gihyo.jp www.amazon.co.jp 本書の概要は次の通りです。 予測に基づいた広告配信や商品推薦など,ビジネス施策の個別化や高性能化のために機械学習を利用することが一般的になってきています。その一方で,多くの機械学習エンジニアやデータサイエンティストが,手元のデータに対して良い精度を発揮する予測モデルを得たにもかかわらず,実際のビジネス現場では望ましい結果を得られないという厄介で不可解な現象に直面しています。実はこの問題は,機械学習の実践において本来必要なはずのステップを無視してしまうことに起因すると考えられます。機械学習を用いてビジネス施策をデザイン
施策デザインのための機械学習入門〜データ分析技術のビジネス活用における正しい考え方 作者:齋藤 優太,安井 翔太技術評論社Amazon 著者よりご恵贈いただきました.いくつか読むべき本があったのですが,社内で読書会をするために優先して読みました.感想を書きます. 著者は当時学部生とは思えないスピードでトップカンファレンスに論文を通している齋藤優太氏とサイバーエージェントにて機械学習と経済学 (特に因果推論) の研究を行っている,「効果検証入門」の著者でも知られる安井翔太氏.監修はホクソエム社. 第一線で活躍する若手研究者が日本語で本を書くことがどんなに貴重か (一部の研究者が「日本語の原稿や国内学会は業績ではないので意味がない.運営負荷も高いために縮小・廃止すべきだ」「日本語の専門書は不要であり,原著を読める人間だけが読めばいい.」と主張している背景があります) という話をしても一部の人に
こんにちは,株式会社Ridge-iのリサーチチームの@machinery81です. 今回はNeurIPS2020で発表されたデータセットシフトを扱う機械学習に関連する論文を紹介します. 本記事は,Ridge-i主催の論文読み会で発表した以下の資料に基づいています. TL;DR 機械学習におけるデータセットシフト Covariate Shift Target Shift Concept Shift Domain Shift Sample Selection Bias Taxonomy of NeurIPS2020 papers about Dataset Shift 論文紹介 Rethinking Importance Weighting for Deep Learning under Distribution Shift Importance Weighting for Distribut
ワクチン陰謀界隈、盛り上がってきたな https://t.co/gdXuj38rk9
先日ですが、旧知の*1Grahamianさんのこんなツイートが話題になっていました。 データ分析をするときシンプルに重要なことは「生のデータを眺める」と「データの分布をグラフにする」ことなんじゃないかと思うんですよね。すぐにクロスとかファネルとかコホートとかやりたくなるんですけど、まずは目の前のデータがどんなものか頭にマッピングさせることが長期的に効いてくる感じ。— Grahamian📊データ分析と機械学習 (@grahamian2317) 2021年1月12日 何を当たり前のことを言っているんだと眉を顰める向きもあるかもしれませんが、これだけデータサイエンスやら機械学習(人工知能)やらが喧伝されている昨今においては、少なからぬ現場で「データはどこかのAPIからバルクでダウンロードしてくるor本番DBから転送してくるだけ」「やってきたデータは中身を見もせずにそのまま統計分析や機械学習など
この記事は過去2回にわたる検証記事の続きとなります。 国産ブラウザアプリSmoozはあなたの閲覧情報をすべて外部送信している 続・国産ブラウザアプリSmoozはあなたの閲覧情報をすべて外部送信している 前回の記事では、おすすめ記事機能を有効にしていると、Smoozがユーザーの閲覧しているURL情報を送信してしまうことについて解説しました。 ユーザーID、URLと共に送信されているbc、bt、bdという項目の内容がわからないままでしたが、これもユーザーの情報であるはずだと思い、調査を続けてきました。 ▼これがおすすめ記事のために送信される内容 (この内容は記事の最後にテキスト情報としても掲載しておきます) URL情報に関連するもので 『c、t、d』 と呼ばれそうなものは何か。 ・cのデータ量は飛び抜けて多い ・cとdは一致が見られることがある ・一部が一致しながらもcのほうが長かったりもする
政府は来年度から、少子化対策の一環として、人工知能(AI)を活用した自治体の婚活支援事業を後押しすることを明らかにした。なんでも、《希望条件に合わなくても、相性の良いお見合い相手をAIが探し出してくれる仕組み》が特徴らしいが、通常のマッチングと一体何が違うのか。政府も支援に乗り出した「AI×婚活」の意外な“実力”を探った。 【写真】自称・上川隆也や渡部篤郎に会ってみると…オンライン婚活に励む50歳女性 * * * AIによる婚活支援事業は、2015年3月に導入した愛媛県が先進例として知られる。AIが「希望条件に合わなくても相性の良い人」を見つけることで高い成果を上げたことが話題になり、内閣府や地方自治体、海外からも視察が続いた。現在、愛媛県をモデルケースに採用しているのは18県にのぼる。 内閣府の少子化対策の担当者によると、現在こうしたAIによる結婚支援事業を活用しているのは25県。若
Machine Learning Casual Talkは、機械学習を用いたシステムを実運用している話を中心に、実践的な機械学習に関して気軽に話せる会です。実際に運用していく上での工夫や、知見を共有します。第12回目のテーマは「機械学習プロジェクトに関する「ベストプラクティスとアンチパターン」。機械学習ではデータを扱いますが、そのデータマネジメントがしっかりしていないと破綻してしまうという点について、ゆずたそ氏がお話します。前半は使えないデータとは何かについて。 自己紹介 ゆずたそ氏(以下、ゆずたそ):では、発表を始めたいと思います。「データマネジメントなきMLは、破綻する。〜こんなデータじゃ機械学習できねぇよ問題の処方箋〜」という話をしたいと思います。 はじめに、まず自己紹介です。「yuzutas0」というアカウントをやっています。機械学習の専門家ではないのですが、機械学習を使った施策に
Google Cloud は今年 8 月に Harvard Global Health Institute とのパートナーシップのもとで COVID-19 Public Forecasts を公開しました。このサービスは予測開始日から将来 14 日間における米国内の COVID-19(新型コロナウイルス感染症)陽性者数や死亡者数などの予測を提供しています。この度、本サービスを日本にも拡張し、COVID-19 感染予測(日本版)の提供を開始します。日本版では予測開始日から将来 28 日間のあいだに予測される国内の陽性者数や死亡者数等の予測値を表示します。 米国で提供している COVID-19 Public Forecasts は AI と膨大な疫学的データを組み合わせ、さらに、時系列の予測を扱う斬新な機械学習のアプローチを採用することで実現しました。米国向けのこの初期モデルは今年 8 月に初
OpenAIが発表した言語モデルGPT-3はパフォーマンスの高さから各方面で注目されており、ついにはMicrosoftが学習済みモデルの利用を独占化しました。 私個人の所感としてこれまで学習済みモデルは無料公開するという流れを無視し、(アーキテクチャではなく)学習済みモデルが商品化するのはAIビジネスの一つの転換期と感じています。 深層学習による自然言語処理分野で巨大化していくモデルを十分に学習させるためにはWebデータの活用が大きな役割を果たしています。一方、その量に関する話題はあるものの、利用にあたっての細かな前処理に関する議論はあまりなされていない印象です。 そこで本記事は学習データの構築にフォーカスします。 GPT-3の論文でも言及されている通り、学習データはGoogle Researchが発表したT5のデータを踏襲したと書かれていますので、まずはT5のデータから見て行きましょう。
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く