企業の“Kaggler枠”って実際どうなの? ― データサイエンティスト協会 7th シンポジウム:Kaggleイベントレポート 最近注目を集めている“Kaggler採用枠”やKaggler社内ランク制度の実態はどのようなもので、それによってどのようなメリットがあるのか。実際にKaggler制度を運用する企業の代表者やその制度の下で働くKagglerたちの意見を聞いてみよう。
自然言語処理(NLP)に革命を起こした手法「Transformer」の利用領域がさらに拡大する ディープラーニング以外の機械学習関連技術に対する認知と利用が広がる AI/機械学習の倫理問題はさらに大きくなり、データとプライバシーの規制が強化される MLOpsはさらに成長し、採用する企業が増えていく エッジAIが普及し、エッジデバイスでの機械学習関連処理が当たり前になる それでは早速、1つ目から順に紹介していこう。なお、番号順は優先度/可能性順というわけではなく、単に書いた順である。 1. 自然言語処理(NLP)に革命を起こした「Transformer」の利用領域がさらに拡大する 昨年2019年は「自然言語処理(NLP)がさらに躍進し、活用事例が増えていく」と予測したが、まさに2020年はNLPの年だったと誰もが実感しているのではないだろうか。その躍進の根源となる技術がTransformer
連載目次 昨年10月、同タイトルの記事を公開して好評だった。今回は、2021年に向けた、そのアップデート記事となる。 ディープラーニング(深層学習)を実装する場合、専用のライブラリ/フレームワークを用いるのが一般的だ。ディープラーニングが流行してから直近5年ほどの間に、次々と新しいフレームワークが登場した。現在、主要なものを挙げると、 TensorFlow: 2015年登場、Google製。一番有名で、特に産業界で人気 Keras: 2015年登場、作者がGoogle社員。使いやすくて簡単。TensorFlow 2に同梱され標準API化 PyTorch: 2016年登場、Facebook製。この中では新興だが、特に研究分野で人気急上昇中 Chainer: 2015年登場、日本のPreferred Networks製。2019年12月に開発を終了し、PyTorchへの移行が推奨されている な
連載目次 用語解説 機械学習における内挿(Interpolation)とは、あるデータを使って訓練した機械学習モデルにおいて、その訓練データ(入力データおよび教師ラベル)の数値の範囲内で出力を求めることを指す。また外挿(Extrapolation)とは、その範囲外で求めることを指す。 内挿/外挿という(元々は数学の)用語は、「機械学習モデルの限界」や「誤解を防ぐための注意点」として言及されることが多い。特に機械学習に不慣れな一般人や機械学習の初心者は、内挿と外挿を意識して区別していないため、機械学習モデルのことを「どんな入力データに対しても同じ精度/信頼性で出力できるもの」と誤解しやすい。例えば機械学習モデルを訓練して90%の精度が出たら、「そのモデルを使えば常に90%の精度が出る」と考えがちである。しかしその精度は、入力データが「内挿」であればの話である。もし訓練時に入力したことがない範
連載目次 用語解説 機械学習におけるバーニーおじさんのルール(Uncle Bernie's rule)とは、ニューラルネットワークの重みパラメーターの数に対して、最低限その10倍以上の訓練データ量が必要となる、とする経験則のことである。訓練データの数量の目安とされるが、定理ではなく、あくまで経験則である。その出典(後述)も古く(=最近のディープラーニングに適用できるかどうかは不明で)、数学的に証明されているわけでもないので注意が必要だ。 孫引用になってしまうが1990年(NIPS 1989)の論文の一節を引用すると、 Rules of thumb suggesting the number of samples required for specific distributions could be useful for practical problems. Widrow has sug
Google Cloudは2020年7月14日(米国時間)、アナリティクスサービス「BigQuery」のマルチクラウド対応を発表した。Amazon Web Services(AWS)やMicrosoft Azure上のデータを動かすことなく、BigQueryによるマルチクラウドのデータ分析ができる。 Google Cloudは同日、AWSの「Amazon S3」に対応したプライベートα版の提供を開始した。Azureへの対応は近い将来(「soon」)に行うという。 BigQuery Omniでは、Google Cloudがマルチクラウド対応を進めるマネージドKubernetesサービス、「Anthos」を活用する。BigQuery OmniとしてAWSやAzureに展開するAnthosクラスタ上で、BigQueryのクエリエンジンである「Dremel」をマネージドサービスとして動かす。その上
時系列予測のベストプラクティスを共有するGitHubリポジトリを開設、Microsoft:PythonやR向け Microsoftは、時系列予測のベストプラクティスを共有するためのGitHubリポジトリを開設した。PythonやRを使っている開発者に向けたものだ。 Microsoftの「R」コミュニティー向けブログサイト「Revolutions」は、2020年4月14日(米国時間)、時系列予測のベストプラクティスを共有するためのGitHubリポジトリ「Time Series Forecasting Best Practices & Examples」を開設したと発表した。 Microsoftはこのリポジトリについて、README.mdで次のように説明している。 「時系列予測は、データサイエンスで最も重要なトピックの一つだ。的確な意思決定と効果的な資源配分を行うために、ほぼ全ての企業には未来
ガートナーの米国本社発のオフィシャルサイト「Smarter with Gartner」と、ガートナー アナリストらのブログサイト「Gartner Blog Network」から、@IT編集部が独自の視点で“読むべき記事”をピックアップして翻訳。グローバルのITトレンドを先取りし「今、何が起きているのか、起きようとしているのか」を展望する。 人工知能(AI)を導入する企業が増えている。「Gartner 2019 CIO Agenda Survey」によると、既に世界のCIO(最高情報責任者)の14%がAIを導入済みであり、48%が2019年または2020年に導入すると回答していた。 「AIの導入が進んでいるが、AIのビジネス効果やメリットにまだ懐疑的な企業もある。われわれは現在、AIの導入における3つの大きな障壁を目の当たりにしている」と、Gartnerのアナリストでシニアディレクターを務め
機械学習/人工知能(AI)の活用領域は広まるばかりだ。期待が高まる一方で、「人の生命に影響を及ぼしかねない事故や不適切な判断につながるのではないか」と議論を呼ぶこともある。 2019年11月19日に開催された「@IT ソフトウェア品質向上セミナー 2019 冬~不確実性が高まるDX時代のソフトウェアテスト/品質保証はどうあるべきか」の基調講演において、AIプロダクト品質保証コンソーシアム 副運営委員長であり、国立情報学研究所 准教授を務める石川冬樹氏は、「不確実性」をはじめとするAIの特質を踏まえながら、どのように品質を保証していくかについてのヒントを紹介した。 「帰納法」で作られる機械学習システムにまつわる品質保証上の課題 石川氏はソフトウェア工学に関する研究に携わりつつ、機械学習システム開発、運用に関わる工学的手法の確立、体系化に取り組む「日本ソフトウェア科学会 機械学習工学研究会」(
業界全体で取り組むべき問題 鈴木 役所が業界団体に向けても指導している、というのは、リクナビ1社の問題ではないことを、担当官庁がよく分かっていることです。みんなで規律を失っていたんじゃないか、リクナビは氷山の一角で実はもっとどぶ川のような不適切な状況があるのではないか、と。今、警告が出ているわけです。 直ちに改善に向かわなければ、当該業界だけではなくユーザーである契約企業も一体だ、とね。そうすると経済団体に加盟する大企業が軒並み、何らかの形で法的評価の対象になっていくんだろうと思います。少なくとも個人情報保護法は契約企業も一体として評価の対象にしていかねばなりません。 それに、データベースに収まっている個人データを社員が無断提供していることが立証されれば、「データベース提供罪」で刑事事件となります。ここはもう一度、人事部がしっかり点検すべきところだと思います。 板倉 先ほどの個人情報保護委
ご注意:本記事は、@IT/Deep Insider編集部(デジタルアドバンテージ社)が「deepinsider.jp」というサイトから、内容を改変することなく、そのまま「@IT」へと転載したものです。このため用字用語の統一ルールなどは@ITのそれとは一致しません。あらかじめご了承ください。 日本マイクロソフト主催の勉強会「DEEP LEARNING LAB: AI開発を円滑に進めるための契約・法務・知財」が1月25日に開催された。 AIに関する法的な課題となる事例や、AIを「発注するユーザー」と「作るベンダー」はどう契約を結べばよいのか、について、具体的にガイドラインを示しながら説明された。実際にAIを取り組もうとしている企業にとっては参考になる話が多く、筆者自身も大いに参考になった。 その内容をすべてお伝えしたいところだが、3時間ほどの長丁場であり、しかも残念ながら動画配信などもなかった
どのようにデータ基盤を作ったのか?「俺の考えた最強のデータ基盤」は使われない:開発現場に“データ文化”を浸透させる「データ基盤」大解剖(3)(1/2 ページ) 「ゼクシィ縁結び・恋結び」の開発現場において、筆者が実際に行ったことを題材として、「データ基盤」の構築事例を紹介する連載。今回は、「データ基盤」の開発プロセスについてお伝えします。 「使われるデータ基盤」を構築するために筆者が取り組んだ試行錯誤を紹介する本連載『開発現場に“データ文化”を浸透させる「データ基盤」大解剖』。前回はデータパイプラインを支える基盤システム設計について解説しました。第3回となる今回は開発プロセスについてお伝えします。 なお、技術要素としてはPythonやBigQuery、ツールとしてGitHubやJIRAを扱いますが、他の手段でも代替可能な内容です。細部にとらわれずにご自身の担当する業務や組織に当てはめながら
Googleは2018年7月25日(米国時間)、Google Cloud Platform(GCP)で、ユーザーがSQL文を書くことにより機械学習が実行できる「BigQuery ML」を、ベータ版として提供開始したと発表した。 Googleは2018年7月25日(米国時間)、Google Cloud Platform(GCP)で、ユーザーがSQL文を書くことにより機械学習が実行できる「BigQuery ML」を、ベータ版として提供開始したと発表した。 Googleは新機能を、同社がGCPで進める「AIの民主化」の一環だと説明した。「データを活用した機械学習あるいは予測分析が、RやPythonの書ける人たちだけしかできないのでは、人材不足を解消できず、ビジネスの現場における機動的なデータ活用も妨げられる」としている。 GoogleはAIの民主化への取り組みとして、「Cloud AutoML」
少ない学習データでも機械学習の効果を高める、NECが機械学習向け技術を開発:学習効果を高める3つの技術 NECは、学習データが少ない場合の機械学習効果を高める技術を開発した。データ収集の初期段階やデータ収集コストが高い環境のように十分な学習データが得られない状況でも、機械学習技術を活用できるという。 NECは2018年7月10日、学習用のデータ量が十分に得られていない段階からでも機械学習を活用可能とする技術を開発したと発表した。これらの一部は、NEC-産総研 人工知能連携研究室、国立情報学研究所、科学技術振興機構、統計数理研究所、Max Planck Institute for Intelligent Systemsとのオープンイノベーションによって得られた成果である。 最近はディープラーニングをはじめとする機械学習技術の利用が進んでいる。ただこれまでの機械学習技術では、その効果を十分に得
システム、プロセス、カルチャーをいかにエンジニアリングするか 本連載『開発現場に“データ文化”を浸透させる「データ基盤」大解剖』では「データ基盤」の構築事例を紹介します。具体的には、オンライン婚活サービス「ゼクシィ縁結び」ならびにその姉妹サービス「ゼクシィ恋結び」の開発現場において、筆者が実際に行ったことを題材としています。 データ基盤を実際に構築するのは容易ではありません。構築したデータ基盤を実際に利用し続けてもらうのはさらに難しいことです。 多くの関係者がデータを加工すると、似ている意味を持っていても微妙に異なるデータが生成されてしまい、どのデータが正しいのか誰も分からなくなってしまいます。きちんと全員に使われるためにはデータの持つ意味や加工ロジックを誰かが整理しなければいけません。 また、モダンなツールを使って派手なダッシュボードを構築しても、それだけでは1週間後には誰も見なくなって
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く