ブックマーク / atmarkit.itmedia.co.jp (28)

  • Pythonで機械学習/Deep Learningを始めるなら知っておきたいライブラリ/ツール7選

    プログラミング言語「Python」は機械学習の分野で広く使われており、最近の機械学習/Deep Learningの流行により使う人が増えているかと思います。一方で、「機械学習に興味を持ったので自分でも試してみたいけど、どこから手を付けていいのか」という話もよく聞きます。連載「Pythonで始める機械学習入門」では、そのような人をターゲットに、Pythonを使った機械学習について主要なライブラリ/ツールの使い方を中心に解説していきます。 連載第1回は、ライブラリ/ツール群の概要説明からです。各ライブラリ/ツールの詳細な使い方や実用上のテクニックは連載第2回以降で解説していきます。ここで挙げるライブラリ/ツール群は「普段、筆者が仕事で使っているもの」という基準で選定されています。そういう意味で全く網羅的ではなく、独断と偏見であることを自覚していますので、ご了承ください。 連載初回である稿で

    Pythonで機械学習/Deep Learningを始めるなら知っておきたいライブラリ/ツール7選
  • MicrosoftとFacebook、AIモデルの相互運用性を実現する共同プロジェクト「ONNX」を発表

    MicrosoftとFacebookは2017年9月7日(米国時間)、異なるディープラーニングフレームワーク間でAI(Artificial Intelligence:人工知能)モデルの相互運用性を実現する共同プロジェクト「ONNX(Open Neural Network Exchange)」を発表した。 ONNXは、Microsoftのディープラーニングツールキット「Cognitive Toolkit(旧称CNTK)」をはじめ、オープンソースのディープラーニングフレームワークである「Caffe2」「PyTorch」などをサポートする。 ディープラーニングフレームワークは、ニューラルネットワークを表現する計算グラフの作成、実行を容易にするインタフェースを開発者に提供する。それぞれのフレームワークはその点で機能的には似ている。しかし、それぞれ固有のフォーマットでこうしたグラフを表現することから

    MicrosoftとFacebook、AIモデルの相互運用性を実現する共同プロジェクト「ONNX」を発表
  • 第1回 OpenCVとは? 最新3.0の新機能概要とモジュール構成

    ご注意:記事は、@IT/Deep Insider編集部(デジタルアドバンテージ社)が「www.buildinsider.net」というサイトから、内容を改変することなく、そのまま「@IT」へと転載したものです。このため用字用語の統一ルールなどは@ITのそれとは一致しません。あらかじめご了承ください。 1. OpenCV 1.1 OpenCVとは OpenCV(正式名称: Open Source Computer Vision Library)は、オープンソースのコンピューター・ビジョン・ライブラリです。コンピューターで画像や動画を処理するのに必要な、さまざま機能が実装されており、BSDライセンスで配布されていることから学術用途だけでなく商用目的でも利用できます。加えて、マルチプラットフォーム対応されているため、幅広い場面で利用されていることが特徴です。 OpenCVは、Intelで開発さ

    第1回 OpenCVとは? 最新3.0の新機能概要とモジュール構成
  • LSTMとResidual Learningでも難しい「助詞の検出」精度を改善した探索アルゴリズムとは

    連載「Deep Learningで始める文書解析入門」では、Deep Learningの中でも時系列データを扱う「Recurrent Neural Network」(以下、RNN)と、その応用方法としてリクルートグループ内で取り組んでいる原稿校正(誤字脱字の検知)の実現方法について解説してきました。 連載第1回ではRNNの概要や活用例について述べ、第2回の前回では、「誤字脱字の検知」というタスクの概要を紹介し、それに対してRNNをどのように活用したかを紹介しました。 前回の最後でも述べましたが、誤字脱字の検知という課題に対して始めからRNNがうまく機能したかというと、答えは「ノー」です。「文字の系列から次の単語を予測するRNNを“異常検知”的に利用する」こと自体は、うまく機能しているようでした。 しかし、英語に比べ日語の文法は思った以上に複雑で、特に、前回『「誤字脱字」の3つの定義』の

    LSTMとResidual Learningでも難しい「助詞の検出」精度を改善した探索アルゴリズムとは
  • Googleフォームで入力したデータをスプレッドシートに追加しGmailで知らせる

    Googleフォームで入力したデータをスプレッドシートに追加しGmailで知らせる:Excel VBAプログラマーのためのGoogle Apps Script入門(終) Googleが提供するGoogle Apps Script(GAS)のプログラミングで、Google Apps(主にスプレッドシート)を操作する方法を解説していく連載。最終回は、Googleフォームで入力したデータをスプレッドシートに追加しGmailで知らせる方法を紹介する。 連載「Excel VBAプログラマーのためのGoogle Apps Script入門」では、Googleが提供する「Google Apps Script」(GAS)のプログラミングで、「Google Apps」を操作する方法を「Google Sheets」(スプレッドシート)を中心に解説している。 最終回となる今回は、「フォーム」を使用する。フォー

    Googleフォームで入力したデータをスプレッドシートに追加しGmailで知らせる
    toyama0919
    toyama0919 2017/08/28
    ほう
  • できる人のGoogle検索テクニック

    インターネットで何か調べようとするとき、まず「Google検索」、という人が多いのではないだろうか。中でも、単語を入力する、もしくはスペースを空けて複数の単語を入力して検索するだけという人が多いようだ。 しかし、検索結果に満足できない、期待したページが検索上位に表示されない(ヒットしない)、といったこともまた多くないだろうか? 記事では、そのような時に便利なGoogle検索のテクニックを幾つか紹介したい。例えば、余計な単語を検索対象から除外したり、特定の語句がタイトルやURLなどに含まれるコンテンツのみ検索したり、といったことが可能だ。 「+」「AND」で複数キーワードを含むWebページを検索 AND検索すなわち指定の全キーワードを含むコンテンツの検索を行うのに、「スペース(空白文字)」を空けて複数キーワードを並べて検索、というのは、ごく普通に利用しているテクニックだろう。さらに明示的に

    できる人のGoogle検索テクニック
  • コンテナストレージの共通仕様にも着手、あらためて、CNCFは何をどうしようとしているのか

    コンテナストレージの共通仕様にも着手、あらためて、CNCFは何をどうしようとしているのか:CNCFのトップ2人に聞いた CNCFは、クラウドネイティブアプリケーションの世界のデファクト標準を作り上げたいのか、それともコンポーネントベースでCloud Foundryの競合勢力を構築したいのかが、分かりにくい部分がある。そこでCNCFのエグゼクティブディレクターであるダン・コーン氏と、COOであるクリス・アニズィック氏に、あらためて同組織のやろうとしていることを聞いた。 Kubernetesを最初のホスティング対象プロジェクトとし、クラウドネイティブアプリケーションのプラットフォームの1つの姿をコンポーネントベースで追求する組織として設立されたCloud Native Computing Foundation(CNCF)。数回インタビューをしてきたが、結局この組織は、クラウドネイティブアプリケ

    コンテナストレージの共通仕様にも着手、あらためて、CNCFは何をどうしようとしているのか
    toyama0919
    toyama0919 2017/07/24
    ロックイン気にするよりも、それを恐れてオンプレで 頑張るほうが愚かという状況にもうなっちゃってるよなぁ。インフラ的なコストメリットが出ない企業は別にしても
  • Computer Vision API

    連載目次 Computer Vision APIは、マイクロソフトのCognitive Servicesが提供するAPIの1つで、画像の分析、画像内のテキストの読み取り、有名人やランドマークの識別、サムネイル生成などを行える。 Computer Vision APIが提供する機能 Computer Vision APIを使うと次のような処理を行える。 これらの機能が幾つかのAPIを介して提供される。提供されるAPIについては「Computer Vision API - v1.0」ページで一覧できる。このページはインタラクティブなAPIドキュメントとなっていて、APIテスト用のコンソールを表示することで、実際のデータ(画像ファイルのURL)を指定してAPIの挙動を確認できる。ただし、試してみるだけでもAzureポータルでComputer Vision APIのサブスクリプションを追加して、そ

    Computer Vision API
  • 音声→テキスト変換のSpeech Recognition APIの使い方と、2017年4月におけるWatson、Google Cloud Speech APIとの違い

    稿は2017年4月12日の情報を元に作成しています。この記事内で使用している画面やコグニティブサービスの仕様は変更になっている場合があります。 連載「認識系API活用入門」では、マイクロソフトのコグニティブサービスのAPIを用いて、「現在のコグニティブサービスでどのようなことができるのか」「どのようにして利用できるのか」「どの程度の精度なのか」を検証していきます。連載第1回の「Deep Learningの恩恵を手軽に活用できるコグニティブサービスとは」では、コグニティブサービスとは何かの概要とAPIを使うための準備の仕方を説明しました。 今回はSpeech Recognition APIを試します。 Speech Recognition APIとは Speech Recognition APIは、前回のText To Speech APIの逆で、音声データをAPIに渡すとその音声デー

    音声→テキスト変換のSpeech Recognition APIの使い方と、2017年4月におけるWatson、Google Cloud Speech APIとの違い
  • Dell EMCがTensorFlow、Caffe、MXNetのパフォーマンス比較をNVIDIAのGPU「Tesla P100」で行った理由

    Dell EMCがTensorFlow、Caffe、MXNetのパフォーマンス比較をNVIDIAのGPU「Tesla P100」で行った理由:AI/Deep Learning分野で企業に届けたい価値とは Dell EMCがAI/ディープラーニング分野での取り組みを活発化させている。オープンで標準的な技術を使って企業の課題をシンプル化してきた同社は、AI/ディープラーニング分野にどう取り組むのか。 「NVIDIA Tesla P100」の比較検証レポートが話題に 2017年1月、GPGPUやHPC業界で静かに話題になったレポートがある。NVIDIAのPascal世代のGPUを搭載した「NVIDIA Tesla P100」(以下、P100)が実稼働環境でどのような性能を発揮するかについて、実機を使ったパフォーマンス比較検証レポートが発表されたのだ。 2016年4月に発表されたP100は、アーキ

    Dell EMCがTensorFlow、Caffe、MXNetのパフォーマンス比較をNVIDIAのGPU「Tesla P100」で行った理由
  • リクルートが社内で育てたDeep Learning/機械学習API群「A3RT」を無料で公開した理由

    近年、大量のデータからシステムが「学習」を行い、その中に潜むパターンやルールを自動的に見つけ出す「機械学習」の活用に向けた取り組みが盛んだ。機械学習によって自動的に作成されたモデル(データのパターンやルール)を、未知のデータに対して適用することで、ヒトの手を介した分析では不可能な、複雑で大規模なデータの分類や、より精度の高い予測ができ、その成果はあらゆるジャンルのサービスやビジネスへ応用できると期待されている。 リクルートテクノロジーズは2017年3月16日、これまで同社がグループ内で開発と活用を進めてきた「機械学習」「Deep Learning」にまつわるサービス群「A3RT」(Analytics & Artificial Intelligence API via Recruit Technologies、読みは「アート」)の無料公開を開始した。 スタート時に利用できるのは、以下の6つの

    リクルートが社内で育てたDeep Learning/機械学習API群「A3RT」を無料で公開した理由
    toyama0919
    toyama0919 2017/03/31
    デブサミで言ってたやつか
  • 「Deep Learningをサービスに導入したい!」人に周囲が泣かされないために

    リクルートテクノロジーズにおける検索改善施策の事例を通じて、Deep Learningをはじめとした機械学習の強みと限界を探る連載「機械学習活用プロジェクト大解剖」。 前回は、検索改善のためのアーキテクチャ(QueryRewriter)とDeep Learningを導入する動機を紹介しました。今回は、「Deep Learningの導入のために何が必要であり、なぜQueryRewriterが開発されたのか」について解説します。 より具体的な改善事例は次回解説します。 機械学習を活用しやすくする開発・運用体制――2つのアンチパターン まず、「とにかくDeep Learningを使いたい!」というようなデータサイエンティストに周囲を泣かされないための仕組みと開発・運用体制について考えます。 新しい技術を導入する際は、何であれ慎重に進めた方がいいです。Deep Learningのような解釈可能性

    「Deep Learningをサービスに導入したい!」人に周囲が泣かされないために
    toyama0919
    toyama0919 2017/03/30
    "成果と直接の利害関係のない組織が良しあしの判定を行う" これっすよこれ
  • Google Cloud Platform、15のサービスで永久無料枠を提供開始

    グーグルは2017年3月10日、Google Cloud Next 17の3日目の基調講演で、15のサービスにおける永久無料枠を発表した。提供開始済みで、日からも利用できる。Google Cloudのプロダクトディベロップメント担当バイスプレジデントであるサム・ラムジ(Sam Ramji)氏は、「これがオープンな開発の姿だと私たちには見える」と語った。 Google Cloud Engine(米国リージョンのf1-micro 1インスタンスおよびHDD 30GB) Google Cloud Storage(5GB) Google Cloud Datastore(1GB、読み出し5万回、書き込み2万回、削除2万件) Google App Engine(24インスタンス時間/日、Cloud Storage 5GB、共有memcache) Google Pub/Sub (メッセージ10GB)

    Google Cloud Platform、15のサービスで永久無料枠を提供開始
    toyama0919
    toyama0919 2017/03/14
    おぉー凄い
  • 米フェイスブック、時系列データベースBeringeiをオープンソース化

    米フェイスブックは2017年2月3日(現地時間)、同社が開発したインメモリ時系列データベース「Beringei」をブログポストで説明、同ソフトウェアを最近オープンソース(BSDライセンス)で公開したことを紹介した。 米フェイスブックは2017年2月3日(現地時間)、同社が開発したインメモリ時系列データベース「Beringei」をブログポストで説明、同ソフトウェアを最近オープンソース(BSDライセンス)で公開したことを紹介した。 「Beringeiは現時点で、ユニークな時系列データを最大100億件格納し、毎分1800万件のクエリに応えられる。Facebookにおけるほとんどのパフォーマンスモニタリングおよびヘルスモニタリングを担っている。エンジニアやアナリストは、正確なリアルタイムのデータを活用し、迅速な決定ができるようになっている」と、ジャスティン・テラー(Justin Teller)氏は

    米フェイスブック、時系列データベースBeringeiをオープンソース化
  • ガベージコレクタの仕組みを理解する

    GCを適切に行わせるためのヒープサイズの設定 JVMにGCを適切に行わせるにはヒープサイズを適切に設定(New領域サイズ、Old領域サイズ、領域サイズのバランスなど)する必要があります。当然、適切なヒープサイズはアプリケーションに依存します。一般にヒープサイズが小さいとGCが頻発してアプリケーションのパフォーマンスが低下します。さらに、ヒープサイズが必要量を下回る場合はOutOfMemoryErrorが発生してアプリケーションが停止してしまいます。一方、ヒープサイズが大きいと、GCの起動回数は減りますが、GC1回当たりの処理時間、すなわちアプリケーション停止状態が長くなり、アプリケーションの応答時間に問題が出る場合もあります。システムの物理メモリのフリー領域が不足するまでヒープサイズを大きくすると、物理メモリからスワップ領域へのページングが起こってしまい、かなりのパフォーマンスが劣化する可

    ガベージコレクタの仕組みを理解する
  • AIとは何か、人工知能学会会長が語った常識と誤解

    人工知能AI)がブームになっているが、これまでのブームとどう違うのか。AIは、どのような発展段階にあるのか。人間の仕事を奪う「敵」なのか。人工知能学会会長である山田誠二氏の、こうした疑問に答えるような講演を要約してお届けする。 人工知能AI)がブームになっているが、これまでとどう異なるのか。人工知能は、どのような発展段階にあるのか。人間の仕事を奪う「敵」なのか。こうした疑問に答えるような講演を、人工知能学会会長の山田誠二氏が、2016年11月1日に開催したイベント「SAS Analytics Next 2016」で行った。これを要約してお届けする。山田氏は国立情報学研究所教授、総合研究大学院大学複合科学研究科情報学専攻教授、東京工業大学情報理工学院情報工学系特定教授を務めている。 なお、以下は山田氏の講演を要約・再構成したものであり、文責は筆者にある。 「強いAI」と「弱いAI」 何を

    AIとは何か、人工知能学会会長が語った常識と誤解
    toyama0919
    toyama0919 2016/11/15
    よし、AIエンジニアに(ry
  • 校正担当者必見!? 地味な誤字脱字で泣かないためのRecurrent Neural Networkのスゴイ生かし方

    校正担当者必見!? 地味な誤字脱字で泣かないためのRecurrent Neural Networkのスゴイ生かし方:Deep Learningで始める文書解析入門(2)(1/2 ページ) 連載では、Deep Learningの中でも、時系列データを扱うRecurrent Neural Networkについて解説。加えて、その応用方法として原稿校正(誤字脱字の検知)の自動化について解説します。今回は、連載における「誤字脱字」の定義と「なぜRNNを利用する必要があるのか」「課題に対してRNNをどのように利用したのか」について。 連載「Deep Learningで始める文書解析入門」ではDeep Learningの中でも時系列データを扱うRecurrent Neural Network(以下、RNN)とその応用方法としてリクルートグループ内で取り組んでいる原稿校正(誤字脱字の検知)の実現方

    校正担当者必見!? 地味な誤字脱字で泣かないためのRecurrent Neural Networkのスゴイ生かし方
  • もし、あなたが「“ビッグデータプロジェクト”を任せる。何とかするように」と言われたら

    ビッグデータ基盤の用途 ビッグデータ基盤とは、その名の通りビッグデータを扱う基盤です。多くの場合、コモディティサーバを複数並べた「分散処理の基盤」となります。ビッグデータを扱うプロジェクトには、当然ですがこのビッグデータ基盤が不可欠です。 ビッグデータ基盤の構成要素は、大きく分けて「ストレージ」「リソース管理」「アプリケーション」の3種類です。そしてこれらは、「分散したシステム」として稼働させます。ビッグデータ基盤は、大きく分けて以下の4つの活用用途があります。 (1)バッチ処理基盤 バッチ処理基盤としての典型的な利用例は、データの整形やクレンジングなどのいわゆる「ETL(Extract/Transform/Load:抽出、変換、ロード)処理」や、日次データの集計などの「ビジネスレポートの作成」、そして「機械学習のモデリング」などでしょう。 ここ数年、クラウド上でHadoopを利用できるサ

    もし、あなたが「“ビッグデータプロジェクト”を任せる。何とかするように」と言われたら
    toyama0919
    toyama0919 2016/08/26
    ETL基盤、分析基盤は大体安定してるので、次は機械学習基盤
  • 米NetflixがAWSへの移行を完了。7年かかった理由を説明

    NetflixAWSへの移行を完了。7年かかった理由を説明:サービスアップタイムは99.99%に近づく 米Netflixは2016年2月11日(米国時間)付けのブログポストで、同社の動画ストリーミングサービス関連システムのAmazon Web Services(AWS)への移行を、1月初めに完了したことを明らかにした。 米Netflixは2016年2月11日(米国時間)付けのブログポストで、同社の動画ストリーミングサービス関連システムのAmazon Web Services(AWS)への移行を、1月初めに完了したことを明らかにした。 ブログポストは、AWSへの移行が2008年に始まったと説明している。自社データセンターで運用していたリレーショナルデータベースの障害により、顧客へのDVDの発送が3日間にわたりストップしてしまったことがきっかけだった。それ以降、Netflixは同社の動画ス

    米NetflixがAWSへの移行を完了。7年かかった理由を説明
    toyama0919
    toyama0919 2016/02/13
    うちは3ヶ月移行完了なので圧勝! #違う
  • 技術者が知っておきたいTomcat 7の新機能20連発

    ■ リクエスト処理のアーキテクチャ Tomcat 4時代から採用されているリクエスト処理のCatalinaアーキテクチャは変更なしで、そのまま採用しています。Tomcatが受け付けたリクエストは、リクエスト処理パイプラインによってServletまで到達し処理されます。 ■ クラスタリング(セッションレプリケーション) 若干のインターフェイスの改良はありますが、基的には同じ仕様です。 「All-to-All」「primary-secondary」の2つのレプリケーション方式が利用可能となっています。 ■ DBコネクションプール 今までどおりApache Commons DBCPを使用し、バージョンはDBCP 1.4系(JDBC 4用)を採用しています。Tomcat独自のjdbc-poolを利用する場合は別途ビルドが必要です。jdbc-poolは近いうちに同梱されるかもしれません。 では、T

    技術者が知っておきたいTomcat 7の新機能20連発