toyama0919のブックマーク - はてなブックマーク

Pythonで機械学習／Deep Learningを始めるなら知っておきたいライブラリ／ツール7選

プログラミング言語「Python」は機械学習の分野で広く使われており、最近の機械学習／Deep Learningの流行により使う人が増えているかと思います。一方で、「機械学習に興味を持ったので自分でも試してみたいけど、どこから手を付けていいのか」という話もよく聞きます。本連載「Pythonで始める機械学習入門」では、そのような人をターゲットに、Pythonを使った機械学習について主要なライブラリ／ツールの使い方を中心に解説していきます。連載第1回は、ライブラリ／ツール群の概要説明からです。各ライブラリ／ツールの詳細な使い方や実用上のテクニックは連載第2回以降で解説していきます。ここで挙げるライブラリ／ツール群は「普段、筆者が仕事で使っているもの」という基準で選定されています。そういう意味で全く網羅的ではなく、独断と偏見であることを自覚していますので、ご了承ください。連載初回である本稿で

toyama0919 2018/01/22

リンク

MicrosoftとFacebook、AIモデルの相互運用性を実現する共同プロジェクト「ONNX」を発表

MicrosoftとFacebookは2017年9月7日（米国時間）、異なるディープラーニングフレームワーク間でAI（Artificial Intelligence：人工知能）モデルの相互運用性を実現する共同プロジェクト「ONNX（Open Neural Network Exchange）」を発表した。 ONNXは、Microsoftのディープラーニングツールキット「Cognitive Toolkit（旧称CNTK）」をはじめ、オープンソースのディープラーニングフレームワークである「Caffe2」「PyTorch」などをサポートする。ディープラーニングフレームワークは、ニューラルネットワークを表現する計算グラフの作成、実行を容易にするインタフェースを開発者に提供する。それぞれのフレームワークはその点で機能的には似ている。しかし、それぞれ固有のフォーマットでこうしたグラフを表現することから

toyama0919 2017/12/20

リンク

第1回　OpenCVとは？最新3.0の新機能概要とモジュール構成

ご注意：本記事は、＠IT／Deep Insider編集部（デジタルアドバンテージ社）が「www.buildinsider.net」というサイトから、内容を改変することなく、そのまま「＠IT」へと転載したものです。このため用字用語の統一ルールなどは＠ITのそれとは一致しません。あらかじめご了承ください。 1. OpenCV 1.1 OpenCVとは OpenCV（正式名称： Open Source Computer Vision Library）は、オープンソースのコンピューター・ビジョン・ライブラリです。コンピューターで画像や動画を処理するのに必要な、さまざま機能が実装されており、BSDライセンスで配布されていることから学術用途だけでなく商用目的でも利用できます。加えて、マルチプラットフォーム対応されているため、幅広い場面で利用されていることが特徴です。 OpenCVは、Intelで開発さ

toyama0919 2017/12/13

リンク

LSTMとResidual Learningでも難しい「助詞の検出」精度を改善した探索アルゴリズムとは

本連載「Deep Learningで始める文書解析入門」では、Deep Learningの中でも時系列データを扱う「Recurrent Neural Network」（以下、RNN）と、その応用方法としてリクルートグループ内で取り組んでいる原稿校正（誤字脱字の検知）の実現方法について解説してきました。連載第1回ではRNNの概要や活用例について述べ、第2回の前回では、「誤字脱字の検知」というタスクの概要を紹介し、それに対してRNNをどのように活用したかを紹介しました。前回の最後でも述べましたが、誤字脱字の検知という課題に対して始めからRNNがうまく機能したかというと、答えは「ノー」です。「文字の系列から次の単語を予測するRNNを“異常検知”的に利用する」こと自体は、うまく機能しているようでした。しかし、英語に比べ日本語の文法は思った以上に複雑で、特に、前回『「誤字脱字」の3つの定義』の

toyama0919 2017/10/17

リンク

Googleフォームで入力したデータをスプレッドシートに追加しGmailで知らせる

Googleフォームで入力したデータをスプレッドシートに追加しGmailで知らせる：Excel VBA プログラマーのためのGoogle Apps Script入門（終） Googleが提供するGoogle Apps Script（GAS）のプログラミングで、Google Apps（主にスプレッドシート）を操作する方法を解説していく連載。最終回は、Googleフォームで入力したデータをスプレッドシートに追加しGmailで知らせる方法を紹介する。本連載「Excel VBA プログラマーのためのGoogle Apps Script入門」では、Googleが提供する「Google Apps Script」（GAS）のプログラミングで、「Google Apps」を操作する方法を「Google Sheets」（スプレッドシート）を中心に解説している。最終回となる今回は、「フォーム」を使用する。フォー

toyama0919 2017/08/28

ほう

リンク

できる人のGoogle検索テクニック

インターネットで何か調べようとするとき、まず「Google検索」、という人が多いのではないだろうか。中でも、単語を入力する、もしくはスペースを空けて複数の単語を入力して検索するだけという人が多いようだ。しかし、検索結果に満足できない、期待したページが検索上位に表示されない（ヒットしない）、といったこともまた多くないだろうか？本記事では、そのような時に便利なGoogle検索のテクニックを幾つか紹介したい。例えば、余計な単語を検索対象から除外したり、特定の語句がタイトルやURLなどに含まれるコンテンツのみ検索したり、といったことが可能だ。「+」「AND」で複数キーワードを含むWebページを検索 AND検索すなわち指定の全キーワードを含むコンテンツの検索を行うのに、「スペース（空白文字）」を空けて複数キーワードを並べて検索、というのは、ごく普通に利用しているテクニックだろう。さらに明示的に

toyama0919 2017/08/25

リンク

コンテナストレージの共通仕様にも着手、あらためて、CNCFは何をどうしようとしているのか

コンテナストレージの共通仕様にも着手、あらためて、CNCFは何をどうしようとしているのか：CNCFのトップ2人に聞いた CNCFは、クラウドネイティブアプリケーションの世界のデファクト標準を作り上げたいのか、それともコンポーネントベースでCloud Foundryの競合勢力を構築したいのかが、分かりにくい部分がある。そこでCNCFのエグゼクティブディレクターであるダン・コーン氏と、COOであるクリス・アニズィック氏に、あらためて同組織のやろうとしていることを聞いた。 Kubernetesを最初のホスティング対象プロジェクトとし、クラウドネイティブアプリケーションのプラットフォームの1つの姿をコンポーネントベースで追求する組織として設立されたCloud Native Computing Foundation（CNCF）。数回インタビューをしてきたが、結局この組織は、クラウドネイティブアプリケ

toyama0919 2017/07/24

ロックイン気にするよりも、それを恐れてオンプレで頑張るほうが愚かという状況にもうなっちゃってるよなぁ。インフラ的なコストメリットが出ない企業は別にしても

リンク

Computer Vision API

連載目次 Computer Vision APIは、マイクロソフトのCognitive Servicesが提供するAPIの1つで、画像の分析、画像内のテキストの読み取り、有名人やランドマークの識別、サムネイル生成などを行える。 Computer Vision APIが提供する機能 Computer Vision APIを使うと次のような処理を行える。これらの機能が幾つかのAPIを介して提供される。提供されるAPIについては「Computer Vision API - v1.0」ページで一覧できる。このページはインタラクティブなAPIドキュメントとなっていて、APIテスト用のコンソールを表示することで、実際のデータ（画像ファイルのURL）を指定してAPIの挙動を確認できる。ただし、試してみるだけでもAzureポータルでComputer Vision APIのサブスクリプションを追加して、そ

toyama0919 2017/06/13

リンク

音声→テキスト変換のSpeech Recognition APIの使い方と、2017年4月におけるWatson、Google Cloud Speech APIとの違い

※本稿は2017年4月12日の情報を元に作成しています。この記事内で使用している画面やコグニティブサービスの仕様は変更になっている場合があります。本連載「認識系API活用入門」では、マイクロソフトのコグニティブサービスのAPIを用いて、「現在のコグニティブサービスでどのようなことができるのか」「どのようにして利用できるのか」「どの程度の精度なのか」を検証していきます。連載第1回の「Deep Learningの恩恵を手軽に活用できるコグニティブサービスとは」では、コグニティブサービスとは何かの概要とAPIを使うための準備の仕方を説明しました。今回はSpeech Recognition APIを試します。 Speech Recognition APIとは Speech Recognition APIは、前回のText To Speech APIの逆で、音声データをAPIに渡すとその音声デー

toyama0919 2017/05/10

リンク

Dell EMCがTensorFlow、Caffe、MXNetのパフォーマンス比較をNVIDIAのGPU「Tesla P100」で行った理由

Dell EMCがTensorFlow、Caffe、MXNetのパフォーマンス比較をNVIDIAのGPU「Tesla P100」で行った理由：AI／Deep Learning分野で企業に届けたい価値とは Dell EMCがAI／ディープラーニング分野での取り組みを活発化させている。オープンで標準的な技術を使って企業の課題をシンプル化してきた同社は、AI／ディープラーニング分野にどう取り組むのか。「NVIDIA Tesla P100」の比較検証レポートが話題に 2017年1月、GPGPUやHPC業界で静かに話題になったレポートがある。NVIDIAのPascal世代のGPUを搭載した「NVIDIA Tesla P100」（以下、P100）が実稼働環境でどのような性能を発揮するかについて、実機を使ったパフォーマンス比較検証レポートが発表されたのだ。 2016年4月に発表されたP100は、アーキ

toyama0919 2017/05/08

リンク

リクルートが社内で育てたDeep Learning／機械学習API群「A3RT」を無料で公開した理由

近年、大量のデータからシステムが「学習」を行い、その中に潜むパターンやルールを自動的に見つけ出す「機械学習」の活用に向けた取り組みが盛んだ。機械学習によって自動的に作成されたモデル（データのパターンやルール）を、未知のデータに対して適用することで、ヒトの手を介した分析では不可能な、複雑で大規模なデータの分類や、より精度の高い予測ができ、その成果はあらゆるジャンルのサービスやビジネスへ応用できると期待されている。リクルートテクノロジーズは2017年3月16日、これまで同社がグループ内で開発と活用を進めてきた「機械学習」「Deep Learning」にまつわるサービス群「A3RT」（Analytics ＆ Artificial Intelligence API via Recruit Techno logies、読みは「アート」）の無料公開を開始した。スタート時に利用できるのは、以下の6つの

toyama0919 2017/03/31

デブサミで言ってたやつか

リンク

「Deep Learningをサービスに導入したい！」人に周囲が泣かされないために

リクルートテクノロジーズにおける検索改善施策の事例を通じて、Deep Learningをはじめとした機械学習の強みと限界を探る本連載「機械学習活用プロジェクト大解剖」。前回は、検索改善のためのアーキテクチャ（QueryRewriter）とDeep Learningを導入する動機を紹介しました。今回は、「Deep Learningの導入のために何が必要であり、なぜQueryRewriterが開発されたのか」について解説します。より具体的な改善事例は次回解説します。機械学習を活用しやすくする開発・運用体制――2つのアンチパターンまず、「とにかくDeep Learningを使いたい！」というようなデータサイエンティストに周囲を泣かされないための仕組みと開発・運用体制について考えます。新しい技術を導入する際は、何であれ慎重に進めた方がいいです。Deep Learningのような解釈可能性

toyama0919 2017/03/30

"成果と直接の利害関係のない組織が良しあしの判定を行う" これっすよこれ

リンク

Google Cloud Platform、15のサービスで永久無料枠を提供開始

米グーグルは2017年3月10日、Google Cloud Next 17の3日目の基調講演で、15のサービスにおける永久無料枠を発表した。提供開始済みで、日本からも利用できる。Google Cloudのプロダクトディベロップメント担当バイスプレジデントであるサム・ラムジ（Sam Ramji）氏は、「これがオープンな開発の姿だと私たちには見える」と語った。 Google Cloud Engine（米国リージョンのf1-micro 1インスタンスおよびHDD 30GB） Google Cloud Storage（5GB） Google Cloud Datastore（1GB、読み出し5万回、書き込み2万回、削除2万件） Google App Engine（24インスタンス時間／日、Cloud Storage 5GB、共有memcache） Google Pub/Sub （メッセージ10GB）

toyama0919 2017/03/14

おぉー凄い

リンク

米フェイスブック、時系列データベースBeringeiをオープンソース化

米フェイスブックは2017年2月3日（現地時間）、同社が開発したインメモリ時系列データベース「Beringei」をブログポストで説明、同ソフトウェアを最近オープンソース（BSDライセンス）で公開したことを紹介した。米フェイスブックは2017年2月3日（現地時間）、同社が開発したインメモリ時系列データベース「Beringei」をブログポストで説明、同ソフトウェアを最近オープンソース（BSDライセンス）で公開したことを紹介した。「Beringeiは現時点で、ユニークな時系列データを最大100億件格納し、毎分1800万件のクエリに応えられる。Facebookにおけるほとんどのパフォーマンスモニタリングおよびヘルスモニタリングを担っている。エンジニアやアナリストは、正確なリアルタイムのデータを活用し、迅速な決定ができるようになっている」と、ジャスティン・テラー（Justin Teller）氏は

toyama0919 2017/02/06

リンク

ガベージコレクタの仕組みを理解する

GCを適切に行わせるためのヒープサイズの設定 JVMにGCを適切に行わせるにはヒープサイズを適切に設定（New領域サイズ、Old領域サイズ、領域サイズのバランスなど）する必要があります。当然、適切なヒープサイズはアプリケーションに依存します。一般にヒープサイズが小さいとGCが頻発してアプリケーションのパフォーマンスが低下します。さらに、ヒープサイズが必要量を下回る場合はOutOfMemoryErrorが発生してアプリケーションが停止してしまいます。一方、ヒープサイズが大きいと、GCの起動回数は減りますが、GC1回当たりの処理時間、すなわちアプリケーション停止状態が長くなり、アプリケーションの応答時間に問題が出る場合もあります。システムの物理メモリのフリー領域が不足するまでヒープサイズを大きくすると、物理メモリからスワップ領域へのページングが起こってしまい、かなりのパフォーマンスが劣化する可

toyama0919 2017/01/19

リンク

AIとは何か、人工知能学会会長が語った常識と誤解

人工知能（AI）がブームになっているが、これまでのブームとどう違うのか。AIは、どのような発展段階にあるのか。人間の仕事を奪う「敵」なのか。人工知能学会会長である山田誠二氏の、こうした疑問に答えるような講演を要約してお届けする。人工知能（AI）がブームになっているが、これまでとどう異なるのか。人工知能は、どのような発展段階にあるのか。人間の仕事を奪う「敵」なのか。こうした疑問に答えるような講演を、人工知能学会会長の山田誠二氏が、2016年11月1日に開催したイベント「SAS Analytics Next 2016」で行った。これを要約してお届けする。山田氏は国立情報学研究所教授、総合研究大学院大学複合科学研究科情報学専攻教授、東京工業大学情報理工学院情報工学系特定教授を務めている。なお、以下は山田氏の講演を要約・再構成したものであり、文責は筆者にある。「強いAI」と「弱いAI」何を

toyama0919 2016/11/15

よし、AIエンジニアに(ry

リンク

校正担当者必見!? 地味な誤字脱字で泣かないためのRecurrent Neural Networkのスゴイ生かし方

校正担当者必見!? 地味な誤字脱字で泣かないためのRecurrent Neural Networkのスゴイ生かし方：Deep Learningで始める文書解析入門（2）（1/2 ページ）本連載では、Deep Learningの中でも、時系列データを扱うRecurrent Neural Networkについて解説。加えて、その応用方法として原稿校正（誤字脱字の検知）の自動化について解説します。今回は、本連載における「誤字脱字」の定義と「なぜRNNを利用する必要があるのか」「課題に対してRNNをどのように利用したのか」について。本連載「Deep Learningで始める文書解析入門」ではDeep Learningの中でも時系列データを扱うRecurrent Neural Network（以下、RNN）とその応用方法としてリクルートグループ内で取り組んでいる原稿校正（誤字脱字の検知）の実現方

toyama0919 2016/10/06

リンク

もし、あなたが「“ビッグデータプロジェクト”を任せる。何とかするように」と言われたら

ビッグデータ基盤の用途ビッグデータ基盤とは、その名の通りビッグデータを扱う基盤です。多くの場合、コモディティサーバを複数並べた「分散処理の基盤」となります。ビッグデータを扱うプロジェクトには、当然ですがこのビッグデータ基盤が不可欠です。ビッグデータ基盤の構成要素は、大きく分けて「ストレージ」「リソース管理」「アプリケーション」の3種類です。そしてこれらは、「分散したシステム」として稼働させます。ビッグデータ基盤は、大きく分けて以下の4つの活用用途があります。（1）バッチ処理基盤バッチ処理基盤としての典型的な利用例は、データの整形やクレンジングなどのいわゆる「ETL（Extract／Transf orm／Load：抽出、変換、ロード）処理」や、日次データの集計などの「ビジネスレポートの作成」、そして「機械学習のモデリング」などでしょう。ここ数年、クラウド上でHadoopを利用できるサ

toyama0919 2016/08/26

ETL基盤、分析基盤は大体安定してるので、次は機械学習基盤

リンク

米NetflixがAWSへの移行を完了。7年かかった理由を説明

米NetflixがAWSへの移行を完了。7年かかった理由を説明：サービスアップタイムは99.99％に近づく米Netflixは2016年2月11日（米国時間）付けのブログポストで、同社の動画ストリーミングサービス関連システムのAmazon Web Services（AWS）への移行を、1月初めに完了したことを明らかにした。米Netflixは2016年2月11日（米国時間）付けのブログポストで、同社の動画ストリーミングサービス関連システムのAmazon Web Services（AWS）への移行を、1月初めに完了したことを明らかにした。ブログポストは、AWSへの移行が2008年に始まったと説明している。自社データセンターで運用していたリレーショナルデータベースの障害により、顧客へのDVDの発送が3日間にわたりストップしてしまったことがきっかけだった。それ以降、Netflixは同社の動画ス

toyama0919 2016/02/13

うちは３ヶ月移行完了なので圧勝！ #違う

リンク

技術者が知っておきたいTomcat 7の新機能20連発

■ リクエスト処理のアーキテクチャ Tomcat 4時代から採用されているリクエスト処理のCatalinaアーキテクチャは変更なしで、そのまま採用しています。Tomcatが受け付けたリクエストは、リクエスト処理パイプラインによってServletまで到達し処理されます。 ■ クラスタリング（セッションレプリケーション）若干のインターフェイスの改良はありますが、基本的には同じ仕様です。「All-to-All」「primary-secondary」の2つのレプリケーション方式が利用可能となっています。 ■ DBコネクションプール今までどおりApache Commons DBCPを使用し、バージョンはDBCP 1.4系(JDBC 4用)を採用しています。Tomcat独自のjdbc-poolを利用する場合は別途ビルドが必要です。jdbc-poolは近いうちに同梱されるかもしれません。では、T

toyama0919 2015/05/29

リンク

はてなブックマーク

タグ

ブックマーク / atmarkit.itmedia.co.jp (28)

お知らせ

今週のはてなブックマーク数ランキング（2024年10月第1週）

月間はてなブックマーク数ランキング（2024年9月）

今週のはてなブックマーク数ランキング（2024年9月第5週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス