2016年9月27日のブックマーク (13件)

  • 画像からのテキスト抽出:tesseract-ocr - Qiita

    はじめに 画像からの文字の抽出をやってみたいと思ってたので 簡単 とにかく試してみたい方向きに ldiqual/tesseract-ios ReadMe.mdが丁寧で分かりやすかった。64bit対応ができるかは要確認 https://github.com/ldiqual/tesseract-ios http://lois.di-qual.net/blog/install-and-use-tesseract-on-ios-with-tesseract-ios/ gali8/Tesseract-OCR-iOS 上記のコードに手をいれて64bit対応したみたい https://github.com/gali8/Tesseract-OCR-iOS カメラで撮影してまでテンプレで入っているので 実機転送まで出来るiOSの開発者ライセンスを持っている方には使いやすい 定番はまり 言語対応のため追加した

    画像からのテキスト抽出:tesseract-ocr - Qiita
    mzdakr
    mzdakr 2016/09/27
  • Googleの公開した人工知能ライブラリTensorFlowを触ってみた - LIFULL Creators Blog

    こんにちは。おうちハッカーの石田です。 いつもはおうちハックネタばかりですが、今日は人工知能関連の話題です。 今日2015/11/10、Googleが自社サービスで使っているDeepLearningを始めとする機械学習技術のライブラリを公開しました。 TensorFlowという名前で、おそらくテンソルフローと呼びます。 テンソルは、数学の線形の量を表す概念で、ベクトルの親戚みたいなものです。それにフローをつけるということは、そういった複雑な多次元ベクトル量を流れるように処理できる、という意味が込められているのだと思います。 こちらをさっそく触ってみたので、紹介したいと思います。 TensorFlowの特徴 公式紹介ページから特徴をいくつかピックアップします。 Deep Flexibility ~深い柔軟性~ 要望に応じて、柔軟にニューラルネットワークを構築できます。ニューラルネットワークの

    Googleの公開した人工知能ライブラリTensorFlowを触ってみた - LIFULL Creators Blog
    mzdakr
    mzdakr 2016/09/27
  • Tesseract-OCRの学習 - はだしの元さん

    2014-01-15 Tesseract-OCRの学習 Tesseract-OCRはHPが開発し現在はGoogleが公開しているオープンソースのOCRエンジンです。 オープンソースのOCRエンジン Tesseract-OCRでTesseeract-OCRで日語の読み込みまでは説明しました。今回はTesseract-OCRで機械学習を行い精度を向上させるための方法を説明します。 僕は基的に以下の公式のチュートリアルを読みながらやって行きました。Tesseract Training Wiki https://code.google.com/p/tesseract-ocr/wiki/TrainingTesseract3大まかにやることは3つあります。 boxファイルの作成  trファイルの作成 トレーニングデータの作成 boxファイルの作成 まず学習したい画像ファイルを用意します。今回

    mzdakr
    mzdakr 2016/09/27
  • 機械学習初心者が『Python 機械学習プログラミング』(速習コース)を読んだメモ - 無印吉澤

    きっかけ この記事を書いた人のレベル 今回の読書プラン Python 環境の構築 インストール先の環境 Anaconda (Python 3) のインストール 科学計算に関するライブラリのインストール サンプルの実行に必要なライブラリのインストール サンプルの実行 サンプルコードを実行していて引っかかったところ 3章 12〜13章 Python の勉強 速習コースを読んでみた感想 きっかけ 機械学習の重要性は、それこそ「ビッグデータ」という言葉が出てきた頃からいろいろな人が訴えていますが、最近は特にツールが充実して、敷居が下がってきたように感じています。 そろそろ自分でも機械学習関係のツールを使えるようになりたいと思っていたのですが、そんなときに「具体的なコード例が多くて読みやすい」という書の評判を聞いて、読み始めました。 Python機械学習プログラミング 達人データサイエンティストに

    機械学習初心者が『Python 機械学習プログラミング』(速習コース)を読んだメモ - 無印吉澤
    mzdakr
    mzdakr 2016/09/27
  • Tesseract-OCRでMNISTのデータを用いて手書き数字認識をしようとしてみた

    MNISTの手書き数字データベースのデータから Tesseract-OCR用に学習データを生成し、手書き数字をオフライン認識してみます。 先に言い訳とお断りをさせていただきますと.... 今回はとりあえずそのまま作るとどうなるかという実験のつもりでしたので 私の処理が「思いっきり手抜き」であり、数字しか認識できず認識率も低いですが、 とりあえず学習データができたというレベルの自分用メモとして記しておきます。 ※ Tesseract-OCRもMNISTのデータベースも、正しく使えば、来は相当な認識率となるはずです。 より正しい方法をご存知の方や、学習データの情報をご提供いただける方は是非教えていただければ幸いです。 ご指摘等をお待ちしております。 (記事のタイトルの歯切れが悪いのはそういうことです(汗;)) 利用した環境は Linux (Arch Linux x64)であり、 Tesser

    Tesseract-OCRでMNISTのデータを用いて手書き数字認識をしようとしてみた
    mzdakr
    mzdakr 2016/09/27
  • ディープラーニングの有名ライブラリ5種を最短距離で試す半日コース(TensorFlow, Chainer, Caffe, DeepDream, 画風変換) - その後のその後

    「いつか勉強しよう」と人工知能機械学習/ディープラーニング(Deep Learning)といったトピックの記事の見つけてはアーカイブしてきたものの、結局2015年は何一つやらずに終わってしまったので、とにかく一歩でも足を踏み出すべく、質的な理解等はさておき、とにかく試してみるということをやってみました。 試したのは、TensorFlow、Chainer、Caffe といった機械学習およびディープラーニングの代表的なライブラリ/フレームワーク3種と、2015年に話題になったディープラーニングを利用したアプリケーション2種(DeepDream、chainer-gogh)。 (DeepDreamで試した結果画像) タイトルに半日と書きましたが、たとえばTensorFlowは環境構築だけなら10分もあれば終わるでしょうし、Chainerなんてコマンド一発なので5秒くらいです。Caffeは僕はハ

    ディープラーニングの有名ライブラリ5種を最短距離で試す半日コース(TensorFlow, Chainer, Caffe, DeepDream, 画風変換) - その後のその後
    mzdakr
    mzdakr 2016/09/27
  • PythonでKNNを使った手書き文字認識 - Qiita

    OpenCVのチュートリアルで学ぶ、手書文字認識。 今年配属されてきた新人さんが、「大学時代は、文字認識をやっていました」というので、自分もその一端に触れてみようという試みです。 辞書データの入手 辞書データとして、OpenCVの配布物に含まれているdigits.pngを使います。残念ながら、Anaconda環境でconda install --channel https://conda.anaconda.org/menpo opencv3した環境にはdigits.pngは含まれていませんでした。 これは、0から9までの数字を手書きしたものの画像データになります。実際に、日語でOCRを作ろうとすると、そのまま実装すると膨大な辞書データを作る必要ができます。ワタナベさんとかサイトウさんとかの漢字のバリエーションもちゃんと見分けようとすると、そりゃあもう大変なことになりそうです。なんとかなる

    PythonでKNNを使った手書き文字認識 - Qiita
    mzdakr
    mzdakr 2016/09/27
  • 脳とベイジアンネットFAQ

    脳の情報処理原理の解明の鍵となる技術が ベイジアンネットです。 しかし、大半の研究者は大脳皮質とベイジアンネットの鮮やかな対応について まだ知りません。 脳の情報処理原理に基づいた知能の高いロボットの実現に向け、 一人でも多くの神経科学者・計算機科学者に、 ベイジアンネットと大脳皮質の関係を知ってもらいたいと思います。 ベイジアンネットそのものについての質問 ベイジアンネットとは何ですか? ベイジアンネット(ベイジアンネットワーク 、 Bayesian network) とは、確率論に基づいた推論を効率的に行うための技術です。 脳の機能の1つである直観と似た働きをします。 ベイジアンネットは、複数の事象の間の因果関係をネットワーク構造で表現し、 同時に因果関係の強さを表す数値も記録したものです。 このように表現された「知識」を用いれば、得られた観測データに基づいて 様々な事象の確率を ベイ

    mzdakr
    mzdakr 2016/09/27
  • OCR of Hand-written Data using kNN — OpenCV 3.0.0-dev documentation

    mzdakr
    mzdakr 2016/09/27
  • MIRS2009 OpenCVによる数字認識

    1 目的 ドキュメントはOpenCVを用いた数字認識アルゴリズムについてまとめたものである。 2 仕様 前提条件: この数字認識プログラムは以下の前提条件の下に作成した。 ・2つの数字が書かれているDBをほぼ正面からカメラで捉えている ・DBボードは 背景が白色、数字部が黒色で描かれているとする ・DBボードに描かれている数字は7セグメントLEDのような数字であるとする 達成目標: 最低でも以下の事項だけは達成できるようにする ・0~9までのすべての数字の判別を(「2」と「5」の区別も)できるようにする ・2つの値を同時に(一回のキャプチャ行動で)判断できるようにする ・2つの値の相対位置(どちらが右でどちらが左か)を判断できるようにする ・多少の傾きや歪みを考慮できるようにする 仕様(競技会終了時点) ・ カメラで背景 白 数字部 黒のDBを全て捉えると それを取り込み、グレースケール

    mzdakr
    mzdakr 2016/09/27
  • 手書き数字をpythonでもてあそぶ その1 - Qiita

    手書き数字データをイメージ表示する まず、手書き数字データを準備します。今回はKaggleのDigital Recognizerという課題からtrainという名の教師データをダウンロードして使いたいと思います。 このデータ全部を使うと73MBとかなりのデータ量のため、分かりやすさを優先して0〜9の各数字から20個ずつ、計200個をピックアップして使います。ピックアップしたデータはここからダウンロードしてください。 この手書き数字データはCSVファイルとなっていて 8, 0, 0, 0, 128, ... , 54, 23, 0, 0 のように、1桁目はどの数字が書かれたかを表すラベル、それ以降の桁は28x28=784ピクセル分の数字データが続きます。 まずは必要なライブラリをインポートします。

    手書き数字をpythonでもてあそぶ その1 - Qiita
    mzdakr
    mzdakr 2016/09/27
  • scikit-learnを使って数字認識(1) サンプル取得

    ほぼ上のサイトと同じことをしているが、一つだけ違うところfindContoursで輪郭の取得オプションだ。opencvでは輪郭の取得のみならず、それら輪郭の関係まで返してくれる。今回はcv2.RETR_CCOMPを指定した。(一番外側の輪郭とするとなぜか図の枠が検出されたので)輪郭についてはこのページがわかりやすかった。輪郭の階層を指定することで輪郭の大きさによる分類など無駄な作業が省ける。 if __name__ == "__main__": sample_dir = "fonts" sample_file = "sample03.png" im = cv2.imread(os.path.join(sample_dir, sample_file)) im_copy = im.copy() gray = cv2.cvtColor(im,cv2.COLOR_BGR2GRAY) blur =

    scikit-learnを使って数字認識(1) サンプル取得
    mzdakr
    mzdakr 2016/09/27
  • 多層パーセプトロンで手書き数字認識 - 人工知能に関する断創録

    多層パーセプトロンが収束する様子(2014/1/23)の続き。数字認識は前にニューラルネットによるパターン認識(2005/5/5)をJavaで作りましたが今回はPythonです。 今回は、多層パーセプトロンを用いて手書き数字を認識するタスクを実験します。今回からscikit-learnというPython機械学習ライブラリを活用しています。ただ、scikit-learnには多層パーセプトロンの正式な実装はない*1ため多層パーセプトロンのスクリプトはオリジナルです。今回から比較的大きなデータを扱うためなるべく高速に動作し、かつPRMLと変数名を合わせることで理解しやすいようにしました。 digitsデータ 手書き数字データは、MNISTというデータが有名です。PRMLの付録Aでも紹介されています。今回はいきなりMNISTではなく、scikit-learnのdigitsというより単純なデータセ

    多層パーセプトロンで手書き数字認識 - 人工知能に関する断創録
    mzdakr
    mzdakr 2016/09/27