タグ

ブックマーク / yut.hatenablog.com (19)

  • ラーメン二郎分類器 : ABEJA Platformを使ってサービス公開するぞ - Y's note

    ラーメン二郎分類器 引用 : ラーメン二郎 三田店 (らーめんじろう) - 三田/ラーメン | べログ @yutakikuchi_です。 皆さん、ラーメン二郎は好きですか? 好きですよね? 僕は大学の目の前にラーメン二郎があったので足繁く通っていました。しかし、ラーメン二郎初心者にとっては、麺の画像を見て、それが「ラーメン二郎」なのか「長崎ちゃんぽん」なのかが見分けが付きづらいと思います。よってDeepLearningを用いて、それらの分類を自動化する仕組みをABEJA Platformを使って実装する方法について記載します。データのcrawlingなどの実装は必要ですが、学習に関してはtemplateという機能を利用するとノンプログラミングでもモデル作成が可能なので、以下の作業時間はおおよそ10分で完了できます。 既にABEJA Platform、ABEJA Platform Ann

    ラーメン二郎分類器 : ABEJA Platformを使ってサービス公開するぞ - Y's note
  • 学習データの蓄積を加速する ABEJA Platform Annotation - Y's note

    AIをビジネスに実装する方法 作者:岡田 陽介日実業出版社Amazon ABEJA Platformについて yut.hatenablog.com @yutakikuchi_です。 前回のPostでABEJAが開発しているMLOpsの課題を解決するABEJA Platformの概要について説明しました。このPostではABEJA Platformの一機能であり、学習データの蓄積を加速する ABEJA Platform Annotation について紹介します。 ABEJA Platform Annotationとは abejainc.com 今回はMLOpsで重要な学習データを蓄積するためのAnnotationについて書きます。そもそも学習データとは?という方もいると思うので、簡単に一言で表すと、人工知能のモデルを作るための知識・入力データと言えます。人間も学習という訓練を重ねながら脳を

    学習データの蓄積を加速する ABEJA Platform Annotation - Y's note
  • 機械学習の種類と特徴 - Y's note

    人間ではなく機械が自動的に意思決定することのメリットとして、大量のデータをInputとした予測、推定、分類などの処理をAlgorithmの構築によって瞬時に行える事である。 1枚の画像だけを見て何が写っているかのような判断においては人間の脳が優れているものの、大量のデータInputを基にした組み合わせの選択や最適解に瞬時に辿り着くという目的においては機械に任せてしまったほうが効率的とも言える。昔から機械学習による予測、推定、分類などの処理は様々な手法として提案されており、どういった問題を機械に判断させるかという切り口で最適なものを人が選択する。下記表に機械学習の種類と特徴を纏めてみた。※ただし必ずしも6種類のいずれかに分類される訳ではない。例としてニューラルネットワークがあり教師あり学習であり深層学習にも位置する。 機械学習の種類 特徴 代表的なAlgorithm 備考 教師あり学習 正解

    機械学習の種類と特徴 - Y's note
  • 機械学習のOverfitting対策 - Y's note

    Overfitting対策 How can I avoid overfitting? - Quora 機械学習で偏った学習データに適合したモデルを評価データに対して利用した場合、精度が悪い結果が得られることがあります。単純にモデルにInputする訓練データが少なかったり、局所領域に存在するデータ扱っていたり、モデルの自由度が高く複雑である事など幾つか原因が考えられ、上のQuoraで解決策について意見が書かれています。ここでは結論として書かれた内容について簡単に紹介します。 K-Fold Cross Validation 単純な解決方法としては学習時に偏ったデータに適合しすぎないように学習データをK個のまとまりに分割して、K-1個のデータを用いて学習、残りの1個を用いて評価する作業を組みわせパターン全てで行うというK-Fold Cross Validationという手法が用いられます。こうす

    機械学習のOverfitting対策 - Y's note
  • OpenSSLの暗号処理が爆速な件 - Y's note

    OpenSSL―暗号・PKI・SSL/TLSライブラリの詳細― 作者:John Viega,Matt Messier,Pravir Chandra,齋藤 孝道オーム社Amazon 目次 OpenSSLによる暗号 実行環境 OpenSSLによる暗号化速度 ECBとCBCの違い PHP OpenSSLとMcrypt関数のalgorithms比較 OpenSSLとmcrypt関数のDES,AESの速度比較 Mcryptのゼロpaddingの癖 C DES暗号 AES暗号 OpenSSLとMcryptのDES,AESの速度比較 OpenSSLによる暗号 OpenSSL日語サイト: The Open Source toolkit for SSL/TLS あどてくやっている@yutakikuchi_です。 今日はOpenSSLの共通鍵暗号について調査した内容を纏めます。OpenSSLについて特にC言

    OpenSSLの暗号処理が爆速な件 - Y's note
  • ログ集計システムを自前で作る - Y's note

    Index ログ集計システムの要件 DB設計 データ保存方針 table設計 サーバ構成 Fluentd fluentd,fluent-plugin-mysql-bulk install td-agent.conf mysqlにデータが格納される事を確認する 集計用のバッチ その他 Table肥大化防止 可視化 ログ集計システムの要件 爆弾ログ処理班の@yutakikuchi_です。 ログ集計システムというものを作る時に皆さんはどのように対応していますか? 以下の候補から要件のレベルで使い分けをしている人が多いと予想しています。ざっくりの評価ですが、導入難易度、正確性、可視化、リアルタイム、長期集計、スケール、運用費用という点で評価を書いています。 ツール 導入難易度 正確性 可視化 リアルタイム 長期集計 スケール 運用費用 リンク GA(スタンダード) ○ × ○ ○ ○ ○ ○ Go

    ログ集計システムを自前で作る - Y's note
  • R言語でSVM(Support Vector Machine)による分類学習 - Y's note

    サポートベクターマシン入門 作者: ネロクリスティアニーニ,ジョンショー‐テイラー,Nello Cristianini,John Shawe‐Taylor,大北剛出版社/メーカー: 共立出版発売日: 2005/03メディア: 単行購入: 8人 クリック: 135回この商品を含むブログ (41件) を見る SVMとは Support Vector Machineの略で教師あり学習に分類されます。線形、非線形の識別関数があり現在知られている多くの学習モデルの中では最も優れた識別能力があるとされています。いわゆる2値分類を解くための学習モデルであり、線形しきい素子を用いて分類器を構成します。訓練データにおける各データ点と距離が最大になるマージン最大化という基準で線形しきい素子のパラメータを学習させます。シンプルな例は与えられたデータ集合を全て線形に分離する事です。SVMはカーネルトリックという

    R言語でSVM(Support Vector Machine)による分類学習 - Y's note
  • ギーク野郎のTerminal生活 - Y's note

    ギーク野郎 ギーク野郎とは開発用Terminalを常に立ち上げてプログラミング言語をいじっている人の事をここでは意味します。ギーク野郎はモニターを複数台所有し、それぞれがTerminal用、ネットサーフィン用、ニコニコ動画専用というような使い分けをしています。しかしそれぞれのモニターへの視線とマウス移動はフラストレーションを溜める1要因になります。それを回避するために当のギーク野郎は1台モニタのTerminalだけで作業します。すみません、左の発言は適当です笑。この記事ではTerminalだけで作業を完結したい人を対象とし、GUIを使わずにCUIだけでの作業環境構築を目指し、それに役立ちそうなアイテムについて紹介します。 tmux tmux プロセス管理の初歩テクニック - Yuta.Kikuchiの日記 tmuxを使ってWorking Spaceを効率的に使う事を強く薦めます。個人的に

    ギーク野郎のTerminal生活 - Y's note
  • MongoDBのCapped CollectionとTailable Cursorを使ったRealTimeAccess集計 - Y's note

    Index RealTimeAccess集計 Capped Collection Tailable Cursor まとめ RealTimeAccess集計 RealTimeAccess集計をするためにMongoDBの利用を考えます。サーバーの構成は上図のようなイメージで各種ApplicationServerからFluentdでLogAggregatorにRealTimeでLogデータを転送し、LogAggregator MasterがMongoDBにFluentdで書き込んで行きます。ここで言うRealTimeAccess集計の機能要件を整理すると以下のようになります。 Access発生後、1分以内で集計結果をWebツール上で確認したい。集計区間も1分単位など。 複数条件が指定可能で、柔軟なCross集計がしたい。 RealTimeAccess集計のSystem負荷を出来る限り抑えたい。

    MongoDBのCapped CollectionとTailable Cursorを使ったRealTimeAccess集計 - Y's note
  • データ集計コマンドを極めてシステム処理と業務速度を爆速化するお話 - Y's note

    Index データ集計コマンド 爆速で検索したいぜ! lookを使う LC_ALL=Cを設定する データのランダムサンプリングがしたいぜ! sedを使う awkを使う sortの--random-sortを使う Script言語を使う shufを使う ランダムサンプリング速度比較 合計と平均値を集計したいぜ! 列データ取得 重複行のカウント 合計値出力 平均値出力 複数ファイルのデータ結合がしたいぜ! 共通項目での結合 同じ行数での結合 まとめ データ集計コマンド joinコマンドが便利過ぎて生きるのが辛い - Yuta.Kikuchiの日記 lookコマンドによる二分探索が速すぎて見えない - Yuta.Kikuchiの日記 今日はデータ集計を行う上で絶対に覚えておいた方が良いコマンドと知識を紹介したいと思います。これを身につければシステム処理と業務効率化に大きく繋がると思います。この記

    データ集計コマンドを極めてシステム処理と業務速度を爆速化するお話 - Y's note
  • アダルトフィルタ実装に向けたA○女優リストの自動抽出 + α - Y's note

  • 【進撃の巨大データ】RealTimeLog集計を目的としたRedisの活用 - Y's note

    Log集計の設計を再考 【進撃の巨大データ】Log集計用DBとシステム構成の美しい設計を考える - Yuta.Kikuchiの日記 人生を前向きに楽しむことを心に誓った@yutakikuchi_です。最近はこのブログで【進撃の巨大データ】というタイトルで何回かBigDataに関する記事を書いています。前回はLog集計用DBとシステム構成の美しい設計を考えるという題でInnoDB、InfiniDBを使ったLog集計のmerit/demerit、SystemPerformanceについて記述しました。それから時間をおいて再考し、InnoDBを使う場合のメリット/デメリットと注意事項が不足している事に気づいたのでここで追記します。更に集計の緊急度に合わせて使用するDBを変えます。リアルタイムではRedis、定期処理ではMysqlを使って集計することを試してみたいと思います。 Log集計方法のme

    【進撃の巨大データ】RealTimeLog集計を目的としたRedisの活用 - Y's note
  • 【進撃の巨大データ】Log集計用DBとシステム構成の美しい設計を考える - Y's note

    [:W560] Log集計用DB設計 考える問題 Document無しのAgile開発をガチで推奨したい@yutakikuchi_です。【進撃の巨大データ】の第2回目として巨大アクセスLog集計用DBの設計について勉強した内容についてメモしたいと思います。DB周りはそこまで詳しく無いので詳しい皆様からの突っ込み大歓迎でございます。また図々しいですが知恵をください(笑)。 今日の主目的は下の2要件を叶えるためのDB設計を考える事です。特に問題になるのがRealTimeの話でTableにLogDataを書き込む処理と集計のSQLをどのように組み立てるか、それ以外にもSystemPerformanceとArchitectureにも関わってきます。 リアルタイムで大量データを集計したい 定期処理で大量データを集計したい 使うもの Fluentd : Fluentd: Open Source Log

    【進撃の巨大データ】Log集計用DBとシステム構成の美しい設計を考える - Y's note
  • 【進撃の巨大データ】自作ApacheModuleとRedisでWebBrowserを一つ残らずUnique管理する - Y's note

    BrowserID管理の必要性 BehaviorTargeting調査レポート - Yuta.Kikuchiの日記 進撃の巨人とADTechnologyの面白さを最近の楽しみとしている@yutakikuchi_です。BigDataという言葉が大変流行っていますが、巨大な力を持つ大量のユーザーアクセスとそれから生まれるログ、その処理と分析に追われるエンジニア/データサイエンティストはまさに進撃の巨人と人間の闘いのようです(笑)この記事のタイトルは進撃の巨人でエレンが言った「巨人を一匹残らず駆逐してやる」を文字っています。今日はそんな巨大データを扱うADTechnology分野のUserTrackingに欠かせないBrowser識別子とUnique管理について触れたいと思います。ADTechの面白さを少し話しておくと検索やKVS等の最新技術だけでなく機械学習や統計のアカデミック領域の知識も必要

    【進撃の巨大データ】自作ApacheModuleとRedisでWebBrowserを一つ残らずUnique管理する - Y's note
  • 誰もが一度は陥る日付処理。各種プログラミング言語におけるDateTime型/TimeStamp型の変換方法のまとめ - Y's note

    日付型の変換処理 Date/Timestamp変換のまとめ - Yuta.Kikuchiの日記 10言語のプログラミング言語に対してそこそこの知識を保有している@yutakikucです。いろんなプログラミング言語を使用していると文法を覚えるのは大変ですよね。PHP書いている途中からJavaScriptの文法を誤って書き始めたり... それぞれの言語の文法の違いを事細かく覚える事は無理に近いです。今日はそんな各種言語仕様の記述で難解なDateTime/TimeStampについて紹介したいと思います。扱うのはWeb系のメジャープログラミング言語のSQL/C++/Java/JavaScript/Perl/PHP/Python/Rubyになります。Mysqlからデータを取り出した後や、WebAPIから取得したデータを表示用の日付フォーマットに変換する事があると思うのでそこで利用できる知識になるかと

    誰もが一度は陥る日付処理。各種プログラミング言語におけるDateTime型/TimeStamp型の変換方法のまとめ - Y's note
  • CentOSでR言語を使ってみたことのまとめ - Y's note

    Rクックブック 作者: Paul Teetor,大橋真也,木下哲也出版社/メーカー: オライリージャパン発売日: 2011/12/22メディア: 大型購入: 9人 クリック: 61回この商品を含むブログ (13件) を見る はじめに 統計的処理と結果のグラフ化をするために学生時代はmatlabを利用していました。matlabは行列演算に優れ使い易い言語だったのですが、一番の難点はMathWorks社の商用製品である事です。しかも高い。MathWorks 日 - MATLAB / Simulinkによる数値計算 - マスワークス公式日語サイト matlabと同様の機能をもつ(互換性は無い)scilabというFreeの言語もありますが、イマイチ流行っている感はありません。Home - Scilab WebSite Freeの言語で統計処理をやるのはR言語が主流のようなので、それに習ってR

    CentOSでR言語を使ってみたことのまとめ - Y's note
  • MongoDBの集計機能が便利過ぎて泣けてくるお話し - Y's note

    MongoDBイン・アクション 作者: Kyle Banker,Sky株式会社玉川竜司出版社/メーカー: オライリージャパン発売日: 2012/12/14メディア: 大型購入: 5人 クリック: 55回この商品を含むブログ (4件) を見る MongoDB集計機能 CentOSでNginxのログをFluentdを使ってMongodbにリアルタイムで格納する - Yuta.Kikuchiの日記 時給3000円のCEOと揶揄されている@yutakikucです。今日は簡単にMongodbのログ集計機能を紹介します。機能が豊富過ぎて泣けてくるんで、ログ解析する人は是非使ってみて下さい。FluentdでMongodbNginxLogを流し込む設定は上のエントリーを参照して下さい。次回はAggregationFramework/MapReduce周りについて触れたいと思います。 泣ける話 : 集

    MongoDBの集計機能が便利過ぎて泣けてくるお話し - Y's note
  • 業種別企業名辞書データを公開しました - Y's note

    Web解析Hacks ―オンラインビジネスで最大の効果をあげるテクニック & ツール 作者: Eric T. Peterson,株式会社デジタルフォレスト,木下哲也,有限会社福龍興業出版社/メーカー: オライリー・ジャパン発売日: 2006/11/08メディア: 単行(ソフトカバー)購入: 3人 クリック: 78回この商品を含むブログ (21件) を見る 企業名辞書 業種と企業名の辞書データが欲しかったんでYahoo!FinanceのデータをCrawlして作りました。帝国データバンクや四季報のデータが使えると良かったんですが、Crawlできそうに無かったので諦めました。残念ながら2600社ほどのデータしか集まっておらず、個人的にはもっといろんなデータが欲しいです。他に良い方法をご存知の方いらっしゃいましたらご連絡いただけると幸いです。 Yahoo!ファイナンス - 株価やニュース、企業情

    業種別企業名辞書データを公開しました - Y's note
  • Apache Mahout 機械学習Libraryを使って「魔法少女まどか☆マギカ」の台詞をテキストマイニングしてみた - Y's note

    Mahout in Action 作者: Sean Owen,Robin Anil,Ted Dunning,Ellen Friedman出版社/メーカー: Manning Pubns Co発売日: 2011/10/28メディア: ペーパーバック購入: 4人 クリック: 81回この商品を含むブログ (10件) を見る Index Information & Links Apache Mahout Abouc Apache Mahout Mahout has machine learning libraries Mahout Download / Setting Madmagi Words Scraping Word MA Mecab MA HDFS PUT Clustering Theory TF/IDF K-Means Canopy Clustering Word Vector Clust

    Apache Mahout 機械学習Libraryを使って「魔法少女まどか☆マギカ」の台詞をテキストマイニングしてみた - Y's note
  • 1