ayaniimi213のブックマーク - はてなブックマーク

ラーメン二郎分類器 : ABEJA Platformを使ってサービス公開するぞ - Y's note

ラーメン二郎分類器引用 : ラーメン二郎三田本店（らーめんじろう） - 三田/ラーメン | 食べログ @yutakikuchi_です。皆さん、ラーメン二郎は好きですか？好きですよね？僕は大学の目の前にラーメン二郎があったので足繁く通っていました。しかし、ラーメン二郎初心者にとっては、麺の画像を見て、それが「ラーメン二郎」なのか「長崎ちゃんぽん」なのかが見分けが付きづらいと思います。よってDeepLearningを用いて、それらの分類を自動化する仕組みをABEJA Platformを使って実装する方法について記載します。データのcrawlingなどの実装は必要ですが、学習に関してはtemplateという機能を利用するとノンプログラミングでもモデル作成が可能なので、以下の作業時間はおおよそ10分で完了できます。既にABEJA Platform、ABEJA Platform Ann

ayaniimi213 2019/07/08

リンク

学習データの蓄積を加速する ABEJA Platform Annotation - Y's note

AIをビジネスに実装する方法作者:岡田陽介日本実業出版社Amazon ABEJA Platformについて yut.hatena blog.com @yutakikuchi_です。前回のPostでABEJAが開発しているMLOpsの課題を解決するABEJA Platformの概要について説明しました。このPostではABEJA Platformの一機能であり、学習データの蓄積を加速する ABEJA Platform Annotation について紹介します。 ABEJA Platform Annotationとは abejainc.com 今回はMLOpsで重要な学習データを蓄積するためのAnnotationについて書きます。そもそも学習データとは？という方もいると思うので、簡単に一言で表すと、人工知能のモデルを作るための知識・入力データと言えます。人間も学習という訓練を重ねながら脳を

ayaniimi213 2019/07/06

リンク

機械学習の種類と特徴 - Y's note

人間ではなく機械が自動的に意思決定することのメリットとして、大量のデータをInputとした予測、推定、分類などの処理をAlgorithmの構築によって瞬時に行える事である。 1枚の画像だけを見て何が写っているかのような判断においては人間の脳が優れているものの、大量のデータInputを基にした組み合わせの選択や最適解に瞬時に辿り着くという目的においては機械に任せてしまったほうが効率的とも言える。昔から機械学習による予測、推定、分類などの処理は様々な手法として提案されており、どういった問題を機械に判断させるかという切り口で最適なものを人が選択する。下記表に機械学習の種類と特徴を纏めてみた。※ただし必ずしも6種類のいずれかに分類される訳ではない。例としてニューラルネットワークがあり教師あり学習であり深層学習にも位置する。機械学習の種類特徴代表的なAlgorithm 備考教師あり学習正解

ayaniimi213 2016/02/15

リンク

機械学習のOverfitting対策 - Y's note

Overfitting対策 How can I avoid overfitting? - Quora 機械学習で偏った学習データに適合したモデルを評価データに対して利用した場合、精度が悪い結果が得られることがあります。単純にモデルにInputする訓練データが少なかったり、局所領域に存在するデータ扱っていたり、モデルの自由度が高く複雑である事など幾つか原因が考えられ、上のQuoraで解決策について意見が書かれています。ここでは結論として書かれた内容について簡単に紹介します。 K-Fold Cross Validation 単純な解決方法としては学習時に偏ったデータに適合しすぎないように学習データをK個のまとまりに分割して、K-1個のデータを用いて学習、残りの1個を用いて評価する作業を組みわせパターン全てで行うというK-Fold Cross Validationという手法が用いられます。こうす

ayaniimi213 2014/12/09

リンク

OpenSSLの暗号処理が爆速な件 - Y's note

OpenSSL―暗号・PKI・SSL/TLSライブラリの詳細― 作者:John Viega,Matt Messier,Pravir Chandra,齋藤孝道オーム社Amazon 目次 OpenSSLによる暗号実行環境 OpenSSLによる暗号化速度 ECBとCBCの違い PHP OpenSSLとMcrypt関数のalgorithms比較 OpenSSLとmcrypt関数のDES,AESの速度比較 Mcryptのゼロpaddingの癖 C DES暗号 AES暗号 OpenSSLとMcryptのDES,AESの速度比較 OpenSSLによる暗号 OpenSSL日本語サイト: The Open Source toolkit for SSL/TLS あどてくやっている@yutakikuchi_です。今日はOpenSSLの共通鍵暗号について調査した内容を纏めます。OpenSSLについて特にC言

ayaniimi213 2014/02/28

リンク

ログ集計システムを自前で作る - Y's note

Index ログ集計システムの要件 DB設計データ保存方針 table設計サーバ構成 Fluentd fluentd,fluent-plugin-mysql-bulk install td-agent.conf mysqlにデータが格納される事を確認する集計用のバッチその他 Table肥大化防止可視化ログ集計システムの要件爆弾ログ処理班の@yutakikuchi_です。ログ集計システムというものを作る時に皆さんはどのように対応していますか？以下の候補から要件のレベルで使い分けをしている人が多いと予想しています。ざっくりの評価ですが、導入難易度、正確性、可視化、リアルタイム、長期集計、スケール、運用費用という点で評価を書いています。ツール導入難易度正確性可視化リアルタイム長期集計スケール運用費用リンク GA(スタンダード) ○ × ○ ○ ○ ○ ○ Go

ayaniimi213 2014/02/13

リンク

R言語でSVM(Support Vector Machine)による分類学習 - Y's note

サポートベクターマシン入門作者: ネロクリスティアニーニ,ジョンショー‐テイラー,Nello Cristianini,John Shawe‐Taylor,大北剛出版社/メーカー: 共立出版発売日: 2005/03メディア: 単行本購入: 8人クリック: 135回この商品を含むブログ (41件) を見る SVMとは Support Vector Machineの略で教師あり学習に分類されます。線形、非線形の識別関数があり現在知られている多くの学習モデルの中では最も優れた識別能力があるとされています。いわゆる2値分類を解くための学習モデルであり、線形しきい素子を用いて分類器を構成します。訓練データにおける各データ点と距離が最大になるマージン最大化という基準で線形しきい素子のパラメータを学習させます。シンプルな例は与えられたデータ集合を全て線形に分離する事です。SVMはカーネルトリックという

ayaniimi213 2013/12/11

リンク

ギーク野郎のTerminal生活 - Y's note

ギーク野郎ギーク野郎とは開発用Terminalを常に立ち上げてプログラミング言語をいじっている人の事をここでは意味します。ギーク野郎はモニターを複数台所有し、それぞれがTerminal用、ネットサーフィン用、ニコニコ動画専用というような使い分けをしています。しかしそれぞれのモニターへの視線とマウス移動はフラストレーションを溜める1要因になります。それを回避するために本当のギーク野郎は1台モニタのTerminalだけで作業します。すみません、左の発言は適当です笑。この記事ではTerminalだけで作業を完結したい人を対象とし、GUIを使わずにCUIだけでの作業環境構築を目指し、それに役立ちそうなアイテムについて紹介します。 tmux tmux プロセス管理の初歩テクニック - Yuta.Kikuchiの日記 tmuxを使ってWorking Spaceを効率的に使う事を強く薦めます。個人的に

ayaniimi213 2013/09/25

リンク

MongoDBのCapped CollectionとTailable Cursorを使ったRealTimeAccess集計 - Y's note

Index RealTimeAccess集計 Capped Collection Tailable Cursor まとめ RealTimeAccess集計 RealTimeAccess集計をするためにMongo DBの利用を考えます。サーバーの構成は上図のようなイメージで各種ApplicationServerからFluentdでLogAggregatorにRealTimeでLogデータを転送し、LogAggregator MasterがMongo DBにFluentdで書き込んで行きます。ここで言うRealTimeAccess集計の機能要件を整理すると以下のようになります。 Access発生後、1分以内で集計結果をWebツール上で確認したい。集計区間も1分単位など。複数条件が指定可能で、柔軟なCross集計がしたい。 RealTimeAccess集計のSystem負荷を出来る限り抑えたい。

ayaniimi213 2013/08/14

リンク

データ集計コマンドを極めてシステム処理と業務速度を爆速化するお話 - Y's note

Index データ集計コマンド爆速で検索したいぜ！ lookを使う LC_ALL=Cを設定するデータのランダムサンプリングがしたいぜ！ sedを使う awkを使う sortの--random-sortを使う Script言語を使う shufを使うランダムサンプリング速度比較合計と平均値を集計したいぜ！列データ取得重複行のカウント合計値出力平均値出力複数ファイルのデータ結合がしたいぜ！共通項目での結合同じ行数での結合まとめデータ集計コマンド joinコマンドが便利過ぎて生きるのが辛い - Yuta.Kikuchiの日記 lookコマンドによる二分探索が速すぎて見えない - Yuta.Kikuchiの日記今日はデータ集計を行う上で絶対に覚えておいた方が良いコマンドと知識を紹介したいと思います。これを身につければシステム処理と業務効率化に大きく繋がると思います。この記

ayaniimi213 2013/08/01

リンク

アダルトフィルタ実装に向けたA○女優リストの自動抽出 + α - Y's note

ayaniimi213 2013/07/19

リンク

【進撃の巨大データ】RealTimeLog集計を目的としたRedisの活用 - Y's note

Log集計の設計を再考【進撃の巨大データ】Log集計用DBとシステム構成の美しい設計を考える - Yuta.Kikuchiの日記人生を前向きに楽しむことを心に誓った@yutakikuchi_です。最近はこのブログで【進撃の巨大データ】というタイトルで何回かBigDataに関する記事を書いています。前回はLog集計用DBとシステム構成の美しい設計を考えるという題でInnoDB、InfiniDBを使ったLog集計のmerit/demerit、SystemPerformanceについて記述しました。それから時間をおいて再考し、InnoDBを使う場合のメリット/デメリットと注意事項が不足している事に気づいたのでここで追記します。更に集計の緊急度に合わせて使用するDBを変えます。リアルタイムではRedis、定期処理ではMysqlを使って集計することを試してみたいと思います。 Log集計方法のme

ayaniimi213 2013/07/17

リンク

【進撃の巨大データ】Log集計用DBとシステム構成の美しい設計を考える - Y's note

[:W560] Log集計用DB設計考える問題 Document無しのAgile開発をガチで推奨したい@yutakikuchi_です。【進撃の巨大データ】の第2回目として巨大アクセスLog集計用DBの設計について勉強した内容についてメモしたいと思います。DB周りはそこまで詳しく無いので詳しい皆様からの突っ込み大歓迎でございます。また図々しいですが知恵をください(笑)。今日の主目的は下の2要件を叶えるためのDB設計を考える事です。特に問題になるのがRealTimeの話でTableにLogDataを書き込む処理と集計のSQLをどのように組み立てるか、それ以外にもSystemPerformanceとArchitectureにも関わってきます。リアルタイムで大量データを集計したい定期処理で大量データを集計したい使うもの Fluentd : Fluentd: Open Source Log

ayaniimi213 2013/07/17

リンク

【進撃の巨大データ】自作ApacheModuleとRedisでWebBrowserを一つ残らずUnique管理する - Y's note

BrowserID管理の必要性 BehaviorTargeting調査レポート - Yuta.Kikuchiの日記進撃の巨人とADTechno logyの面白さを最近の楽しみとしている@yutakikuchi_です。BigDataという言葉が大変流行っていますが、巨大な力を持つ大量のユーザーアクセスとそれから生まれるログ、その処理と分析に追われるエンジニア/データサイエンティストはまさに進撃の巨人と人間の闘いのようです（笑）この記事のタイトルは進撃の巨人でエレンが言った「巨人を一匹残らず駆逐してやる」を文字っています。今日はそんな巨大データを扱うADTechno logy分野のUserTrackingに欠かせないBrowser識別子とUnique管理について触れたいと思います。ADTechの面白さを少し話しておくと検索やKVS等の最新技術だけでなく機械学習や統計のアカデミック領域の知識も必要

ayaniimi213 2013/07/03

リンク

誰もが一度は陥る日付処理。各種プログラミング言語におけるDateTime型/TimeStamp型の変換方法のまとめ - Y's note

日付型の変換処理 Date/Timestamp変換のまとめ - Yuta.Kikuchiの日記 10言語のプログラミング言語に対してそこそこの知識を保有している@yutakikucです。いろんなプログラミング言語を使用していると文法を覚えるのは大変ですよね。PHP書いている途中からJavaScriptの文法を誤って書き始めたり... それぞれの言語の文法の違いを事細かく覚える事は無理に近いです。今日はそんな各種言語仕様の記述で難解なDateTime/TimeStampについて紹介したいと思います。扱うのはWeb系のメジャープログラミング言語のSQL/C++/Java/JavaScript/Perl/PHP/Python/Rubyになります。Mysqlからデータを取り出した後や、WebAPIから取得したデータを表示用の日付フォーマットに変換する事があると思うのでそこで利用できる知識になるかと

ayaniimi213 2013/06/17

リンク

CentOSでR言語を使ってみたことのまとめ - Y's note

Rクックブック作者: Paul Teetor,大橋真也,木下哲也出版社/メーカー: オライリージャパン発売日: 2011/12/22メディア: 大型本購入: 9人クリック: 61回この商品を含むブログ (13件) を見るはじめに統計的処理と結果のグラフ化をするために学生時代はmatlabを利用していました。matlabは行列演算に優れ使い易い言語だったのですが、一番の難点はMathWorks社の商用製品である事です。しかも高い。MathWorks 日本 - MATLAB / Simulinkによる数値計算 - マスワークス公式日本語サイト matlabと同様の機能をもつ(互換性は無い)scilabというFreeの言語もありますが、イマイチ流行っている感はありません。Home - Scilab WebSite Freeの言語で統計処理をやるのはR言語が主流のようなので、それに習ってR

ayaniimi213 2013/05/10

リンク

MongoDBの集計機能が便利過ぎて泣けてくるお話し - Y's note

Mongo DBイン・アクション作者: Kyle Banker,Sky株式会社玉川竜司出版社/メーカー: オライリージャパン発売日: 2012/12/14メディア: 大型本購入: 5人クリック: 55回この商品を含むブログ (4件) を見る Mongo DB集計機能 CentOSでNginxのログをFluentdを使ってMongo dbにリアルタイムで格納する - Yuta.Kikuchiの日記時給3000円のCEOと揶揄されている@yutakikucです。今日は簡単にMongo dbのログ集計機能を紹介します。機能が豊富過ぎて泣けてくるんで、ログ解析する人は是非使ってみて下さい。FluentdでMongo dbにNginxのLogを流し込む設定は上のエントリーを参照して下さい。次回はAggregationFramework/MapReduce周りについて触れたいと思います。泣ける話 : 集

ayaniimi213 2013/04/26

リンク

業種別企業名辞書データを公開しました - Y's note

Web解析Hacks ―オンラインビジネスで最大の効果をあげるテクニック & ツール作者: Eric T. Peterson,株式会社デジタルフォレスト,木下哲也,有限会社福龍興業出版社/メーカー: オライリー・ジャパン発売日: 2006/11/08メディア: 単行本（ソフトカバー）購入: 3人クリック: 78回この商品を含むブログ (21件) を見る企業名辞書業種と企業名の辞書データが欲しかったんでYahoo!FinanceのデータをCrawlして作りました。帝国データバンクや四季報のデータが使えると良かったんですが、Crawlできそうに無かったので諦めました。残念ながら2600社ほどのデータしか集まっておらず、個人的にはもっといろんなデータが欲しいです。他に良い方法をご存知の方いらっしゃいましたらご連絡いただけると幸いです。 Yahoo!ファイナンス - 株価やニュース、企業情

ayaniimi213 2013/02/10

リンク

Apache Mahout 機械学習Libraryを使って「魔法少女まどか☆マギカ」の台詞をテキストマイニングしてみた - Y's note

Mahout in Action 作者: Sean Owen,Robin Anil,Ted Dunning,Ellen Friedman出版社/メーカー: Manning Pubns Co発売日: 2011/10/28メディア: ペーパーバック購入: 4人クリック: 81回この商品を含むブログ (10件) を見る Index Information & Links Apache Mahout Abouc Apache Mahout Mahout has machine learning libraries Mahout Download / Setting Madmagi Words Scraping Word MA Mecab MA HDFS PUT Clustering Theory TF/IDF K-Means Canopy Clustering Word Vector Clust

ayaniimi213 2013/01/14

リンク

はてなブックマーク

タグ

ブックマーク / yut.hatenablog.com (19)

お知らせ

月間はてなブックマーク数ランキング（2024年7月）

今週のはてなブックマーク数ランキング（2024年7月第4週）

今週のはてなブックマーク数ランキング（2024年7月第3週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス