chezouのブックマーク - はてなブックマーク

DataFrameで特徴量作るのめんどくさ過ぎる。。featuretoolsを使って自動生成したろ - Qiita

前にSQLで言う所のcase when x then y else z end的な処理をpandasでやる時にすぐやり方を忘れるから記事にした。あれはあれでいいのだけれど、まだまだ前処理にすごく時間がかかる！！めっちゃめんどいなんとかしたい... 今までpandas.DataFrameで色々特徴量生成（feature creationとかfeature engineering）する時に、ごちゃごちゃpandasのネイティブな機能を使って生成してたけど、kagglerのエレガントなデータの前処理を見ていると下記モジュールを使っている人が多い印象。 scikit-learn.preprocessing category_encoders featuretools 特に大量に特徴量を生成したい場合、featuretoolsがすごく便利そうな予感！！！よっしゃ!! 使ってみよ！！！ Featu

chezou 2018/06/23

リンク

Ubuntu 18.04へのCUDAインストール方法 - Qiita

Ubuntu 18.04 に NVIDIA の CUDA のインストール方法です。私は主に Google Cloud や Amazon EC2 の GPU インスタンスを使っているので、それ前提で書きます。ストレージは20GB程度必要です。Python からしか使わない場合は Anconda 内蔵の CUDA を使用するのがお勧めです。 Ubuntu の他のバージョンはこちらをご覧ください。 Ubuntu 16.04 https://qiita.com/yukoba/it ems/3692f1cb677b2383c983 Ubuntu 20.04 https://qiita.com/yukoba/it ems/c4a45435c6ee5d66706d 前準備 CUDA 10や11をNVIDIAのリポジトリからインストール CUDA 10 から Ubuntu 18.04 向けが https://

chezou 2018/05/11

リンク

Netflixがカスタマーを誰よりも理解するためのデータ分析プロセス、コンシューマー・サイエンスの紹介 - Qiita

時間がたつに連れて、私のフォーカスは、「カスタマーが何を言っているのか？」から、「まずはテストしよう！」というコンシューマー・サイエンスの態度に変わりました。私のチームのカスタマーに関するインサイトは向上し、学びの速度も上がり、何がカスタマーを喜ばせるのかについてのある仮説を形成するに至りました。以下が、コンシューマー・サイエンスとカスタマーオブセッションのために私達が使ったリサーチの手法です。既存のデータを使って過去と現在のカスタマーの行動を理解する。私達の作っているものに対してカスタマーがどう反応するのかを聞くために、フォーカス・グループや一対一のインタビューやユーザーテストといったクオリティティブなリサーチをする。カスタマーがどういった人たちなのかを、デモグラフィック（人口統計学的属性、つまり性別、年齢、住んでいる地域、所得、職業、学歴、家族構成など）、競合する製品の使用度、

chezou 2018/05/06

量的分析だけでなく質的分析もしているという話

リンク

文章特徴抽出ライブラリWordBatchを試してみる - Qiita

GWを使って、文章から特徴を抽出するライブラリwordbatchを試しました。wordbatchって何なの？って人も見たことあるって人もこれから使ってみようという人にも役に立てればと思います。 WordBatchとはこちらで公開されております。一言で言うと「機械学習用の並列処理テキスト抽出ライブラリ(予測器付き)」です。ミニバッチで文章からの特徴抽出を行うため、少ないメモリかつ並列処理で文章からの特徴抽出が可能です。カスタマイズ性も高く、他のライブラリをそのまま置き換えることができます。また、wordbatchというライブラリは文章特徴抽出器の他に、単一ラベル用のオンラインで並列処理できる予測器も備えています。こちらも実際にメモリに乗りづらい大きいデータの予測などに活用できると思われます。ユースケースとしては、以下の要望に応えられるものかと思います。なるべく時間かけずに文章の

chezou 2018/05/01

リンク

SSDで道路の損傷を検出した - Qiita

はじめに SSD(Single Shot Multibox Detector)で道路の損傷を検出しました．作業環境等に関しては株式会社パソナテックさんにご協力いただきました．なお成果物は学習済みモデルとともにGitHubに公開されています．不具合もまだ複数あると思いますので，気軽にissueを立てていただければと思います．やったことを最初から文章で説明するより，まずは成果物を見ていただいたほうが早いと思うので，デモをお見せします．このように，横断歩道やセンターラインのかすれ，陥没，ひび割れなどを検出することができます．道路の損傷を検出する方法はいろいろありますが，画像認識を用いるならば，車で移動しながらスマホや車載カメラでリアルタイムに検出できると便利です．このような認識手法を採用するのであれば，デバイスの制約により，計算量が小さいモデルが求められます．道路の損傷を物体認識

chezou 2018/04/11

リンク

【機械学習】OOB (Out-Of-Bag) とその比率 - Qiita

ランダムフォレストに関する解説を読んでいるとよく遭遇するOOB(Out-Of-Bag)、その詳細に迫ります。ブートストラップサンプリング $N$ 個の訓練標本 $\{\boldsymbol{x}_i, y_i \} _{i=1}^N$ から重複を許してランダムに同じだけの数$N$個を選ぶことで、訓練標本集合を作る方法をブートストラップサンプリングと呼びます。ランダムフォレストではこのブートストラップサンプリングで作った$M$個の訓練標本で多数の決定木を作ることから「フォレスト」という名称がついています。このとき、$N$個から重複ありで$N$個選ぶので、中には選ばれなかったデータがあります。これをOOB(Out-Of-Bag)と呼びます。ランダムフォレストのエラーの評価に使われたりします(ココなど) $i$番目のデータ$ ( \boldsymbol{x}_i, y_i )$に着目すると、

chezou 2018/03/22

36.79%

リンク

GPU有効化したLightGBMをインストールする（Ubuntu 16.04） - Qiita

背景仕事で流行りのアンサンブル学習を試すことになり、XGBoostより速いという噂のLightGBMをPythonで試してみることに実際、使い勝手良く、ニューラルネットよりも学習が短時間で終わるのでもっと色々試してみたいと思う conda-forgeから入れたLightGBMではGPU有効化されてないので、手動でコンパイルしようと試みる他の方が紹介されている方法に従ってコンパイル　→　エラーという流れ。以下、私の環境での解決方法ですが、この問題はOpenCLの違ったバージョンがインストールされている場合に発生するようなので、まず上のURLで書かれている方法を試すことをおすすめします。あと、本記事ではLightGBMの使い方は解説しません。QiitaにはLightGBMについての素晴らしい解説が既にあるので、そこらへんを参考にしてみてください。インストール環境 Ubuntu 16

chezou 2018/03/21

リンク

形態素解析ツールの比較 (NLP2018) - Qiita

NLP2018のワークショップに行ってきたのですが、そこで聞いてきたことのうち、形態素解析ツールに関することを大雑把にまとめておきます。聞いたことをまとめることが目的なので、詳細は各ツールのWebサイトやgithubページへ行ってください。間違っている部分、追加したい内容があればコメントでお願いします。追記: 2018/04/02 nlp2018の発表資料が公開されました。 Juman++ (リンク) MeCab (リンク) KyTea (リンク) Unidic (リンク) https://sites.google.com/view/nlp2018ws/ NLP2018 形態素解析の今とこれから趣旨: どういう手法・ツールをどのようなタスクに対して使うべきかを選べるように、各ツールの開発者の発表を基に比較してもらうこと。さまざまな発表がありましたが、形態素解析ツールに焦点を当ててま

chezou 2018/03/18

SudachiはESプラグインあるのか。Solrはどうだろう

リンク

Google Homeを使って4歳児とSlackで会話する方法 - Qiita

わたあめに捧ぐ(私信) 私の家では、家族の連絡にSlackを利用しています。 Slackはとても便利なのですが、基本的にテキストベースのコミュニケーションとなるため、文字入力ができない幼児には使うことができません。そこで、Google Homeを活用して、文字入力をせずにSlackで会話するシステムを構築してみました。イメージは以下のとおりです。このシステムは、大まかに以下の2つで構成されています。 Slackへの投稿をGoogle Homeがしゃべってくれる仕組み Google Homeに話しかけるとSlackに投稿してくれる仕組み順を追って説明していきます。 1. Slackへの投稿をGoogle Homeで喋らせるBotの作成以下のソフトウェアを書きました。 https://github.com/ikasamah/go-slack-google-home Google H

chezou 2018/02/21

楽しい

リンク

勾配法は本当に鞍点近傍にはまるのか？モース理論で考えてみる - Qiita

TL;DR 勾配法はほとんどのケースで極小点に収束する（鞍点には収束しない）この事実は力学系や最適化の分野ではよく知られているが，機械学習では新しい？数年前にバズった勾配法の比較動画は実際の学習現象を説明できていないかも鞍点の近傍での振舞いで差がつく？　いや，そもそも鞍点近傍に流れ込まないかも比較動画に登場した鞍点は，実際にはまず生じないタイプかも機械学習にも役立つモース理論ほとんどすべての関数はモース関数モース関数の臨界点のタイプはわずか $d+1$ 種類（$d$ は定義域次元）安定/不安定多様体とモース・スメール複体で勾配法の流れは分かる Monkey saddleはまず現れない（もし現れても簡単に消せる）量的な問題に関しては，結局は実験するしかないこの記事を書いたきっかけ昨夜，ある論文を見かけて，ふとこんなツイートをした． ML業界，「勾配法が鞍点に収束する確率

chezou 2018/02/12

リンク

kaggle TensorFlow Speech Recognition Challengeの上位者のアプローチを紹介する（後編） - Qiita

kaggle TensorFlow Speech Recognition Challengeの上位者のアプローチを紹介する（後編）DeepLearning音声認識データサイエンスKaggleSpeechRecognition INTRODUCTION 前回に引き続き、kaggleのTensorflow Speech Recognition Challangeの上位者のアプローチを紹介いたします。これはこの記事の続きです。先にそちらをご覧ください。今回は 1. Network Architecture 2. optimizer 3. resampling 4. normalization / standarization 5. data augmenation 6. silenceクラスへの対応 7. 未知のunknonwへの対応 8. 軽量化・高速化の工夫 9. LBのデータのトレ

chezou 2018/02/09

リンク

今さらProtocol Buffersと、手に馴染む道具の話 - Qiita

Protocol Buffersは別に新しい技術ではない。同時にそれは、未だ知られざる、未だに可能性を秘めた先端のソフトウェア技術基盤である。新しくないのは事実で、GoogleがProtocol Buffersをオープンソース化したのは2008年のことだし、オープンソース化前に社内で使われ出したのは更に昔に遡るだろう。たぶん。デザイン的にもJSON対応は後付けで、将来JSONが隆盛を極めることなんか全然想定していなかったのが透けて見えて古くさい。しかし、同時にどうも情報に聡い人であってもなかなかその真価を実感し得ておらず、ある意味で未知の技術であるらしい。ならば、Protobuf (Protocol Buffersの略)を解説した文書は幾多あれども、それに1を加えるのもやぶさかではない。 Protocol Buffersとは Protobufはスキーマ言語だ! 一般的にはProtob

chezou 2018/02/08

リンク

早く知っておきたかったmatplotlibの基礎知識、あるいは見た目の調整が捗るArtistの話 - Qiita

English version available on dev.to はじめに matplotlibで作ったグラフの細かい調整は大変です。何をどういじったらいいのかを調べるのにアホみたいに時間がかかることがあります1。「何を」の部分の名前さえわからないこともあります。解決の糸口を掴んだ後も希望通りの見た目を実現するまでの最後のアレンジに苦労することが多いです2。これらの問題はmatplotlibのグラフがどういう要素で構成されていて、それらに対してどういうことができるかを知ることでいくらか改善されます。私はひたすらStack Overflowの回答を読むことでいろんなつまづきを時間をかけて乗り越えてきましたが、最近になってようやく公式チュートリアルにこの苦労を回避できたはずのヒントが書いてあることに気づきました。初期にざっと目を通したのですが「なるほど、よくわからん」と判断して読み込まな

chezou 2018/01/13

内容もすごいけど、matplotlib資金援助受けてるからこそドキュメントの改善もできるんだろうな

リンク

イマドキのJavaScriptの書き方2018

PySpa統合思念体です。これからJavaScriptを覚えるなら、「この書き方はもう覚えなくていい」（よりよい代替がある）というものを集めてみました。 ES6以降の難しさは、旧来の書き方にプラスが増えただけではなく、大量の「旧来の書き方は間違いを誘発しやすいから非推奨」というものを作り出した点にあります。5年前、10年前の本やウェブがあまり役に立たちません。なお、書き方が複数あるものは、好き嫌いは当然あると思いますが、あえて過激に1つに絞っているところもあります。なお、これはこれから新規に学ぶ人が、過去のドキュメントやコードを見た時に古い情報を選別するためのまとめです。残念ながら、今時の書き方のみで構成された書籍などが存在しないからです。たぶん明示的に書いていても読み飛ばす人はいると思いますが、すでに書いている人向けではありません。これから書くコードをこのスタイルにしていくのは別にいい

chezou 2017/12/26

ありがてぇありがてぇ

リンク

コードレビューで気をつけていること - Qiita

Chromium Code Review Advent Calendar 2017の25日目の記事です。参入障壁が低かったのでなんとなく書いてみました。興味のある方は充実の本家Chromium Browser Advent Calendar 2017も参照下さいはじめにオープンソースのウェブブラウザ Chromiumでそこそこ長く開発をしてるので、自分や周りの人がコードレビューで心がけていることを書いてみました。良いコードとは何かという話はまた別の長い議論になるのでここではとりあげません。基本的に、コードレビューはコミュニケーションと思っており、うまくやることで開発効率をあげたりコードベースをより良くしたりできる可能性があると思ってるので、そんなことを書こうかと思います。なお、目指しているだけで、必ずしもいつもできているわけではないです以下、唐突にである調で。レビューレイテンシを

chezou 2017/12/25

時差もある中でのレビューとかChromiumでのレビューの知見が散りばめられていて名文だ

リンク

Elasticsearchのための新しい形態素解析器「Sudachi」 - Qiita

tl;dr （要約） Kuromojiに代わる新しい形態素解析器「Sudachi」なにが良いの？最新の辞書企業（ワークスアプリケーションズ）による継続的な更新複数の分割単位 → 検索用途での再現率と適合率の向上プラグインによる拡張省メモリ Elasticsearchで使いたいプラグイン: WorksApplications/elasticsearch-sudachi 使い方は当記事の後半をご覧ください注: この記事の執筆者はSudachiの開発に関わっていますさまざまな形態素解析器形態素解析は、伝統的な自然言語処理（Natural Language Processing, NLP）において基盤となる技術です。そして世の中にはさまざまな形態素解析器が存在します。販売されているものもありますが、一般に公開されているものだけでもいくつか例をあげると、JUMANとRNNLMを利

chezou 2017/12/22

そらみさん東京来てたんだ

リンク

Chainerで学習したモデルをONNX-ChainerとNNVM/TVMを使ってAndroidへデプロイする - Qiita

tkatoです。エッジデバイスでのDeepLearningに興味があります。近年DeepLearningで学習したモデルをスマートフォンなどのエッジデバイスで動作させる需要が高まっています。そこで今回は、Chainerの学習済みモデルをAndroidスマートフォンで動かして行きたいと思います。具体的には、上図のようにChainerのモデルをONNX-ChainerでONNXフォーマットに変換し、NNVM/TVMを使ってAndroidへデプロイします。結論から言うと、Chainerの学習済みYOLOv2(tiny)をSnapdragon搭載のAndroidスマートフォンのCPU/GPUで動作させることができました。また、ChainerをONNXフォーマットに変換してNNVM/TVMを使うことで、「Chainerでモデルをつくる → Androidでの動作確認」が全てPythonから

chezou 2017/12/22

リンク

CTOのやるべきことは何なのか？（翻訳と考察） - Qiita

【背景】この記事はQuoraの「What does a CTO do?」という質問に対するAmr-Awadallah氏のよくまとまった回答の翻訳です（本人から許可取得済）。私はMAMORIO株式会社でCTOをしているのですが、最近自分の仕事が何なのかよく分からなくなってきたことがこの記事を書こうと思ったきっかけです。私はこの記事でいう所の「雑草CTO」であり、たまたま会社の初期に私以外に適任者がいなかったので成り行きで就任し現在に至ります。そして、人数もプレッシャーも少ない総初期は来た玉は打つの姿勢でコーディングから渉外まで何でもこなしていましたが、メンバーが増え、それよりも早いペースでユーザーと仕事が増えてくると、自分の職務を定義しやることとやらないことをはっきり分ける必要が出てきます。この翻訳が同じような状況にあるCTOの助けになればと思いますし、誤訳等があったら指摘してくだ

chezou 2017/12/11

初出の2013年の弊社の規模感わからないけど少なくとも3桁はいた時代だとは思う。できるエンジニアとキレッキレのPMまとめるために確かに全方位でやってる

リンク

Deep U-Netで自動歌声分離 - Qiita

Chainer Advent Calendar 2017 2日目です。まえがき画像認識や音声認識で深層ニューラルネットワークの威力が目立ち始めた頃、何故か(結構親和性が高そうな)音楽情報処理(MIR)の分野ではそっち方面での動きは鈍く、応用してみた論文も言うほど目覚ましい成果は無かった印象でした。そんなMIR界もようやくDeepLearningブームが来ているようで、Deepな論文がどっかんどっかん投稿され、ビッグなデータセットが公開され、MIREX(音楽情報処理アルゴリズムのコンテスト的なやつ)でも勝ちはじめ、ISMIR(音楽情報処理の国際学会)の冒頭演説でネタにされる位には流行るようになりました。というわけで今年のISMIRの深層学習関連発表から比較的わかりやすそうなものを選んで、Advent Calendarのネタにさせて頂くことにしました。本稿では音楽の歌声分離タスクをやって

chezou 2017/12/09

リンク

LSTMでバイナリデータを読む~あるいはニューラルネットワークによるJPEGの再評価~ - Qiita

この記事では以下の内容をはなしますバイナリデータをそのままニューラルネットワークに突っ込むことができるグリッチJPEG画像も認識できる CNN+LSTMの構造がよくバイナリデータを学習する JPEGはロバストな画像的特徴を捉えやすいバイナリフォーマットであるバイナリデータ認識と画像認識の違い学会発表のためバンコクに来ています。 @Hi-king です。この記事はドワンゴ Advent Calendar 2017 初日の記事です。早速ですが、今日のテーマの背景のポエムを読みます。コンピュータビジョンは機械の目を作る学問だと言われていて，特に近年のディープラーニングの技術により，"特に前処理とかしなくても、生の画像を直接ニューラルネットに入力すれば画像認識できる"という能力を獲得したと言われています。しかし、ちょっと待って下さい。我々エンジニアにとって、生の画像データって本当に画

chezou 2017/12/02

面白い。しかしこれがドワンゴアドベントカレンダーの初日なのか。学会発表してきまーすとかさらっとあって良い

リンク

はてなブックマーク

タグ

ブックマーク / qiita.com (380)

お知らせ

今週のはてなブックマーク数ランキング（2024年6月第4週）

今週のはてなブックマーク数ランキング（2024年6月第3週）

今週のはてなブックマーク数ランキング（2024年6月第2週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス