naoa_yのブックマーク - はてなブックマーク

プロダクトグロースのための重回帰分析入門 - Retty Tech Blog

この記事はRetty Advent Calendar 2019 - Qiita 17日目の記事です。昨日はimaizumeさんのXcode 11でビルドしたRetty iOSアプリの検索バーが突然反応しなくなった訳でしたはじめにはじめまして！ Rettyのデータアナリストの二見です Rettyの中でもWebやアプリなどのプロダクト側の分析を担当しています。入社して半年ほどなのですが、普段の分析の様子などは以下の記事にまとまっているのでもしよろしければご覧ください。 engineer.retty.me さて今回の記事では重回帰分析を取り上げたいと思います。聞いたこともある方も多いかと思いますが、実際のプロダクトのデータで利用すると結構複雑です。この記事では回帰分析の概念から入って、実際の分析でどのように利用できるかまでをまとめています。 <注意1：この記事では一般線形回帰を軸にまとめ

naoa_y 2020/06/10

リンク

PythonのStatsmodelsを使って回帰分析を行う - wonderful cool something

Pythonを使って回帰分析を行う。使用するライブラリはStatsmodelsである。 In [78]: %matplotlib inline まず対象となるデータを読み込む。これはR処理系に付属しているattitudeというデータを write.csv(attitude, "attitude.csv", quote=FALSE, row.names=FALSE) でCSVにしたものである。 In [79]: attitude = pd.read_csv('attitude.csv') attitude.columns Out[79]: Index([u'rating', u'complaints', u'privileges', u'learning', u'rai ses', u'critical', u'advance'], dtype='object') この記事を書くにあたって参考

naoa_y 2020/06/10

リンク

Liblinear-Rubyによる線形SVMを試すついでにカーネル近似も試した - 洋食の日記

はじめに Liblinearは、線形SVMの実装として有名なライブラリ/ツールである。これをRubyから叩くライブラリとして、Liblinear-Rubyがある。 Rubyの配列で表現された、特徴ベクトルとラベルをわたすだけで、線形SVMの訓練・テストが行える。これで線形SVMによる分類器が簡単にできるので、ついでにカーネル近似も試した。インストール Liblinear-Rubyでは、内部的にswigを使っているので、HomebrewでLiblinearだけでなくswigもインストールする。 $ brew install liblinear swig $ gem install liblinear-ruby libsvm形式ファイルの読み込み Rubyでlibsvmフォーマットのファイルを読み込むメソッド書いていたが、どうにも汚くなってしまったので、 PyCallでScikit-Le

naoa_y 2018/02/06

リンク

Treasure Data に入社していました

こんにちは、個人の日記です。あまりブログを書かない派だし、この Medium アカウントも川についてとかしか書いてないのですが、同僚各位から入社エントリ書け圧¹を感じたので書きますと、2017年11月16日から Treasure Data で働いています。 Senior APIs Engineer というジョブタイトルで入社して、API Team というところに属しています。ここは、Treasure Data の各種サービスの入口となる API を提供するウェブアプリケーションを取り扱っているチームです。² そのアプリケーションは Ruby on Rails で実装されているので、主に Ruby を書いています。入社してしばらく細かいタスクをこなしつつ、なんとなく慣れてきたので最近はちょっと大き目のお金が稼げそうな新機能の実装をやっているのが今です。入社の経緯とか特に転職活動をしてい

naoa_y 2017/12/27

あとで読む

リンク

異空間への埋め込み！Poincare Embeddingsが拓く表現学習の新展開 - ABEJA Tech Blog

ABEJAでResearcherしている白川です。今回ご紹介するのは、Poincaré Embeddings [1]という手法です。その内容に驚愕し、個人的に調べたり実装したり勉強会でお話したりしていたところ、最近運良く自分の実装をredditで取り上げてもらえたので、これを機にその驚愕の内容を共有できればと思います。正直、自分の中ではまだ煮詰まりきっていない技術なので、現況の共有はしますが、ところどころ私の憶測や展望、期待が入り混じっていることをご容赦ください。 www.reddit.com Poincaré Embeddingsは大雑把に言えばword2vecを異空間で実現する技術で、双曲空間（Hyperbolic Space）という、おなじみのEuclide空間（2点$x,y$の間の距離を$\sqrt{(x_1 - y_1)^2 + (x_2 - y_2)^2 + ... + (

naoa_y 2017/08/31

リンク

Webで誰でも高度な特許検索・分析ができる「Patentfield」のリリース - BRIDGE（ブリッジ）テクノロジー＆スタートアップ情報

Patentfield .Inc (本社：米国デラウェア州、日本法人：京都府)は、2017年4月、Webで誰でも利用可能なオープン特許検索・分析プラットフォーム「Patentfield」 (https://patentfield.com)をリリースしました。 Patentfieldは、企業の知的財産部や特許・法律事務所など知的財産権の専門家だけでなく、企業の新規事業部門や研究者、スタートアップおよび個人発明家など知的財産権の専門家以外の方に対しても開かれた特許検索・分析プラットフォームです。大規模なデータ分析を用いて特許情報を研究または活用することによりビジネス・研究・発明の競争優位性を構築することができます。 PR TIMESで本文を見る

naoa_y 2017/04/28

リンク

自然言語処理のカレンダー | Advent Calendar 2016 - Qiita

About reserved postingIf you register a secret article by the day before the same day, it will be automatically published around 7:00 on the same day. About posting periodOnly articles submitted after November 1 of the year can be registered. (Secret articles can be registered anytime articles are posted.)

naoa_y 2016/12/11

リンク

perlで高速な類似検索エンジンを構築できるようにしてみた - download_takeshi’s diary

すみません。タイトルはやや釣り気味です。類似検索エンジンというか、そのアイデア程度の話なんですが、以前から考えていた類似検索エンジン風のネタがあったので、ちょっとperlで書いてみたので、そいつを晒してみます。 Luigi 　 https://github.com/miki/Luigi 類似検索なのでLuigi。ルイージとか読みたい人はそう読んじゃっても良いです。（冷）考え方と仕組み類似文書の検索、となりますと一般的には超高次元での空間インデックスとかが必要になります。昔からR-TreeやSR-Treeなど、いろいろと提案されていますが、より高次元になると「次元の呪い」によりパフォーマンスが出なくなる、なんて言われていますね。そこで最近ではLSHに代表されるような、より高度な「近似」型のインデキシング手法が人気を集めているようです。で、今回考えたLuigiも実は近似型のインデッ

naoa_y 2016/09/16

リンク

潜在的意味インデキシング（LSI）徹底入門 - あらびき日記

この記事は abicky.net の潜在的意味インデキシング（LSI）徹底入門に移行しました

naoa_y 2016/09/15

リンク

高速かつ省メモリなbit vector「sucBV」を作る

はじめに大規模なデータを扱うアプリケーションでは、速度とともに作業領域量も大きな問題となります。作業領域がメインメモリに収まらない場合、スワッピングが発生し、大幅な速度低下につながります。そのため近年、データ構造は高速なだけでなく、作業領域量が小さいことも求められています。今回紹介するデータ構造は「操作付きbit vector（SUCcinct Bit Vector:sucBV）」です。sucBVは、圧縮索引やSuccinct Data Structureなど、データをコンパクトに表現する際に重要なデータ構造です。STLのvector<bool>と同様に、bit列情報B[0....n-1]を保存します。このbit列情報は前もって与えられ、変更が無いことを前提とします。sucBVは、次の二つの操作を定数時間でサポートします。 rank(p,bit)――B[0...p]中のbit（bitは1

naoa_y 2016/09/02

リンク

お手軽に使える高速なSSE4.2専用文字検索ライブラリ - Cybozu Inside Out | サイボウズエンジニアのブログ

サイボウズ・ラボの光成です。今回はC/C++用文字検索ライブラリmie_stringを紹介します。 mie_stringはテキストの中から複数文字のいずれかが存在する場所を高速に検索する関数を提供します。本文ではその使い方と性能を紹介します。また後半ではSIMD命令を使うときに悩ましい端数処理について詳解します。準備 mie_stringではCのintrinsic関数（SSE4.2）を使ったものとアセンブリ言語で書いたものの二つを用意しました。 intrinsic関数を使う場合はMIE_STRING_INLINEを定義してからmie_string.hをincludeしてください。これ以外のファイルは不要です。C/C++のどちらからも使えます。 includeするだけでつかえるので簡単ですね。なお、コンパイルオプションにはgcc/clangなら-msse42や-mavx、Visua

naoa_y 2016/08/25

リンク

9.html

株式会社クリアコード > ククログ > PostgreSQL標準添付のpg_trgmでリビルドせずにインデックスを使った日本語全文検索をする方法：LC_CTYPEにC.UTF-8を指定 PostgreSQLのソースアーカイブにはcontribというデフォルトではビルドされないモジュールが含まれています。このモジュールの中にはpg_trgmというモジュールがあります。pg_trgmを使うとインデックスを使って高速に全文検索できます。ただし、pg_trgmはデフォルトでは日本語に対応しておらず、ソースコードを変更してビルドし直さないといけません。いけないと言われています。 GitLabは8.6からpg_trgmを使って全文検索を高速化しました。ということは、GitLabでは日本語で全文検索するとインデックスを使えないということになります。しかし、実際に試してみると日本語で全文検索してもインデッ

naoa_y 2016/05/12

リンク

ウェブ初心者も安心して作成できる、無料HTMLテンプレート素材24個まとめ - PhotoshopVIP

ウェブサイトを作成してみたいけど、なにから始めたらよいか分からない。また、時間と予算をかけずウェブページをつくりたい。そんなときは、無料ダウンロードできるHTML/CSSテンプレートを利用してみましょう。人気フレームワーク Bootstrap を利用しているテンプレートも多く、カスタマイズの自由度も高いアイテムを中心に、最新ウェブテクニックを盛り込んだフリー素材をまとめています。無料テンプレートを利用することで、製作時間の短縮につながり、他のデザイナーが作成したコードを確認することで、どのようにデザインされているのか参考にすることもできるます。詳細は以下から。ウェブ初心者も安心！すごい無料HTMLテンプレート素材まとめ AKAD 鮮やかな配色カラーパレットに、余白スペースをたっぷり確保したミニマルスタイルのHTMLテンプレート。今年を代表するスタイルのひとつと言えるでしょう。デモペ

naoa_y 2016/05/11

リンク

MariaDB、カラム型データベースエンジン「MariaDB ColumnStore」発表。OLAPへ参入

MariaDB、カラム型データベースエンジン「MariaDB ColumnStore」発表。OLAPへ参入 MariaDB ColumnStoreは、その名が示す通りMariaDBのストレージエンジンとして組み込めるカラム型のデータベースエンジンです。一般のデータベースエンジンはデータを行単位で扱うのに対して、カラム型データベースエンジンは列単位で処理するのが最大の特徴です。データを列単位で処理すると同一型のデータが並ぶためデータの圧縮効率が高く、また一般に列方向で行われる集計処理も高速に、しかも列ごとに分散して並列に行えるという利点があります。そのためにカラム型データベースエンジンは、大規模な分析や集計処理を得意とするデータベース製品で使われています。 MariaDB ColumnStoreはもともとオープンソースのデータウェアハウス向けデータベース「InfiniDB」をフォークした

naoa_y 2016/04/08

リンク

集合とかベクトルの類似度の計算のメモ - 唯物是真 @Scaled_Wurm

Pythonで実装する類似度計算 - Screaming Loud #1283. 共起性の計算法 ↑この辺りの記事を見て、集合とかベクトルの類似度の計算の記事を下書きのまま放置していたことを思い出したので書き上げた。類似度の計算のコードを書いたのでそれを載せるだけにしようかと思ったのですが、知っている人にしか伝わりそうにないので自然言語処理でよく使う話の概要だけでも書いときます。導入自然言語処理の分野では単語の意味を比較するときに、ある単語の周り(文脈)に出てきた単語のベクトル(文脈ベクトル)の類似度を計算することがある。これは「ある単語の意味はその周囲に出現する単語によって特徴づけられている」という仮説に基づいていて、文脈ベクトルが似ていれば似たような意味、似たような状況で使われる単語が多いということが言えるからである。 Distributional semantics - Wi

naoa_y 2015/12/22

リンク

C++の行列ライブラリ Eigenの紹介 - Preferred Networks Research & Development

C++で行列計算をする場合に便利なライブラリEigenを紹介したいと思います。ベクトル・行列演算は知っているからEigenの使い方だけを教えてくれというかたは最初の章は読み飛ばしてください。 — 多くの統計処理がベクトル・行列演算を用いるとコンパクトに表すことが知られています。ちょっと複雑そうにみえる問題も整理してみるとベクトル・行列演算で書ける場合が多いです。（ベクトル・行列という言葉に抵抗がある方はそれぞれを単に配列、配列の配列とでも思ってもらえればいいでしょう）。ベクトルの内積は$u^T v = u_1 v_1 + u_2 v_2 + \ldots +$として求められ、ベクトルのノルムは自分自身のベクトルとの内積の平方根、$|u| = \sqrt{ u^T u} $として求められます（以降ベクトルは全て列ベクトルを指すとします）。例えば、あるユーザーの商品の購買履歴は、\

naoa_y 2015/12/13

リンク

全文検索エンジンGroongaからword2vecを簡単に使えるプラグイン - CreateField Blog

はじめに Groonga Advent Calendar 2015の11日目の記事です。 GroongaはC/C++で書かれた高速な国産の全文検索エンジンです。 word2vecは、Googleが研究評価用に作った単語の特徴をベクトルで表現しニューラルネットモデルで教師なし学習をさせるツールです。単語を文脈も考慮させたベクトルで表現しニューラルネットで学習することで、単語の意味的な足し引きができているんじゃないか( kingからman引いてwoman足したらqueenがでてきましたよとか。)ということで少し前に結構流行ったようです。また、word2vecの作者が簡易的にsentenceのベクトル表現を使えるようにしたword2vecのコードもあるようです。普段、Groongaを使ったそこそこの規模のデータベースをもっているので、Groongaに格納されたデータからword2vec/s

naoa_y 2015/12/11

リンク

長単位解析器Comainu 0.72をリリースしました - skozawa's blog

中・長単位解析器Comainuのバージョン0.72をリリースしました。バグフィックスです。リリース comainu 0.72 - 中・長単位解析器 Comainu - OSDN 一部にハッシュの順序を前提としたコードが含まれていたため、ハッシュの順序がランダムとなったPerl5.18以降で動作がおかしくなる現象がたまに起きるようになっていました。 perl5180delta - perl v5.18.0 での変更点 - perldoc.jp 問題点の指摘、および、丁寧なデバッグをして頂き、@katsuhitosudoh さんありがとうございました。 Perlが新しいとComainuがコケることが分かったのが昨日の収穫。いつからかは知らないが5.16.1はセーフ、5.22.0はアウト。はっきりとは分からないけどhashの暗黙の要素順の問題なのかな…— Katsuhito Sudoh (@

naoa_y 2015/10/25

リンク

第4回　テーブルをコピーするついでにデータディレクトリーの中身を知る | gihyo.jp

勉強用のMySQLをいじっている時に、「⁠もとに戻せない操作しちゃったけど戻せない……」ということはありませんか？　MySQLのDDL（DROP TABLEやALTER TABLEなどの、定義を変更するためのステートメントのことです）はトランザクション非対応なので、一度DROPしてしまうとロールバックすることはできません。それどころか、DDLが実行される直前に「暗黙のコミット」が走る作りになっているので、トランザクションの最中にDDLを実行してしまうと、そこまでの操作はコミットされてしまうのです。そしてデフォルトでオートコミット……うっかりの種はどこにでも転がっています。今回は、「⁠勉強用のMySQLのテーブルをコピーしてバックアップする」「⁠ついでにデータディレクトリーの構造を勉強する」がテーマです。デモンストレーション環境について今回利用している環境は、第2回　MySQLにはじめ

naoa_y 2015/10/13

リンク

MySQLのHandlerレイヤーが何をしているのか探る旅 at #ChugokuDB

」最初はスライドの副題の通り、主にInnoDB memcached PluginとNDB memcached Engineの違い、要は、memcachedプロトコルをしゃべるmysqldプロセスと、NDB APIをしゃべるmemcachedプロセスの違い…とかなんとかしゃべろうとしてたんですが、気が付いたら各daemon pluginがどの辺のレイヤーまで横取りしているのかを調べていました。本当は「redisからデータを取り出すストレージエンジンがあってredisプロトコルをしゃべるdaemon pluginがあればほら！ redis-cliでredisからデータが取り出せるMySQLのできあがり！変態！」とかやりたかったんですけど、daemon pluginの壁は高かったです。残念。このイベント、 MySQLとPostgreSQLのユーザ会の合同データベース勉強会なのにセミナー

naoa_y 2015/10/12

リンク

はてなブックマーク

タグ

naoa_yのブックマーク (196)

お知らせ

今週のはてなブックマーク数ランキング（2024年6月第2週）

月間はてなブックマーク数ランキング（2024年5月）

今週のはてなブックマーク数ランキング（2024年6月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス