kamipoのブックマーク / 2015年12月4日

kamipo id:kamipo

2015年12月4日のブックマーク (3件)

Treasure Data Update 2015 - Presto - Qiita
Treasure Dataではfluentd, 各種SDK, Data Connectorなどで収集されたデータに対して、Hive, Prestoによる分散SQLクエリが実行できます。特にPrestoはこの1年で大きく進化しましたので、ここでその内容について紹介していきたいと思います。 Prestoクエリの利用量は増え続けていて、2015年12月現在、Treasure Dataの利用統計では、１日あたり5万クエリ (月換算で150万クエリ) １日あたり10兆 (10 trillion) レコードを処理しています。2015年の始まりの時点では、1日あたりおよそ5000クエリ、1兆レコードという数字でしたので、この１年でほぼ10倍になった計算になります。昨年末のPrestoサービスの開始にあたり、CTOの太田と相談して10倍スケールできるように準備をしていたのですが、想定していたより早くこ
kamipo 2015/12/04
リンク
カジュアルにMySQLスローログ可視化with Fluentd+Elasticsearch+Kibana - kikumotoのメモ帳
この記事は MySQL Casual Advent Calendar 2015 - Qiita Elasticsearch Advent Calendar 2015 - Qiita Hamee Advent Calendar 2015 - Qiita の第４日目です。 TL;DR 開発者の皆さんに、CasualにMySQLスローログを分析しもらうために、Fluentd + Elasticsearch + Kibana でMySQLスロークエリを下図のようにビジュアライズしました。（Kibana上で EXPLAIN の結果も確認できるようにしてあります）ついでに、以下の Fluentd の filter plugin を作成しました。 kikumoto/fluent-plugin-sql_fingerprint · GitHub kikumoto/fluent-plugin-mysql_e
kamipo 2015/12/04
リンク
さだまさしを kuromoji を用いて簡単に品詞分解してみる - Qiita
さだまさし名詞-固有名詞-人名-一般さだまさしの、主に詩の歌詞を対象に、簡単な品詞分解と、それを基にした簡単な分析を行ってみた、というのがこの記事の内容です。個人的な最終的なゴールは、さだまさし風の歌詞を自動生成する bot (さだロボ) を作る事になりますが、その過程を週一でディアゴスティーニ的に（サダゴスティーニとかは節度のある大人なので言わない）書いていければと思います。ついでに、その道すがら、ちょっとした解析・分析結果なども書いていきます。道具の用意解析するにあたっていくつか道具が必要なので、最初に、使用したツール群について簡単にお話します。 kuromoji KuromojiはJavaで書かれているオープンソースの日本語形態素解析エンジンです。 Java で形態素解析を行いたい場合、昔は「Sen」などを使うことが多かったですが、atilika 社が OSS として k
kamipo 2015/12/04
リンク
- 2015年12月6日
- 2015年12月4日
- 2015年12月3日