タグ

ブックマーク / showyou.hatenablog.com (43)

  • 見える化あれこれ - White scenery @showyou, hatena

    先日のTokyoWebminingで、データマイニング関連で数値の見える化についてのアンカンファレンスがあり、そこでどんなものがあるかとかどんな使い分けすればいいか等の話があったので上げておきます。 図:チャート対象者と値段の関係(オンプレミス限定) 多分評価ポイントとしては、 ソフトウェアのコスト チャート作成者のコスト(作成しやすさ) カスタマイズしやすさ バックエンドの柔軟性 あたりだと考えています。全てにおいて一番って解法はいまんとこないでしょう。 まずソフトウェアのコストですが、買ったり保守するときの値段になります。人数にもよりますが、安いのはOSS(図の赤いの), 高いのは数万~数百万(図の紺色)とかになります。 次にチャート作成者のコストですが、誰がチャートを作れそうかって話のことになります。図の右に行けば行くほど、GUIで操作するだけで作れるものになり、左の方は自力でゴリゴ

    見える化あれこれ - White scenery @showyou, hatena
    yuiseki
    yuiseki 2014/07/28
  • 見える化ツールあれこれ2 - White scenery @showyou, hatena

    先日 見える化ツールあれこれとか記事書いたのだけど、TokyoWebminingの時より反応が薄くみえました。 http://showyou.hatenablog.com/entry/2014/05/01/185318 ただ需要ないならそんなもんかって感じなのですが、どうもこの辺の募集(http://www.zusaar.com/event/7437003)見てると、そもそもツールの存在を知らない方が居てもったいないことになってるんじゃないかと思うので、少しだけ紹介しときます。 ・Ganglia http://ganglia.sourceforge.net/ Hadoop運用してる人なら結構触ったことあるはず。複数台のマシンの使用率とか負荷状況とか見えます。 ・Pentaho CE(+ saiku) http://community.pentaho.com/ いわゆるBIツールと言われるも

    見える化ツールあれこれ2 - White scenery @showyou, hatena
    yuiseki
    yuiseki 2014/07/28
  • 退職してました - White scenery @showyou, hatena

    ちょっと前の話になりましたが、3月付で会社を辞めておりました。 (twitterなどで軽く仄めかしてはおりました) 極めて個人的な退職にも関わらず、送別会を開いていただくなど入社から退職まで色々とお世話になりました。 3月からは学会に顔を出したり、誘いのあった会社を見学したりしました。 結果的に明日から別の会社さんに就職することになりました。 またなんかの縁があるかもしれませんが、そのときはよろしくお願いします。 恒例の欲しいものリスト 就職周りに関して、詳しい話は時間があればどっかに書いておきます。が今は前職より前々職について色々述べたい気分です。

    退職してました - White scenery @showyou, hatena
    yuiseki
    yuiseki 2014/06/30
  • Hadoop Advent Calendar 27日目 PigでJOINできない! - White scenery @showyou, hatena

    Hadoop Advent Calendarの27日目を担当します、showyouです。今日は自分とHadoopの1年でも書こうと思いましたが、誰もそんなの読みたいと思わないので軽いTipsでも書きます。 自分は業務や趣味でPigとかHive(を少し)とExcelを(大量に)使っています。個人的に今まで触った感じを書いてみます。主観に基づくので話半分に聞いてください。 Hive まずHiveのいい点を書いておきます。 SQLっぽい言語で、SQLに慣れてれば割と書きやすい 実行時にエラーが出ている場所が(Pigと比べて)わかりやすい partitionで高速化できる クエリがでかいと途中でこける場合がある テーブル作るのが面倒。間違ったテーブル定義すると検索できなくてエラーになることもある Pig 次にHiveに比べるとユーザ数が少なそうですが、PigのHiveと比べた特徴を書いときます ク

    Hadoop Advent Calendar 27日目 PigでJOINできない! - White scenery @showyou, hatena
    yuiseki
    yuiseki 2011/12/28
  • gitを使った作業の進め方 - White scenery @showyou, hatena

    突然ですが、主に自分向けにgitの使い方をメモっておきます。 参考書としてgit入門を上げておきます。でびあんぐる版でも濱野さん版でもどっちでもいいです。最近だと「gitによるバージョン管理」というのもありますが、こちらは中身見ていません。 入門Git 作者: 濱野純(Junio C Hamano)出版社/メーカー: 秀和システム発売日: 2009/09/24メディア: 単行購入: 31人 クリック: 736回この商品を含むブログ (155件) を見るGitによるバージョン管理 作者: 岩松信洋,上川純一,まえだこうへい,小川伸一郎出版社/メーカー: オーム社発売日: 2011/10/25メディア: 単行(ソフトカバー)購入: 6人 クリック: 239回この商品を含むブログ (27件) を見る入門git 作者: Travis Swicegood,でびあんぐる出版社/メーカー: オーム社

    gitを使った作業の進め方 - White scenery @showyou, hatena
    yuiseki
    yuiseki 2011/12/06
  • 第16回データマイニング&Web勉強会に参加しました - White scenery @showyou, hatena

    http://d.hatena.ne.jp/hamadakoichi/20111127/p1 参加してきました! 元々Kafkaに興味があったので聞きにきました。HadoopというよりRabbitQueueとかの一体化したパッケージという感じでした。この辺り少し試してみたいです。 2とか4の話は、業務に結構役立ちそうだと感じました。具体的には言えませんがw ログ 1.Kafka(@yanaoki) 大規模リアルタイム処理 Facebook Insights Google Analytics UUの計算をリアルタイムで出すのが早い! Twitter Web Analytics Linkedin 解析基盤Kafkaを開発 運用監視 リアルタイムに検索結果に反映 Q:KafkaやStormはHadoopの上で動いているの? A:Hadoopは使っていない モデル。Producer, Kafka,

    第16回データマイニング&Web勉強会に参加しました - White scenery @showyou, hatena
    yuiseki
    yuiseki 2011/11/27
  • 僕がHadoop ConferenceでLTするまで - White scenery @showyou, hatena

    Hadoopは昨年の初めあたりからちらちらと見てた(Code Readingあたりから。自分で触ったのはもっと後) 試しに擬似分散で作ってみて回した。ただ台数1台だしちょっとMapReduce書いた程度であとはMySQLとKVMで済ませてた。大量のクラスタある職場いいよなぁと思い始める それとは別にもともとtwitterでbotとか作ってて大量のテキスト解析して明らかに時間がかかりすぎるよ!ってレベルになってたり・・といってもGBクラスなんだけど。 ・・ということを話してたらいつの間にかDeNAに入社してた。堂々とHadoopクラスタに触れるようになって嬉しい。 Hadoopクラスタ触ってるしHadoopカンファレンスも堂々と行けるようになった いつの間にかLTすることになってた 会社に許可とったらOKが出た 結論:なりゆき

    僕がHadoop ConferenceでLTするまで - White scenery @showyou, hatena
    yuiseki
    yuiseki 2011/09/27
  • 自分が参加してる勉強会 - White scenery @showyou, hatena

    yuiseki
    yuiseki 2011/07/08
  • Hbase at Facebookに行ってきた - White scenery @showyou, hatena

    yuiseki
    yuiseki 2011/07/02
  • DeNAに入社しました - White scenery @showyou, hatena

    日(6/13)付けでDeNAに入社しました。 お昼にチームのメンバーと事をし、そこでまぁ、自己紹介等あったのですが、ホントに、良くこんな凄い面子が揃ったもんだなぁという感じでした。 午後から、配属になった部署のミッションや自分のこれからやることを共有してもらい、自分のやりたいことが出来る環境だということを確信しました。(まぁそのために転職したわけですが) 初日ということもあり、全てが新鮮であっという間に時間が過ぎてしまいました。 この初心を忘れずに頑張っていきたいと思いますので、よろしくお願いします! ・・とは先月入られた方の日記(http://d.hatena.ne.jp/yokkuns/20110502/1304350898)なんですが、実際入ってみたらよく自分ここ配属できたなぁって感じですごいメンツでした。足を引っ張らないように適当なペースで追いかけます。といいますか今日からすで

    DeNAに入社しました - White scenery @showyou, hatena
    yuiseki
    yuiseki 2011/06/13
  • Planex GW-USMicroN-GをUbuntu 10.04で使う - White scenery @showyou, hatena

    先日入手したX60に無線LANがなかったのでAmazonから購入した。980円。 体親指サイズなのに箱は60サイズで来た・・ Linuxで使う分にはhttp://www.siio.jp/index.php?How2Ubuntuとほぼ同じやり方で問題ないと思うけど、若干変わってるとこもあるの注意。 ドライバはリンクが切れてるのでralinkのTopからSupport/Linux(http://www.ralinktech.com/support.php?s=2)を選び、RT2870USBを選ぶ 4のRT2870.hを書き換えるってのはしない(というかファイルがない) lsmodもしないで勝手に認識されてた

    Planex GW-USMicroN-GをUbuntu 10.04で使う - White scenery @showyou, hatena
    yuiseki
    yuiseki 2011/05/17
  • Ubuntu 11.04 - White scenery @showyou, hatena

    これはひどい。主にUnityまわりが残念。 現状問題と思うのは Mozcが文字表示しない(他の人は表示出来てる模様) Unityのせいでパネルが置けない? なんかCPUう(モッサリではないんだろうけど 追記 実は起動時にUbuntu Classicとか選ぶと従来のスタイルで起動できるらしい(今手元に無いのであとで) SPACESっぽいのはほんとにSPACESで便利。

    Ubuntu 11.04 - White scenery @showyou, hatena
    yuiseki
    yuiseki 2011/05/01
  • Facebookに消された - White scenery @showyou, hatena

    yuiseki
    yuiseki 2011/03/03
  • 中国語判定(というか除外)したいという話 - White scenery @showyou, hatena

    @penguinana_さんからもらったtweetの山解析してるんだけど、中には日語だけじゃなくて中国語とか英語も混ざってたりする。 この辺解析するのは時間の無駄なので機械的にカットできないかと思った。 この辺id:n_shuyoさんのlanguagedetect使って判定できると幸せなんだけど、tweetだと結構誤判定するのが残念なとこ。 http://code.google.com/p/language-detection/ でも中国語なら中国の簡体字弾くだけでも結構減らせるかなぁって。 そしたらid:takeda25さんが↓のようにやるといけると教えてくれた。 あとで試してみる。 http://d.hatena.ne.jp/takeda25/20110131 その最中にこんなの見つけた。 Pythonの自然言語処理用パッケージNLTKをインストール http://d.hatena.

    中国語判定(というか除外)したいという話 - White scenery @showyou, hatena
    yuiseki
    yuiseki 2011/02/01
  • PythonとMySQL、TokyoCabinet、KyotoCabinetによる単語頻度集計のベンチマーク - 崩壊現実-全てはvirtualに収束する-

    http://bit.ly/eiYS1S で随時更新。この日記も随時変更します。 今ちょっとyuka_でもっと質の高いreplyをやろうと思ってて、そのためにまず必要な単語の共起回数を取っています。 例えば「おはようございます」に対して「@hoge おはようなのよ」ってあった場合、「おはよう ござい ます」「おはよう なのよ」と分割して、{おはよう:{おはよう:1, なのよ:1}, ござい:{おはよう:1, なのよ:1}, ます:{おはよう:1, なのよ:1}}みたいな形にしていきます。 でこれをMySQLでやってると気の遠くなる時間がかかるのでTokyo Cabinet(TC)やKyoto Cabinet, Hadoopと比較していいやつ使うといいかなぁと思います。あくまでイイヤツを採用するだけでベンチマークが主ではないです。 今んとここんな結果です。単位は[sec]です 処理件数 10

    PythonとMySQL、TokyoCabinet、KyotoCabinetによる単語頻度集計のベンチマーク - 崩壊現実-全てはvirtualに収束する-
    yuiseki
    yuiseki 2011/01/10
  • OAuthのパラメータはsortしてないとダメって話 - White scenery @showyou, hatena

    ついコメント欄のコードだけ見てつっこんでから気づいたけど、OAuthのどこに「ソートしてから結合したい辞書」が出てくるんだ? http://d.hatena.ne.jp/nishiohirokazu/20100929/1285762532 OAuth関連のパラメータ(oauth_signature_methodとかoauth_nonceとか)のsignatureを計算するときは、を送るときにはパラメータをソートして置かないとハッシュ値が変わって一致しなくなってしまいます。(thx, s!) って経験則で言ってもアレなのでソース調べてみた。 こう言うのはRFC見るのが一番いいんですかねー。 http://oauth.net/documentation/から、http://tools.ietf.org/html/rfc5849#section-3.5.1。 They are then sort

    OAuthのパラメータはsortしてないとダメって話 - White scenery @showyou, hatena
    yuiseki
    yuiseki 2010/09/30
  • オープンソース版Google日本語入力 - White scenery @showyou, hatena

    http://googlejapan.blogspot.com/2010/05/google_10.html 試しにUbuntu 10.04(x64)に入れてみました。手順はリンク先に書いてるとおりなんで省略。 辞書データが無い分、アレゲな変換が出ませんね。 ただソースが公開されてるしsocialIMEとかデータ構造把握(あるのかしらないけど)するのにはいいのかもしれません。

    オープンソース版Google日本語入力 - White scenery @showyou, hatena
    yuiseki
    yuiseki 2010/05/15
  • カオス・ラウンジ2010行ってきた - White scenery @showyou, hatena

    http://chaosxlounge.com/ PRML勉強会の会場の近くでやってたので、ちらっと覗いてきた。 メインの写真は他の方が上げてるだろうかまず1枚だけ。 入り口で音姉と由夢踏ませるのはどうかと思ったw。これはオタク除けかw 作品自体は相変わらずカオスでよかったです。入場料安いし近く通ったら入ってみるといいかと。

    カオス・ラウンジ2010行ってきた - White scenery @showyou, hatena
    yuiseki
    yuiseki 2010/04/15
  • Hadoop入門 - White scenery @showyou, hatena

    http://www.michael-noll.com/wiki/Running_Hadoop_On_Ubuntu_Linux_(Single-Node_Cluster) これ読んでサンプルの単語カウント実行して動くとこまでやった。 まず設定ミスって立ち上がらない&ログ確認しないとどこがおかしいか分からないとかあった。 でサンプルではHDFSにファイル転送→処理ってやってるけど、DBの場合どうすんだろ。あれ根的になにか足りない?

    Hadoop入門 - White scenery @showyou, hatena
    yuiseki
    yuiseki 2010/04/12
  • SIG-WI2 - White scenery @showyou, hatena

    来てます。 今日の発表の資料置きました。 http://www.slideshare.net/guest350bd/sigwi2-twitter あと参考になりそうな資料を。 botアンケート考察 http://d.hatena.ne.jp/showyou/20091225/1261712029 二三個目のアンケート結果です。いっこめはスライドに乗ってるのがすべて・・というか既に「donsuke, ha_ma, yuka_をbotだと知ってて接してる人が多かった」のでアンケートにあまりならなかったのです(汗 Beyond Microblogging Conversation and Collaboration via Twitter:http://ella.slis.indiana.edu/~herring/honeycutt.herring.2009.pdf 説明では触れてなかったですが

    SIG-WI2 - White scenery @showyou, hatena
    yuiseki
    yuiseki 2010/03/15