タグ

ブックマーク / sucrose.hatenablog.com (7)

  • Google の可視化ツールの Data Studio を試してみた - 唯物是真 @Scaled_Wurm

    Google Data Studio (データスタジオ) という可視化サービスがベータ版で使えるようになっていたので試してみた 見たい数値を一覧するためのダッシュボード的なものを作るためのサービスなので、いろんな場所からデータを取ってきて一箇所でまとめて確認するのが用途っぽい(今のところ似たようなサービス・ツールの方が機能が多そう データソース データソースとしてGoogle AnalyticsやBigQuery、Google SpreadsheetMySQLなどを選んでデータを取ってこれる データソースを選んでGUIでグラフやテキストを配置していく データの既存のフィールドに関数を適用した結果の値を使うこともできる 使える関数のリスト 下の画像ではGoogle Analyticsの「ブラウザ」(Chrome, Firefoxなど)と「ブラウザのバージョン」(バージョンの番号)をCONC

    Google の可視化ツールの Data Studio を試してみた - 唯物是真 @Scaled_Wurm
  • jqコマンドでJSONをCSVに変換する - 唯物是真 @Scaled_Wurm

    jq 前に以下のニコニコ動画のデータセットの記事でも使いましたが、jqコマンドはJSONを変形したり一部を抽出したりするのにとても便利なコマンドです ニコニコ動画のデータセットが公開されたらしい - 唯物是真 @Scaled_Wurm マニュアルを見ると、条件に応じた処理とか最大値を求めるとか意外と複雑な機能も使うことができます jq Manual 軽量JSONパーサー『jq』のドキュメント:『jq Manual』をざっくり日語訳してみました | Developers.IO また以下のサイトでオンライン上で試せます jq play JSONをCSVに変換 JSONをCSVに直したい時があって使い方を調べたのでメモしておきます 単純な例 まずは単純に以下のようなJSONをCSVに変換します {"key1": 1, "key2": 2} 方法1 - 文字列展開 文字列中の\()の中身は展開さ

    jqコマンドでJSONをCSVに変換する - 唯物是真 @Scaled_Wurm
    InoHiro
    InoHiro 2015/07/17
  • 進捗ありません - 修士4年間の振り返り - 唯物是真 @Scaled_Wurm

    そういえば修士論文や発表が終わっていたので報告代わりに書いておきます 役に立つ内容だったりポジティブな内容だったりはしないただの記録なので注意 できるだけマイルドな内容にしたつもりです 一応書いておくと2010年に大学院に修士として入って、2回修士論文を出せずに留年して、今回に至ります。 私がいた研究室はポジティブな結果が出ないとダメ的な雰囲気が強いのですが、結局研究はダメで修士4年目なのでお情けで出させてもらった感じが強いです…… 修士論文以外に論文も書いていないので、研究的にはほとんどアウトプットが出せなかった4年間でした。 精神的につらい感じの研究室生活で何度もやめようかと思いましたが、いろんな人に励ましていただいたり手伝ったりしていただきました 感謝しています、ありがとうございました 先生方とも全然会話できない感じになっていました。 ほとんど何も進んでいない→進んでないから話すこと

    進捗ありません - 修士4年間の振り返り - 唯物是真 @Scaled_Wurm
    InoHiro
    InoHiro 2014/02/26
  • SEXI 2013(18禁の情報の検索やデータマイニングのワークショップ)の論文読んだ - 唯物是真 @Scaled_Wurm

    SEXI 2013 | Workshop on Search and Exploration of X-Rated Information at WSDM 2013 WSDM (Web Search and Data Mining) 2013でSEXI(Search and Exploration of X-rated Information)というワークショップが開催されて一部で話題になった このワークショップではポルノなどの18禁な情報の検索やデータマイニングに関する研究を扱っている。 proceedingsが公開されていたので軽く読みました。 読み回↓も行われるらしいですね SEXI2013読み会 : ATND 論文は7投稿されて5が通ったらしいです(71%)。 Overviewが1、Keynote papersが2なので合計8個の論文(?)になりますが、以下に一部の論文の感想を

    SEXI 2013(18禁の情報の検索やデータマイニングのワークショップ)の論文読んだ - 唯物是真 @Scaled_Wurm
  • ニコニコ動画のデータセットが公開されたらしい - 唯物是真 @Scaled_Wurm

    研究用にニコニコ動画のコメント約300GBを公開‐ニコニコインフォ 情報学研究データリポジトリ ニコニコ動画コメント等データ 国立情報学研究所のダウンロードサービスでニコ動のデータセットが公開されていたので、とりあえずダウンロードしてみました ダウンロードの手順 以下のページで、名前、メールアドレス、所属を入力すればよいみたいです。 情報学研究データリポジトリ ニコニコ動画コメント等データ 申請 データの形式 行ごとにそれぞれの動画のjsonが書かれたファイルがたくさんあります。 コメントのデータもありますが、ユーザーに関する情報はないみたいです 動画の説明などには<b></b>や<font></font>、<br />などのHTMLタグが含まれていましたので、それらの除去が必要になりそうです タグの頻度 なんか面白いことできないかなーと考えたんですが、何も思い浮かばなかったので、とりあえ

    ニコニコ動画のデータセットが公開されたらしい - 唯物是真 @Scaled_Wurm
    InoHiro
    InoHiro 2013/06/17
  • 単語の頻度からLDAまでの流れの簡単なイメージのメモ - 唯物是真 @Scaled_Wurm

    トピックモデルのLDA(Latent Dirichlet Allocation)が難しいって話をよく聞きますけど,詳しい理論的な部分はともかくどういう流れに位置するものかってのはわかりやすいので簡単にメモ. 専門でないので,詳しくは参考文献を読んだほうがいいです. トピック 同じ文書内で使われる確率が高いような似た意味を持つ単語の集まり. 例えばスポーツトピックなら「野球」「サッカー」「ボール」が出やすい,など. トピックモデルは文書のトピックと,トピックに属する単語を推定する. 単語頻度からトピックモデルまでの流れのイメージ 文書をモデル化しよう→単語の頻度 同義語や多義語を捉えよう≒次元削減をしよう→LSA=SVD→以下がトピックモデル 確率的にしよう→PLSI ベイズ的にしよう=訓練データに登場しなかったものにも対応できる→LDA トピック数が自動で決まるようにしよう→ノンパラメトリ

    単語の頻度からLDAまでの流れの簡単なイメージのメモ - 唯物是真 @Scaled_Wurm
    InoHiro
    InoHiro 2013/05/26
  • Preferred Infractractureサマーインターン2011問題 - 唯物是真 @Scaled_Wurm

    サマーインターン2011問題 | Preferred Research ↑が面白そうだったので考える. O(n)の計算量で配列中に最も多い要素(ただしn/2回以上出現)を見つける. 記憶に使っていい容量はc log n bits. 1つ目 参考:API Only - Stack Exchange 現在の文字と同じ文字ならカウントを1足す 違う文字なら カウントが1以上なら1減らす カウントが0なら現在の文字を入れ替えて1足す given = "abcadbeca" count = 0 cur = given[0] for c in given: if cur == c: count += 1 else: if count == 0: cur = c count += 1 else: count -= 1 print cur 2つ目 乱択アルゴリズムかなあ?と思うけど微妙. 3つ目 思いつか

    Preferred Infractractureサマーインターン2011問題 - 唯物是真 @Scaled_Wurm
  • 1