タグ

データ処理に関するmiguchiのブックマーク (6)

  • NYSOL – 超高速な大規模データ解析を実現するソフトウェアツール

    超高速な大規模データ解析を 実現するソフトウェアツール NYSOL makes it easier and faster to analyze big data. NYSOLver2.4.2 SOFTWARE LIST GitHub NYSOL Manual ※NYSOLは日発のオープンソース(無料)です。 *NYSOL is open source software in Japan LICENSE 最新情報NEWS 2019.06.05 SOFTWARE NYSOLのDockerイメージ公開 2019.05.23 SOFTWARE nysol_pympiのインストールメモ 2018.09.20 INFORMATION WebbleバージョンのKIZUNAを公開しました。 Back Number NYSOLとはABOUT NYSOL 大規模データの解析に関する様々な大学やプロジェクト

  • 主キーはインデックスではない - 設計者の発言

    仕事柄、奇妙なDB構造を目にすることが多い。どういう発想からそんな設計がされるのかを理解したいと思っていたのだが、モデラー仲間の秋里さんが先日うまい指摘をした。「主キーをインデックスみたいなものと勘違いしているからではないでしょうか」。インデックス(キー)というのは、レコードの並び順を規定するキーのことだ。 たしかに思い当たる節がある。「こんな順にレコードが並んでいれば処理上都合がよさそうだ」という考えで主キーが設定される。さらに主キーはユニーク制約でもあるので、重複が起こらないように「多め」に項目を突っ込んでおく。つまり「ユニーク制約をともなう代表的インデックス」程度に主キーが理解された結果として、グダグダなDB構造が出来上がるのではないか。 じっさい、昔こんなことがあった。{a,b,c,d}の複合主キーをもつテーブルXがある。ところが、別のテーブルYからテーブルXの特定レコードにアクセ

    主キーはインデックスではない - 設計者の発言
  • Apache Mahoutで機械学習してみるべ - 都元ダイスケ IT-PRESS

    Mahoutシリーズ目次(随時更新) 非分散レコメンデーション Apache Mahoutで機械学習してみるべ - 都元ダイスケ IT-PRESS (これ) レコメンデーションの簡単な原理を視覚的に把握してから実際に計算してみる - 都元ダイスケ IT-PRESS 機械学習における重大な"仮定"と、アルゴリズムの評価 - 都元ダイスケ IT-PRESS 分散レコメンデーション Mahoutで分散レコメンド(1) - 都元ダイスケ IT-PRESS Mahoutで分散レコメンド(2) - 都元ダイスケ IT-PRESS Mahoutで分散レコメンド(3) - 都元ダイスケ IT-PRESS クラスタリング 今度はMahoutでクラスタリング - 都元ダイスケ IT-PRESS 今度はMahoutでクラスタリング(ソース編) - 都元ダイスケ IT-PRESS では、文いきます。 Apach

    Apache Mahoutで機械学習してみるべ - 都元ダイスケ IT-PRESS
  • サロゲートキーは強制されるべきものではない - 設計者の発言

    複合主キーに代えてサロゲートキー(単独主キーの代替キー)を導入すべきかどうか。それはDB設計上の重要な判断事項である。なにしろレコードのアイデンティティである主キーの設定にかかわる問題だ。さまざまなメリットやデメリットを考慮してそれは判断される。その結果、サロゲートキーを導入することもあるし、しないこともある。 ところが、サロゲートキーを強制する(あるいはサロゲートキーを導入しないと開発しにくい)開発基盤がいくつか存在する。具体的には、全テーブルの識別子が"ID"等のフィールド名を持つ単独主キーであることが求められたりする。私に言わせれば、そういう開発基盤は「大盛を強制する牛丼屋」である。メニューにあるはずの「並」を頼むと、あれこれイヤガラセをされる牛丼屋。 この問題に関連して、「サロゲートキーを使わなかったから、ひどい目にあった」という開発者の声を聞いたことがあるかもしれない。心配はいら

    サロゲートキーは強制されるべきものではない - 設計者の発言
  • sfc2012s-measurement

    インターネット計測とデータ解析 (Internet measurement and data analysis) 2012年春学期 金曜4限 (14:45-16:15) 担当教員: 長 健二朗 (kjc at sfc.keio.ac.jp) TA: 空閑 洋平 (sora at sfc.wide.ad.jp) SA: 授業ページ: http://web.sfc.keio.ac.jp/~kjc/classes/sfc2012s-measurement/ 授業サポートメール (教員、TA、SAに届く): imda at sfc.wide.ad.jp 科目概要 インターネットによって、多様で膨大なデータが容易に取得できるようになっ た。 そこから知見を引出し、新たなサービスを作り出すことが可能になり、 ビッグデータや集合知として注目されている。しかし、これらを正しく理解し、 道具として使いこなす

  • Rによるデータサイエンス:12章「時系列」

    6. データの形式と属性 > class(lh) [1] "ts" > lh Time Series: Start = 1 End = 48 Frequency = 1 [1] 2.4 2.4 2.4 2.2 2.1 1.5 2.3 2.3 2.5 2.0 1.9 1.7 2.2 1.8 3.2 3.2 2.7 2.2(以下省略) ※女性の血液中の黄体ホルモンを10分間隔で測定したデータ・・・だそうです 6 7. データの形式と属性 > start(UKgas) [1] 1960 1 > end(UKgas) [1] 1986 4 > frequency(UKgas) [1] 4 > UKgas Qtr1 Qtr2 Qtr3 Qtr4 1960 160.1 129.7 84.8 120.1 1961 160.1 124.9 84.8 116.9 1962 169.7 140.9 89.7

    Rによるデータサイエンス:12章「時系列」
  • 1