ブックマーク / yut.hatenablog.com (6)

  • データ集計コマンドを極めてシステム処理と業務速度を爆速化するお話 - Y's note

    Index データ集計コマンド 爆速で検索したいぜ! lookを使う LC_ALL=Cを設定する データのランダムサンプリングがしたいぜ! sedを使う awkを使う sortの--random-sortを使う Script言語を使う shufを使う ランダムサンプリング速度比較 合計と平均値を集計したいぜ! 列データ取得 重複行のカウント 合計値出力 平均値出力 複数ファイルのデータ結合がしたいぜ! 共通項目での結合 同じ行数での結合 まとめ データ集計コマンド joinコマンドが便利過ぎて生きるのが辛い - Yuta.Kikuchiの日記 lookコマンドによる二分探索が速すぎて見えない - Yuta.Kikuchiの日記 今日はデータ集計を行う上で絶対に覚えておいた方が良いコマンドと知識を紹介したいと思います。これを身につければシステム処理と業務効率化に大きく繋がると思います。この記

    データ集計コマンドを極めてシステム処理と業務速度を爆速化するお話 - Y's note
  • Support Vector Machinesを用いた「魔法少女まどか☆マギカ」人物予測モデル - Y's note

    言語処理のための機械学習入門 (自然言語処理シリーズ) 作者: 高村大也,奥村学出版社/メーカー: コロナ社発売日: 2010/07メディア: 単行購入: 13人 クリック: 235回この商品を含むブログ (39件) を見る 人物予測モデル 記事のタイトルがだいぶ固い内容になっていまいましたがやりたい事はとても簡単です。過去に発せられたまど☆マギ台詞の形態素を学習し、予測モデルを作成します。その後に未分類の形態素のデータセットを与えた時にどれだけ人物のラベル付けが正しく行われたかを評価します。予測モデルの対象となる人物は鹿目まどか/暁美ほむら/美樹さやか/キュゥべえ/佐倉杏子/巴マミの合計6名です。機械学習にはSVMを利用します。先に実験の結果をお伝えしておくと、台詞の形態素ベクトルでは十分なマルチラベリングができていません。それでもこの記事が気になる方は読み進めてください。処理手順の詳

    Support Vector Machinesを用いた「魔法少女まどか☆マギカ」人物予測モデル - Y's note
  • 10秒で設定可能なlibsvmで機械学習を行う - Y's note

    Support Vector Machines (Information Science and Statistics) 作者: Ingo Steinwart,Andreas Christmann出版社/メーカー: Springer発売日: 2008/08/29メディア: ハードカバー クリック: 17回この商品を含むブログを見る libsvm LIBSVM -- A Library for Support Vector Machines R言語でSVM(Support Vector Machine)による分類学習 - Yuta.Kikuchiの日記 前回RでのSVMを簡単に紹介しましたが、今日はlibsvmを利用したirisの分類学習を行いたいと思います。libsvmは導入がめちゃくちゃ簡単なところが売りだと思います。zipをlibsvmサイトからdownloadして展開してgmakeで

    10秒で設定可能なlibsvmで機械学習を行う - Y's note
    kana0355
    kana0355 2012/08/30
    libsvmも簡単に扱えるようになったなあ….
  • R言語でSVM(Support Vector Machine)による分類学習 - Y's note

    サポートベクターマシン入門 作者: ネロクリスティアニーニ,ジョンショー‐テイラー,Nello Cristianini,John Shawe‐Taylor,大北剛出版社/メーカー: 共立出版発売日: 2005/03メディア: 単行購入: 8人 クリック: 135回この商品を含むブログ (41件) を見る SVMとは Support Vector Machineの略で教師あり学習に分類されます。線形、非線形の識別関数があり現在知られている多くの学習モデルの中では最も優れた識別能力があるとされています。いわゆる2値分類を解くための学習モデルであり、線形しきい素子を用いて分類器を構成します。訓練データにおける各データ点と距離が最大になるマージン最大化という基準で線形しきい素子のパラメータを学習させます。シンプルな例は与えられたデータ集合を全て線形に分離する事です。SVMはカーネルトリックという

    R言語でSVM(Support Vector Machine)による分類学習 - Y's note
  • Apache Mahout 機械学習Libraryを使って「魔法少女まどか☆マギカ」の台詞をテキストマイニングしてみた - Y's note

    Mahout in Action 作者: Sean Owen,Robin Anil,Ted Dunning,Ellen Friedman出版社/メーカー: Manning Pubns Co発売日: 2011/10/28メディア: ペーパーバック購入: 4人 クリック: 81回この商品を含むブログ (10件) を見る Index Information & Links Apache Mahout Abouc Apache Mahout Mahout has machine learning libraries Mahout Download / Setting Madmagi Words Scraping Word MA Mecab MA HDFS PUT Clustering Theory TF/IDF K-Means Canopy Clustering Word Vector Clust

    Apache Mahout 機械学習Libraryを使って「魔法少女まどか☆マギカ」の台詞をテキストマイニングしてみた - Y's note
  • 魔法少女まどか☆マギカN-Gram - Y's note

    小説 魔法少女まどか☆マギカ (まんがタイムKRノベルス) 作者: 原作:Magica Quartet,文:一肇(ニトロプラス),イラスト:蒼樹うめ・シャフト出版社/メーカー: 芳文社発売日: 2012/05/08メディア: 単行(ソフトカバー)購入: 1人 クリック: 78回この商品を含むブログ (14件) を見る まどマギN-Gram抽出 魔法少女まどか☆マギカのN-Gramを抽出したデータを記載します。目的はテキスト機械学習用のデータ抽出です。N=3〜7で試してみました。台詞のデータは以下のサイトをPythonでスクレイプ、N-Gramの解析にはC++で行いました。 魔法少女まどか☆マギカ WIKI - トップページ まどマギ台詞 台詞をスクレイピングするプログラムを記載します。プログラムをmadmagi_scrape.pyとして保存します。Pythonプログラムを実行するとmad

    魔法少女まどか☆マギカN-Gram - Y's note
  • 1