エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
awkでテキストから集計する - Qiita
awkの勉強がてらに面白そうなデータ(xvideosのデータベース)があったので挑戦。 ※awkと書いていますがga... awkの勉強がてらに面白そうなデータ(xvideosのデータベース)があったので挑戦。 ※awkと書いていますがgawk(4.1.0)を使っています。 扱うデータ http://info.xvideos.com/db/ よりzipをダウンロードし、展開する。 ※リンク先は非18禁です 中身は2014/1/4時点で約1.7GB,約380万件ほどのテキストデータ。 データは以下のような形式で;区切りで保存されており、 フィールドは順にURL,タイトル,時間,サムネイル画像URL,埋め込み用コード,タグ,ジャンルとなっている。 ジャンルの出現頻度を集計する gawk -F ";" '{c[$7]++} END{for(i in c)printf("%8d:%s\n",c[i],i)}' xvideos.com-db.csv | sort -r タグの出現頻度を集計する タグはジャンルとは異なり、