タグ

データに関するzmsgnkのブックマーク (8)

  • データ分析で頻出のPandas基本操作 - Qiita

    はじめに 機械学習や深層学習が人気の昨今ですが、それらのモデルの精度に最もクリティカルに影響するのはインプットするデータの質です。データの質は、データを適切に把握し、不要なデータを取り除いたり、必要なデータを精査する前処理を行うことで高めることができます。 頁では、データ処理の基ツールとしてPandasの使い方を紹介します。Pandasには便利な機能がたくさんありますが、特に分析業務で頻出のPandas関数・メソッドを重点的に取り上げました。 Pandasに便利なメソッドがたくさんあることは知っている、でもワイが知りたいのは分析に最低限必要なやつだけなんや…!、という人のためのPandasマニュアルです。 また、単に機能を説明するだけでは実際の処理動作がわかりにくいため、ここではSIGNATE(旧DeepAnalytics)のお弁当の需要予想を行うコンペのデータを拝借し、このデータに対

    データ分析で頻出のPandas基本操作 - Qiita
  • tabulizerパッケージによるPDF表データからのデータ取得

    tabulizerパッケージによるPDF表データからのデータ取得 👤 Shinya Uryu 📆 2016年8月24日(水曜日) ROpenSciの実験的パッケージリポジトリropenscilabsで、便利そうなパッケージを見つけた。 {tabulizer} というものだ。このパッケージは Tabula というオープンソースツールの機能を利用して、PDF中に含まれる表から、値を取り出すというもの。 政府や企業の報告書はPDFであることが多く(二次利用を想定していないのだろうが)、表としてデータが収められていることがしばしばある。PDFからのデータ取得方法として、Rでは {tm} を 使う方法 や {pdftools} を 利用する方法 がそれぞれあるが、 {pdftools} ではテキストベースでの抽出となるため、表データの抽出からRの特徴とも言えるデータフレーム形式への変換が困難であ

  • あなた好みの女性のタイプ、データマイニングで診断します | Business Data Studio - ビジネスデータスタジオ

    女の子「A君の好きな女の子のタイプは??」 A君「うーん・・・そうだなぁ・・・うーん・・・」 日常でよく遭遇するこのようなシーン。 うまく切り返し、出会いにつなげたいところですが、好みのタイプを表現するのはなかなかに難しいですよね。 そんな皆様の悩みを解決するために 【データマイニングを用いた診断ツール】 を作成いたしました!! 己の好みを客観的、かつ定量的に把握できます。※もちろん利用は無料です。 >>>さっそく診断する!<<< 使い方は非常に簡単です。 画像とプロフィールを見て、好みのタイプだったら「Good」ボタンを、 そうでなければ「Bad」ボタンを押して下さい。 当診断は「年齢」「身長」「体重」「スリーサイズ」のデータを使っての診断です。 なので、顔だけでなく、身体的特徴を総合的に加味し、判定をお願いいたします。 20人以上のデータが貯まると「診断する」ボタンが出てきます。 最

    あなた好みの女性のタイプ、データマイニングで診断します | Business Data Studio - ビジネスデータスタジオ
  • インフォグラフィックとは?視覚で情報を伝える技術を理解しよう

    この記事は2016年9月1日に更新しました。 突然ですが、皆さんはインフォグラフィックという言葉を聞いたことはありますか? インフォグラフィックとは情報を視覚的に表現した資料を指し、ここ数年、多用する企業が増えています。 インフォグラフィックが多用される背景には、世の中に流通している情報量が多くなり、ひと目で言いたいことが分かるように工夫された「インフォグラフィック」に対する需要が高まったことがあるでしょう。インフォグラフィックは基的にイラストや図形と数字から成り立っているものがほとんどです。 言語がわからなくてもある程度意味を理解できるのでクオリティの高いものは世界的に広がりやすい傾向にあります。 今回は、インフォグラフィックの基礎知識から、実際に自分で作るときに使える無料の作成ツールの紹介、そして実際に大手企業などの事例を紹介します。 プレゼン資料作成やホームページ掲載用の画像作成な

    インフォグラフィックとは?視覚で情報を伝える技術を理解しよう
  • LINE DEVELOPER DAY_2015 Tokyo「ビッグデータを活用するための分析プラットフォーム」レポート #linedevday | DevelopersIO

    LINE DEVELOPER DAY_2015 Tokyo「ビッグデータを活用するための分析プラットフォーム」レポート #linedevday こんにちは、虎塚です。 昨日は、LINE株式会社さんが開催されたイベントLINE DEVELOPER DAY_2015 Tokyoへ参加してきました。 Taichi Hashimotoさんが講演された「B-5: ビッグデータを活用するための分析プラットフォーム 〜データ集計した先に求められる分析技術」を聴きましたので、レポートします。 前半は、さまざまOSSを活用して構築された、社内の利用者のニーズに応じたデータ分析基盤の紹介でした。後半は、KPIを人間が見るのでなく、変化を自動検知して通知するシステムを開発中というお話でした。 以下、レポートです。 データ分析について LINEにとってデータ分析とは何か Collecting: データを集約する

    LINE DEVELOPER DAY_2015 Tokyo「ビッグデータを活用するための分析プラットフォーム」レポート #linedevday | DevelopersIO
  • ランダムフォレストのつかいかた - じじいのプログラミング

    この記事はCompetitive Programming Advent Calendar 2014 - PARTAKE24日目の記事です。関連記事に実装編もあります。 ランダムフォレストのつくりかた(C++の実装例つき) - じじいのプログラミング 今年は、TopCoderの機械学習マッチに積極的に参加して、経験もいろいろ詰めたので、そのノウハウを公開しようと思います。 自分のやり方は我流なので、アドバイスをいただけると、とてもうれしいです。 この記事にはランダムフォレストの説明はありません。ネット上に良い記事が多くあります。「はじめてでもわかる RandomForest 入門-集団学習による分類・予測 -」 -第7回データマイニング+WEB勉強会@東京の記事は読みやすいと思いました。 この中のコツのいくつかは、ランダムフォレストに限らず使えると思います。 実装はないので、RやPython

    ランダムフォレストのつかいかた - じじいのプログラミング
  • テキストからWikipedia見出し語を抽出 - 人工知能に関する断創録

    WindowsでMeCab Pythonを使う(2010/11/21)のつづきです。形態素解析を使ってると単語が変なところで切れていたり、未知語が多かったりと不満点が出てきます。また、応用によっては、形態素ではなく、複合語単位で抽出したいということもしばしばあります。たとえば、 人工知能は、コンピュータに人間と同様の知能を実現させようという試み、あるいはそのための一連の基礎技術をさす。 人工知能という名前は1956年にダートマス会議でジョン・マッカーシーにより命名された。 現在では、機械学習、自然言語処理、パターン認識などの研究分野がある。(Wikipedia人工知能』を改変)という文章をMeCabで形態素解析して名詞のみ取り出すと、 人工 知能 コンピュータ 人間 同様 知能 実現 試み ため 一連 基礎 技術 人工 知能 名前 1956 年 ダート マス 会議 ジョン マッカーシー

    テキストからWikipedia見出し語を抽出 - 人工知能に関する断創録
  • 改訂版: プログラマーが効果的な可視化を作成する (前編) - Qiita

    改訂版について (5/7/2019公開) この記事は、私がこちらに公開したもの中では最も読まれているようです。そこで、執筆後に気づいたこと、古くなった情報、新しい技術動向などを考慮に入れて改訂をしました。主な変更点は以下の通りです: 新しいセクションの追加 最近のの紹介 細かな表現の修正 この記事は複数のセクションに分かれていますので、前編から始め、順番にアップデートして行きたいと思います。何かお気付きの点などありましたら、コメント欄、もしくはkonoアットマークucsd.eduにお願いいたします。 はじめに この記事は、可視化の専門家ではない人がコンピュータを使ってデータ可視化を実際に行う場合に必要な、一般的なノウハウをお伝えするシリーズの第一回です。 前編: 効果的なデータ可視化とはどのようなものか? (稿) 中編: 分かりにくい可視化を避けるための手法の選択 後編: Part 1

    改訂版: プログラマーが効果的な可視化を作成する (前編) - Qiita
  • 1