言語処理100本ノックは,実践的な課題に取り組みながら,プログラミング,データ分析,研究のスキルを楽しく習得することを目指した問題集です 実用的でワクワクするような題材を厳選しました 言語処理に加えて,統計や機械学習などの周辺分野にも親しめます 研究やデータ分析の進め方,作法,スキルを修得できます 問題を解くのに必要なデータ・コーパスを配布しています 言語はPythonを想定していますが,他の言語にも対応しています
Cookpad TechConf 2016での青木の発表資料。大量のデータを最大限に活用するためのデータ処理システムの構築方針についてRead less
こんにちは、みんなのウェディングの小室 (id:hogelog) です。 今回はみんなのウェディングにおけるデータ分析基盤の現状についてご報告させていただきます。 三行まとめ 忙しい人のために先に結論を書くと bricolage と embulk で Redshift に集めて re:dash で分析 です。 データ収集 データ収集は bricolage のジョブネット機構を用いて bricolage の各種ジョブや embulk を連携させ、Redshift にデータを取り込んでいます。 参考までに https://github.com/hogelog/dwh-example に簡単な構成例を準備しました。 MySQL → Redshift みんなのウェディング http://www.mwed.jp/ のデータベースとしては MySQL を利用しています。 MySQL から Redshi
import.ioとは import.ioは、データ化したいページのURLを入力するだけで、自動でデータ箇所を判断して情報を集めてくれるスクレイピングサービスです。 無料で利用することができ、セットアップも、データ収集用のトレーニングなども必要ありません。 URLを入力して、ボタンを押すだけという簡単さから、誰にでも利用できるデータ収集ツールだと思います。 以下では、その簡単な使い方や、利用例などを紹介したいと思います。 定期的なサイトへのスクレイピングは相手サイトの負荷になるので、一日に何度も何度も同一サイトに使用するのはやめましょう。加えて、取得したデータを、そのまま何かに利用すると著作権違反になる恐れもあります。 基本的な使い方import.ioの最大の特徴は、使い方の簡単さです。 以下では、その使い方の例として、IKEAのソファー検索結果ページのデータを取得してみたいと思います。
まとめ TD(TreasureData)に溜め込んでいるログを集計して、自動で昨日のKPIレポートをチャットに発言するシステムを作りたかった TDへのクエリ(HiveQL)発行がやたらと時間がかかる上に高負荷になった 最適化の為のキモは、WHERE句に指定するTD_TIME_RANGEのようだ TDは基本時系列データなので、最初にTD_TIME_RANGE()で処理対象データを正常にフィルタできれば、その後の処理時間は大幅に削減されるはずだ TD_TIME_RANGEに指定する値が複数パターンあって、どれを選択すればいいか困ったので全パターン検証してみた 結論: とりあえず、unix_timestamp()の指定はナシ。TD_SCHEDULED_TIME()での指定が本来正しそうだが、なぜかパフォーマンスがでていない。もっと調査する。 そもそもやりたいこと 以下の様なシステムを組みたい T
本サイトについて 本サイトは東京メトロオープンデータの開発者サイトです。 APIをご利用希望の方は、本サイトにてユーザ登録を行い、アプリケーションを開発してご投稿ください。 利用に当たりましては、必ず下記をお読みになり、同意の上ご利用ください。 API利用規約 ガイドライン ユーザ登録のお願い オープンデータをご利用希望の方は、ユーザ登録をお願いいたします。 ユーザー登録を申請いただいた後、申請内容の確認から登録まで最大で2営業日ほどお時間を頂いております。 登録完了のお知らせは、メールで行いますので、メールのご確認をお願いします。 また、登録内容項目の記載が正しくないと判断された場合、ご利用登録ができない場合がありますので、予めご了承ください。 ユーザ登録 利用規約改定と継続提供のお知らせ 利用規約が改定され、平成27年4月1日以降も継続してAPIを利用頂ける運びとなりました。詳細はこち
動機 前々からtwitterのデータを使って何かやってみたいな、と思っていました。そこで、MeCabとcabochaを入れるところから、SQLiteを活用した簡単な分類器を作るってみた次第です。 (遊びでやってみただ(ry ) 以下、やったことを適当にまとめていきます。 インストールしたもの MeCab 0.996 mecab-python-0.996 Virtual C++ 2008 Express Edition(vcvarsall.batが必要なためです) Cabocha(今回は使いませんので説明も全くしませんが、今後のために...) インストール方法などに関してはWindowsにmecab-pythonを導入を参考にして下さい。 このサイトでも太字で書いてあるのですが、mecab.hを書き換える時は必ず管理者権限で開いて変更を行って下さい。でないと、変更されたと認識されません。僕も
私が分析を行う際、データ加工や集計作業は基本的にSQLで行い、分析やモデル作成はRで行うことが多いです。 しかし、DBが使えないような場合やちょっとした集計などRでデータを加工・集計したい場合があります。 RでSQLで行うようなデータ加工・集計を行うには、基本的にsubsetやorder、merge、aggregateといった関数を利用します。 (SQLとRの関係については、以下のページがわかりやすいです。 http://d.hatena.ne.jp/a_bicky/20110529/1306667230) ただ、こういった関数はよく使い方を忘れてしまい、Webなりヘルプなりを使うたびに調べるなんてことが起こります。 正直、かなり面倒なわけです。 そこでSQLクエリを使って直接Rのデータを加工できたら良いなーと思うわけですが、 「sqldf」パッケージを用いれば直接SQLを利用してデータを
The Insignificance of Statistical Significance Testing 統計学的な有意性検定の意味のなさ Johnson, Douglas H. 1999. The Insignificance of Statistical Significance Testing. Journal of Wildlife Management 63(3):763-772. 全文 この論文の存在は, 久保拓弥さん(北大)の ページで知りました. The Wildlife Society Award for Outstanding Publication in Wildlife Ecology and Management を受賞したものです. 安易に使われがちな統計学的有意性検定がいかに無意味かを解説しています. なかなか勉強になりました. 自分用に下手な抄録を作って
1. 広告領域と機械学習 CTR予測最前線 @TokyoWebMining 坪坂 正志 m.tsubosaka@gmail.com 2014/10/11 TokyoWebMining 1 2. 本日の話 •広告領域と機械学習における応用例として広 告のクリック率(CTR)予測の問題を取り上げる •今回の発表ではいくつか出ているクリック率 予測の文献のうち、今年の8月に行われた ADKDD 2014で発表されたFacebookのCTR予 測手法について取り上げる –Practical lessons from predicting clicks on ads at Facebook, ADKDD 2014 TokyoWebMining 2 3. 広告におけるクリック率の 予測の重要性 •現在Web会社において広告の売上に関する割 合は高い比率を占めている •そのため多くのネットに関する会社で
いま、生活者、消費者との「距離を縮める」ために必要なのは「広告」ではなく「コンテンツ」である。 次世代コミュニケーションの潮流を掴め! データというのは、いわば米の状態のものだ。そのままでは食べられない。米を炊いて、おにぎりにしたり、はたまた高級イタリアン店のリゾットにしてこそ価値がでる。そのためにも価値をつくる人を育てなければならない。ただ、そういう価値をつくる人や仕事への敬意をもつ企業文化が大事になる。 最近ベムのところには、「データ分析に、分析官を何十人も配置したが、なかなかシナリオ設計ができるところまで分析の価値をあげられない。そういうスキル開発にご協力いただけませんか?」というオファーがよく来る。 そりゃ、そうだろう。シナリオ設計とは、何らかの施策に結びつけるためのものであって、施策のプランニングや実行の経験のない人にはイメージがつかないのは当然だ。 「データサイエンティスト」と
『MarkeZine』が主催するマーケティング・イベント『MarkeZine Day』『MarkeZine Academy』『MarkeZine プレミアムセミナー』の 最新情報をはじめ、様々なイベント情報をまとめてご紹介します。 MarkeZine Day
運用型広告 注目記事Pick Up:2024年2月によく読まれた記事をまとめて紹介- 2024年3月28日 フェディバースとは?スレッズを中心としたソーシャル連合体は実現するか- 2024年3月22日 Microsoft 広告 アカウントマネージャーに聞く第17回:Microsoft 広告、PMAX がすべての市場で提供開始(3月アップデート)- 2024年3月22日 Criteo、インティメート・マージャーの共通IDソリューション「IM-UID」と連携- 2024年3月22日 Googleの決算書をわかりやすく解説:2023年4Q 過去最高売上を記録! 知っておくべきポイントは?- 2024年3月1日 APIとは、アプリケーションプログラムインターフェイス(Application Program Interface)の略です。 コンピュータを使って、何らかの機能を持ったアプリケーションを
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く