タグ

2017年7月27日のブックマーク (8件)

  • PythonでWebスクレイピングする時の知見をまとめておく - Stimulator

    - はじめに - 最近はWebスクレイピングにお熱である。 趣味機械学習のデータセット集めに利用したり、自身のカードの情報や各アカウントの支払い状況をスクレイピングしてスプレッドシートで管理したりしている。 最近この手の記事は多くあるものの「~してみた」から抜けた記事が見当たらないので、大規模に処理する場合も含めた大きめの記事として知見をまとめておく。 追記 2018/03/05: 大きな内容なのでここに追記します。 github.com phantomJSについての記載が記事内でありますが、phantomJSのメンテナが止めたニュースが記憶に新しいですが、上記issueにて正式にこれ以上バージョンアップされないとの通達。 記事内でも推奨していますがheadless Chrome等を使う方が良さそうです。 - アジェンダ - 主に以下のような話をします。 - はじめに - - アジェンダ

    PythonでWebスクレイピングする時の知見をまとめておく - Stimulator
  • 藤井四段で学ぶ最尤推定、MAP推定、ベイズ推定 - Qiita

    藤井四段の連勝が止まらないですね。 21日の対局に勝利して、連勝記録を1位タイの28連勝まで伸ばしてきました。26日の対局で勝利すれば単独トップになります。 そんな藤井四段の対戦成績は28勝0負。勝率でいうと1.000です。クラクラするような成績ですが、この「勝率」とは何かを少し数学的にみてみましょう。 単純に言葉だけをみると「藤井四段が勝利する確率」ではないかと考えられます。つまり $$P(\text{勝利}\ |\ \text{藤井四段}) = 1.0$$かのように感じます。 ではここで、26日の対局で藤井四段が勝利する確率はどれだけでしょう? $P(\text{勝利}\ |\ \text{藤井四段}) = 1.0$として考えると、これはつまり藤井四段は必ず勝つので、100%になってしまいます。しかし、もちろんそんなことはありません。藤井四段ですらも負けることはあるはずです。 実はここ

    藤井四段で学ぶ最尤推定、MAP推定、ベイズ推定 - Qiita
  • Logstash を使って MySQL データを Elasticsearch にインデックスする(基本編)

    リレーショナルデータベースで管理しているデータを Elasticsearch で検索・分析したい場合、Logstash が便利です。 Logstash とは?Logstash はオープンソースのサーバーサイドデータ処理パイプラインです。様々な数のソースからデータを取り込み、変換し、指定された任意のストア先にデータを格納することができます。 処理の内容はシンプルで、Input ステージでソース元の接続先情報を管理し、Filter ステージで変換をし、Output ステージで格納先接続先情報を定義します。Input 及び Output プラグインはデフォルトで様々なソースをサポートしています。そのため、Logstash を使えば、プログラミングレスで MySQL のデータを取り込み、変換し、Elasticsearch へインデックスすることができるのです。 事前準備MySQL と Elasti

    Logstash を使って MySQL データを Elasticsearch にインデックスする(基本編)
  • 2回目)Elasticsearch 勉強会を開催したので資料公開します。

    検索シナリオは一般的な全文検索から、検索結果のパーソナライゼーションまで用意しました。今回の勉強会を通じて、Elasticsearch を使うことで、パーソナライゼーションのような「どうやって実現すれば良いんだろう?」と言うような難しいビジネス要件も検索エンジンを活用することで、比較的簡単に実現できることが理解してもらえたかな?と思います。 検索エンジンのその特徴を生かして設計すれば、難しいビジネス要件もシンプルに実現でき、その高速な検索結果を生かすことで、情報利用者の利便性も格段に向上します。 これで勉強会は一旦最後になりますが、シナリオ実行環境を使って、もう一度一人ハンズオンして見てください。

    2回目)Elasticsearch 勉強会を開催したので資料公開します。
  • 1回目)Elasticsearch 勉強会を開催したので資料公開します。

    6月27日にクラスメソッド事業開発部の開発メンバーとベルトラ開発メンバー合同で Elasticsearch 勉強会1/2を開催しました。参加者はリモートも含めて約25人くらい。時間は2時間。久しぶりに長時間喋ったので疲れました。。たくさんの人が参加すると聞いていたので、この勉強会のために資料まとめたので公開します。 Elasticsearch 勉強会 1/2 前半全文検索エンジンの特徴について話しました。いきなり「転置インデックス」と言われても、ピンと来ないかもしれませんが。全文検索エンジンの設計を担当する人も、それを使ってアプリケーションを開発する人もこの仕組みを知らなければ Elasticsearch のリファレンスで提供されている機能を見てもピンと来ません。「この機能何に使うんだろう?」となってしまいます。世の中にある全文検索エンジンに標準規格というものは存在しませんが、その仕組みは

    1回目)Elasticsearch 勉強会を開催したので資料公開します。
  • 分散ユニークID採番機 katsubushi と Web アプリケーションへの応用例 / katsubushi

    YAPC::Fukuoka

    分散ユニークID採番機 katsubushi と Web アプリケーションへの応用例 / katsubushi
  • 大学の数学/物理を無料で学べるおすすめサイト・サービス6選 - プロクラシスト

    高校生のほけきよ少年にとって、得られる大学以上の物理や数学の情報はwebサイトだけでした。 物理や数学の専門書って高いんですよね。あと、大きな屋じゃないと取り扱っていない。 今ではamazonでいろいろな書籍が手に入るようになりましたが、高いしどんな内容がかかれているかは分からないので、買うのもためらわれます。 そこで今日は 好奇心溢れる高校生 お金はない、単位が危ない、やる気に溢れた大学生 社会人になってから物理や数学趣味で始めたい人 たちのために、無料で大学以上の内容を学べるサイト/サービスを紹介します! 1. 物理のかぎしっぽ 2. EMANの物理学 3. MITの物理学講義(Youtube) 4. 現代数学観光ツアー 物理のための解析学探訪 5. 数学:物理を学び楽しむために 6. 高校数学の美しい物語 まとめ ※ここでいう数学は「物理学のための数学」の範疇を超えません。 1.

    大学の数学/物理を無料で学べるおすすめサイト・サービス6選 - プロクラシスト
  • 株式会社Techouse

    We Develop. 今日も生み出そう。世界にまだない価値を。明日も伸び続けよう。世界をより良くするために。 人が集まる場所。 価値が生まれる場所。 技術力と熱意を持つ人が、自然と集まる場所。まったく新しい価値を、社会に生み出す場所。Techouseは、唯一無二の「場所」であり続けます。

    株式会社Techouse