2017年9月20日のブックマーク (9件)

  • PythonとBeautiful Soupでスクレイピング - Qiita

    Pythonスクレイピングというネタはすでに世の中にもQiitaにもたくさん溢れていますが、なんとなくpyqueryが使いやすいという情報が多い気がします。個人的にはBeautiful Soupの良さも知ってもらいたいと思うのでここではBeautiful Soupを使っていきたいと思います。 ちなみにこのエントリーはほとんどの部分がBeautiful Soup4のドキュメントの要約です。もっと詳しい情報が知りたい場合はドキュメントをご覧ください。 英語 http://www.crummy.com/software/BeautifulSoup/bs4/doc/ 日語 http://kondou.com/BS4/ よくある勘違い pyqueryはjQueryのようにcssセレクタを使ってHTMLを扱うことができる点がBeautiful Soupよりも使い易いという意見がありますが、それBe

    PythonとBeautiful Soupでスクレイピング - Qiita
  • scikit-learn で TF-IDF を計算する - Qiita

    昨日触れた TF-IDF を求めるコードを実装します。機械学習については例によって scikit-learn を使います。 このような既知の計算については自力で実装するより完成度の高いライブラリを利用するべきでしょう。これにより車輪の再発明を避ける、品質を担保するという狙いがあります。 事前準備として、ホームディレクトリの docs ディレクトリに処理対象となる自然言語の文書を格納します。 import os import MeCab from sklearn.feature_extraction.text import TfidfVectorizer home = os.path.expanduser('~') target_dir = os.path.join(home, 'docs') token_dict = {} def tokenize(text): """ MeCab で分か

    scikit-learn で TF-IDF を計算する - Qiita
  • TF-IDF で文書をベクトル化。python の TfidfVectorizer を使ってみる | コード7区

    文書をベクトル化 文書の特徴をベクトルで表すことを考えてみます。 単純な方法として、単語の出現頻度を要素とするベクトルが考えられます。 これでも、それなりに特徴を捉えてはいますが、たとえば「です」「ます」のように、どの文書にも存在する、ありふれた単語(さほど重要でない)に大きく引きずられてしまいます。 その弊害を避けるため、特定の文書にだけ現れる単語と、ありふれた単語に差をつけます。つまり、各単語の希少性を考慮にいれることを考えます。 そこで登場するのが TF-IDF です。 TF-IDF TF は Term Frequency、単語の出現頻度 IIDF は Inverse Document Frequency、逆文書頻度(これが希少性) 単語の出現頻度と希少性をふたつ掛け合わせた値が TF-IDF で、下記の計算でもとめます。

  • Amazon EC2スポットインスタンスの価格高騰時の振る舞いで「停止」が選択できるようになりました | DevelopersIO

    ども、大瀧です。 昨日、EC2スポットインスタンスのアップデートがあり、中断(価格高騰)時の振る舞いとしてインスタンスの停止が追加されました。試してみた様子をレポートします。 Amazon EC2 Spot Can Now Stop and Start Your Spot Instances スポットインスタンスの中断とは スポットインスタンスは、インスタンスの実行費用を入札で決める価格体系です。実行費用はインスタンスタイプ、アベイラビリティゾーン毎に需要によって市場価格として変動します。入札価格は以下2種類から選択することができ、今回のアップデートは「最高入札価格」を選択する場合に適用されます。 自動入札 : その時点の市場価格で入札する。価格が高騰するとオンデマンド(通常プラン)の価格を超えることもある 最高入札価格 : 市場価格が最高入札価格を上回らないときに市場価格で入札する。上回

    Amazon EC2スポットインスタンスの価格高騰時の振る舞いで「停止」が選択できるようになりました | DevelopersIO
    toyama0919
    toyama0919 2017/09/20
    あれ、 思ってたのと違う。。
  • AWS東京リージョンで、大容量データを物理ストレージで配達する「AWS Snowball」がついに利用可能に

    AWS東京リージョンで、大容量データを物理ストレージで配達する「AWS Snowball」がついに利用可能に Amazon Web Services(AWS)は、大容量データを物理ストレージで配達する「AWS Snowball」が東京リージョンでも利用可能になったことを発表しました。 数テラバイトからペタバイトクラスのような大容量のデータをインターネットを通じてAWSへのようなクラウドへ転送したり、逆にクラウドからオンプレミスへ転送することは非常に時間がかかります。 例えば、100テラバイトのデータを転送を100Mbpsの回線を通じて行う場合には、転送完了まで100日以上かかる計算です。 AWS Snowballは、そうした大容量データをハードディスクに保存し、物理的に配送することで、インターネット経由でのデータ転送よりも高速かつ安全にデータ転送をする手段として2015年10月に開催された

    AWS東京リージョンで、大容量データを物理ストレージで配達する「AWS Snowball」がついに利用可能に
  • Ruby and Distributed Storage Systems

    This document discusses using Ruby for distributed storage systems. It describes components like Bigdam, which is Treasure Data's new data ingestion pipeline. Bigdam uses microservices and a distributed key-value store called Bigdam-pool to buffer data. The document discusses designing and testing Bigdam using mocking, interfaces, and integration tests in Ruby. It also explores porting Bigdam-pool

    Ruby and Distributed Storage Systems
  • Python パッケージ管理技術まとめ (pip, setuptools, easy_install, etc) | yunabe.jp

    Python パッケージ管理技術まとめ (pip, setuptools, easy_install, etc) Python のパッケージ管理関係の情報がオフィシャルには整理されてなく、 またパッケージ管理まわりででてくるキーワードもいくつもあって分かり難いので完結にまとめてみました。 このドキュメント自体は少し長いですが、結論としては2015年1月時点では 原則 pip を使ってパッケージの管理を行う setuptools も広く使われているので入れておくとよい。そもそも pip のインストール時に自動的ににインストールされる distribute は 2013年に setuptools にマージされたので不要 という方針でよいと思います。 ただ少し古い情報ソースやパッケージのドキュメントを読んでいると distribute の利用が勧められていたり、 site-packages, e

    toyama0919
    toyama0919 2017/09/20
    memo
  • [iOS 11] ついにリリース!まずはiOS 11の特徴を11本の厳選記事で紹介します! | DevelopersIO

    はじめに ついに日、日時間の2017年9月20日午前2時に、iOS 11がリリースされました。これを記念してDevelopers.IOでは、改めてiOS 11とはどのようなOSか、どんな新機能があるのかを徹底的にまとめたいと思います。前回のiOS 10ブログ特集では、初日に100、その後200を超えるボリュームで記事を掲載しています。もちろん今年も圧倒的なボリュームで情報を出していきますが、今年はまず、iOS 11の新機能や新APIがどのようなものか、11の記事に厳選してブログで紹介します! iOS 11特集ページはこちら iOS特集11の1目として、この記事ではまず概要をまとめます。 iOS 11で何が変わったの? 今回のバージョンについて、Appleからは「圧倒的な進化をiPhoneに。驚異的な飛躍をiPadに。」というメッセージが発表されています。iOS 11は、特にi

    [iOS 11] ついにリリース!まずはiOS 11の特徴を11本の厳選記事で紹介します! | DevelopersIO
    toyama0919
    toyama0919 2017/09/20
    少し待ったほうがいいのかな
  • Presto Community Roadmap Discussion April 6, 2017