Pythonで作るWebクローラ入門の発表資料 https://pycon.jp/2016/ja/schedule/presentation/32/
 
      
  
Pythonで作るWebクローラ入門の発表資料 https://pycon.jp/2016/ja/schedule/presentation/32/
 
      
   
  
  43. cmspkit # リモートにてコマンド実行 $ cmspkit remote exec [options] # リモートのファイル取得 $ cmspkit remote get [options] # リモートにファイルを転送 $ cmspkit remote push [options] 主なオプション -s, --sudo ... sudo を利用して root 実行をする -H, --hostname ... 実行対象をIPやホスト名指定`,`区切りで複数化 -R, --roles ... 実行対象をロール名で指定する `,` 区切りで複数化 -P, --parallel ... パラレルで実行数も指定可能 -c, --command ... exec 用オプション 実行するシェルコマンド指定する 44. cmspkit 例 構成管理するまでもないスクリプトファイルの配布
 
      
  Pythonプログラマーというか、元々Python(ときどきR、C言語)で数値シミュレーションをしていた学生が、就職してRubyでWeb開発を行うにあたって勉強したことを書き連ねていくだけの記事です。 もし自分と同じような立場の人(これから後輩としてもどんどん増えていくかも!)がいたら、「ここを押さえておけばRubyは問題なく書けるよ」と教えられるように書いておきます。というのも、レビューを行っていた先輩とのプログラミングのスキルとの開きがあり、先輩も私も「どこが分かってないのか説明できない」状態になってしまってお互いに困ってしまった経験があるからです。 RubyとPythonはよく似ているのですが、思想や見た目で違う部分が多く、片方を勉強するともう片方の理解も深まります。 たまに2ちゃんねるのオカルト板である「見たことある世界によく似た異世界に迷い込んだ」みたいな感覚で、なかなか面白い経
 
      
  僕はベイズ統計モデリングをはじめる前(5年ほど前)までは主に機械学習をしていました。その頃は平易な成書はあまりなくて、サポートベクターマシンの理論の難しい本を読んだり、Weka本(当時はこれ)を読みながら実装していたことを思い出します。PythonでもSVM-RFEを書いたりしてました。しかし、時は流れ、Pythonからscikit-learnという機械学習用ライブラリや深層学習を手軽に使うことができるようになり、気づいたらPythonは機械学習に必要不可欠な言語になっていました。この本はそんな機械学習に特化したPythonの使い方を理論と実装の両面から平易に丁寧に説明しています。理論は理系学部生なら理解できるぐらいで、実装はPythonやnumpyを少し触ったことがある人なら分かるぐらいのレベルです。いつの間にかこのような読みやすい機械学習の和書が出ているのは感慨深いです。 Python
 
      
  Python Tools for Visual Studioのセットアップ:特集:Visual Studioで始めるPythonプログラミング(1/2 ページ) Python Tools for Visual Studioを使うと、高度な開発者支援機能を活用して、Pythonプログラミングが行える。今回はその概要について見ていこう。 連載目次 Visual Studio(以下、VS)が.NET開発者だけのものだった時代はもう終わっている。現在では、.NET言語に加えて、JavaScriptやTypeScriptなど、さまざまな言語がサポートされるようになった。本特集では、そうした言語の中でもPythonに焦点を当て、VSでPythonプログラミングを始めるための基礎知識を何回かに分けて紹介していこう。 Python Tools for Visual Studio VSでPythonを利用す
 
      
  機械学習にどのようなPythonの知識が必要かは、Python機械学習プログラミングの監訳者福島 真太朗(ふくしま しんたろう)さんが以下のように述べられています。 Pythonの文法については、リスト、タプル、ディクショナリなどの基本的なデータ構造、forループ、print関数、zip関数、enumerate関数、関数やクラスの作成方法などが理解できていれば十分です。 thinkit.co.jp そこで今回はPythonで書かれた機械学習のコードを読めるように、リスト、タプル、ディクショナリなどの基本的なデータ構造、forループ、print関数、zip関数、enumerate関数、関数やクラスの作成方法について学んでいきます。 従ってこの記事は、Pythonを一度もやったことがなく、機械学習のためにPythonを学びたいという人向けです。 今回読み解くPythonコードについて 今回は題
はじめに こんにちは、データ分析部の久保 (@beatinaniwa) です。 今日は義務教育で教えても良いんじゃないかとよく思うWebクロールとスクレイピングの話です。 私自身、日頃は社内に蓄積されるニュース記事データや行動ログをSQLやPythonを使って取得・分析することが多いですが、Web上にある外部データを使って分析に役立てたいというシーンはままあります。 単独のページをガリガリスクレイピングしたいときなどは、下の1年半ぐらい前の会社アドベントカレンダーに書いたような方法でやっていけば良いんですが、いくつもの階層にわかれたニュースポータルサイトやグルメポータルサイトを効率よくクロール+スクレイピングするためには、それに適したツールを使うのがすごく便利です。 qiita.com そこでPython用スクレイピングフレームワークScrapyの登場です。 Scrapy | A Fast
 
      
  (訳注:2016/3/9、いただいたフィードバックを元に記事を修正いたしました。) 注意: この記事で書かれている機能は、大部分がPython 3.4で導入されたものです。ネイティブコルーチンとasync/await構文はPython 3.5でサポートされました。そのため、本記事に記載されているコードを試す場合はPython 3.5の利用をお勧めします。 ジェネレータは値を 生成する 関数です。普通、関数は return で値を返したあと、その下層のスコープは破棄します。関数を再度呼び出す場合、その関数はゼロから起動されることになります。つまり1回限りの実行となります。しかしジェネレータ関数は値を yield で返し、関数の実行を一時停止します。その後、関数を呼び出したスコープにコントロールが移ります。関数を再び呼び出して次の値を(存在すれば)得たい時は、実行を再開することができます。では
 
      
  本連載「スマホで便利な環境構築手順書」では、さまざまなソフトウェアのインストール手順や、実行するためのセットアップ設定、実行確認、アンインストールの手順を解説する。 少しでも分かりやすくするために画面キャプチャー/スクリーンショットの画像を中心に解説を進める。スマートフォンで読む場合は、最初に出てきたスクリーンショットの画像をタップすると、左スクロールで画像を見ながら手順を追うことができるので、スマートフォンを片手に画像を確認しながら、PCで実際に操作してみる、といったこともしやすいはずだ。もちろんネットワークにつなげず、携帯電話の回線でしか見ることができない場合もぜひ読んでほしい。 なお、インストーラーに関する基本的なことは、下記記事を参照しておいてほしい。 exe/dmgしか知らない人のためのインストール/パッケージ管理/ビルドの基礎知識 - @IT 機械学習やビッグデータ解析で人気の
 
      
  こんにちは。技術開発部データサイエンティストチームの西岡と申します。 データサイエンスチームでは、CTR・CVR予測や、ユーザターゲティングの精度向上に日々取り組んでいます。 前回の伊良子の連載でも述べてある通り広告配信をおこなうアドサーバにはLuaやGoなどが使用されていますが、 データサイエンスチームでは分析がメインとなるためPythonを使用し始めました。 Pythonにはscikit-learnやpandasなどの分析用ライブラリが充実しており、モデリング等を迅速におこなえるためです。 もちろん、分析のみならず製品への機能追加もPythonでおこなっています。 そこで、この連載ではPythonのユニットテストの書き方・テストフレームワークを紹介します。 まず第1回となる今回は、そもそもなぜユニットテストを書くのかについて説明します。 そもそも「テスト」とは? 「テスト」が何なのかと
Python手軽でいいね、ってことで 最近はJavascriptよりもPythonでスクリプトを書いている。 今日もパフォーマンステスト用に大量データを登録する必要があったので SQLAlchemyを使ってスクリプトを書いてみた。 Python3で動作確認済み。 create_test_datas.py # -*- coding: utf-8 -*- import sqlalchemy engine = sqlalchemy.create_engine("postgresql+psycopg2://<DBユーザー名>:<DBパスワード>@/<DB名>", client_encoding="utf8") def create_table_defs(conn, meta): """テーブル定義""" tables = { "items": sqlalchemy.Table("t_item",
 
      
  この記事は公開されてから半年以上経過しています。情報が古い可能性がありますので、ご注意ください。 スクレイピングというのはあれです。 Webのページから必要な情報を抜き出すっていう。アレです。 最近は情報を提供するようなサービスはWeb APIが実装されていることが多いのでJSONでもらってこれることも増えましたが 表示されているHTMLから必要な情報をもらってこざるを得ない場合が存在します。 そんな時はちょっとしたコードで効率よく情報収集したいものですね。 環境 ここではPython3.5を使います。今やWindowsでもMacでもAnacondaなんていう素敵な環境が存在しますので比較的導入が簡単ではないかと思います。 urllibの利用 from urllib.request import urlopen html = urlopen("http://www.skyarch.net/
 
      
  今日の料理 安物のねぎとろは、納豆と良くあう。 前提 はじめてのにき(2016-06-16) より。 このエントリの立ち位置について 元々はPythonを勉強していたのだけれども、仕事の関係上、Rubyを主軸にすることにした人間のエントリです。ちなみに、PythonとRubyの立ち位置には詳しくなく、主観を元に構成されているので、客観的な部分に関しては弱いことをお断りしておく。また、現時点での知識が2.7になっているので、3.5では多少違う点があるかもしれない。 なぜならPythonのほうが「わかりやすかった」から まず最初に、Pythonのほうが機械科学系の人に支持されやすい傾向としてあるのは、Pythonのライブラリ、例えばNumpyであったり、Scipy、または各種機械学習系のライブラリなどの影響が大きいのは間違いない。最近の機械学習ブームのせいなのか、Pythonも「エモい人(エモ
 
      
  会社に優秀な後輩が入ってきて、優秀な先輩(私でゎない)の助けを得ながら、立派な分析者・Rプログラマーとして成長しつつあります。 しかし、R言語だけで全ての作業が完結できるわけではありません。手元でデータを加工・分析するための環境としては素晴らしいのですが、大規模な計算では遅かったり(パフォーマンスを上げるにしても工夫が必要だったり)、クラスベースのオブジェクト指向が無いため、プログラムが大きくなるにつれて関数の整理が難しかったり、言語としてつらい面も多いです。 また、データ分析して作ったモデルをサービスに乗せる際には別の言語を使う必要があると思います。一応、shinyというWEBアプリを作るためのライブラリもあるものの、「社外向けのサービスでバリバリ使ってるぜ!」という話は聞いたことがありません。 というわけで、R言語メインのプログラマーが、一歩進んでスクリプト言語(Python)が抵抗な
 
      
  計算は、慣れない人のアタマには負担だが、規則通りに進めていけばいいという利点がある。 たくさんの要素を扱ったり、複雑に込み入った推論を進めることもまた、人には負担の大きい作業だが、計算の形に変換することができれば、途中過程を規則的な繰り返し作業に置き換えることができる。たとえば機械に手伝ってもらえる。 今回、紹介するのは、数値化/統計的処理が難しい事象や、質的研究について、計算=演算の力を導入するとどんなことができるかという一例※である。 ※ 続くかどうかわからないが Sociology on Pythonシリーズの第一弾でもある。 ブール代数アプローチ(boolean algebra approach) ブール代数アプローチは、 Ragin(1989)によって、真理表とブール代数に依拠した比較分析の手法として、質的比較分析(Qualitative Comparative Analysi
 
      
  PyMCがあれば,ベイズ推定でもう泣いたりなんかしないAI-enhanced description The document outlines a probabilistic framework involving various statistical models, including Poisson and Dirichlet processes, for data generation and inference. It details categorical distributions and MCMC sampling methods for estimating parameters like mean (μ) and weight variables (w). Additionally, it presents the usage of normal distributi
 
      
  Python を初めて間もない頃、自分も print デバッグしてました。効率の悪さを認識しつつも、IDEを導入してデバッグする方法を調べてセッティングして、という手順が面倒でずっと放置してました。 // 普段は vim で開発してます そうこうしてたら print デバッグではどうにもならないバグにぶち当たり、仕方なくデバッグポイントを置く方法を調べたわけです。するとどうでしょう。 ソースコード中に以下の一文を入れるだけではないですか。 import pdb; pdb.set_trace() たったこれだけで、上の一文を挿入した行で処理が停止し、コンソール上でステップ実行が出来るようになります。最高かよ。 個人的にですが、デバッガー起動中によく使うコマンドとしては以下です。 コマンド 説明 s(tep) ステップイン n(ext) ステップオーバー r(eturn) ステップアウト l(
 
      
  最近 TensorFlow を使ってディープラーニングで FizzBuzz 問題を解くっていうブログ記事を読んだんだけど、これが面白かった。 joelgrus.com そこで、自分でも同じようにディープラーニングを使って FizzBuzz 問題を解いてみることにした。 ただし、アレンジとして TensorFlow を直接使うのではなく、代わりに skflow を使ってみる。 skflow というのは TensorFlow を scikit-learn と同じインターフェースで扱えるようにしたラッパーだ。 これなら使い慣れた scikit-learn と同じ雰囲気で TensorFlow を使うことができる。 使った環境は次の通り。 $ sw_vers ProductName: Mac OS X ProductVersion: 10.11.5 BuildVersion: 15F34 $ py
 
      
  こんにちは、プレイドの @nashibao です。 ちょっと前になりますが、PySparkの勉強会向けにPySparkの機械学習ライブラリであるmllibを弄ってみたりして面白かったので共有しようと思います。 コンテンツ 実験の動機 PySparkの紹介 MLLibのアルゴリズムの拡張 感想 この検証はPyData Tokyo #3の発表にかこつけて行われたので、その時の発表資料も貼っておきます。 PyData Tokyo Meetup #3での発表資料 実験の動機 分散環境での機械学習は実装が面倒なので、どこで実験するかは結構重要かな、と思います。その中でPythonが研究者周りでよく使われてる & ライブラリが豊富 & Spark扱いやすそう、というのもあってPySparkは人気のある候補な気がします。 ちなみにプレイドでは購買系やその他ディープなデータを数PBレベルでいじくりまわして
 
      
  リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く
