Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?
spidersパッケージ内のクロール処理メインのモジュールで以下のようにmake_requests_from_urlを定義してその中でcookieセット処理を実装する事でログインが必要なサイトでもクロールできた。 class ExampleSpider(CrawlSpider): ~~~ def make_requests_from_url(self, url): request = super(ExampleSpider, self).make_requests_from_url(url) request.cookies['test_key'] = 'value1' request.cookies['test_key2'] = 'value2' return request 注意点としてCrawlSpiderの継承クラスである事。 scrapy.Spiderの継承クラスの場合は異なるっぽ
PySpark is a really powerful tool, because it enables writing Python code that can scale from a single machine to a large cluster. While libraries such as MLlib provide good coverage of the standard tasks that a data scientists may want to perform in this environment, there’s a breadth of functionality provided by Python libraries that is not set up to work in this distributed environment. While l
OSINT(Open Source Intellihence)というそうですね。いつの間にそういった言葉ができたのか、知りませんでしたが、どんな分野でも有用なWebサービスにはお世話になるものです。 セキュリティのWebサービスで有名どころと言えば VirusTotal があります。検体を投稿し、各ベンダーの製品でスキャンした結果を表示してくれます。他に、Webサイトのスキャンやファイルのハッシュ値でのスキャン結果の検索、IP、ドメインの情報の検索 など、利用可能な情報は多岐にわたります。 VirusTotalだけの話ではありませんが、投稿するファイルに機密な情報が含まれていないかは確認しておきましょう。こうした外部Webサイトへのファイルのアップロードは一般公開されても困らないもののみに限定すべきです。 こういった外部情報サイトは他にもあります。Webサイトの情報に特化したもの、マルウェ
皆さんご存知VirusTotalのAPIを少し試してみようと思います。 他の方のブログを見ていると、ハニーポットとVirusTotalを連携させてDionaeaに保全されたマルウェアを自動的に判定するようなものを作ったりしているのをみて、非常にそそられました。 なので、まずは「そもそもVirusTotal APIってなんぞ?」というところからはじめて、簡単な使い方などをまとめておこうと思います。 VirusTotalとは まずは基本的な話として、VirusTotalとは何かという話からはじめます。 簡単にまとめるとこんな感ですね。 ファイルをアップロードしたり、URLやファイルのハッシュ値をサーバーに問い合わせることによって、それがマルウェアなのか判定してくれたり、URLであれば攻撃サーバ(Command and Control Server: C2, C&C)なのかを判定してくれるWeb
目的 VirusTotal のAPIの使い方を覚えて、何かアンチマルウェア業界に貢献するツールを作ろうの会 前提 python 2.7.5 兎にも角にもひとまずリポジトリ VirusTotalとは? こちらです。 https://www.virustotal.com/ どういうページかというと、例えばの使い方ですが、怪しいファイルとかをぶち込めば、いろんなアンチウイルスにかけてくれて怪しいかどうか判定してくれたり、種々の解析情報を返してくれるページなのです。また、他の人がかけた結果もわかるので、例えばハッシュ値がわかって、すでに解析済みかどうかを調べることもできます。 ではVirusTotal APIとは? virustotalの機能をプログラムから利用できるAPIが公開されていて、多分ハッシュ値を投げれば情報を返してもらったり、その他もいろいろな事が出来ると思います(参考文献1.)。 基
Virus Total とは Analyze suspicious files and URLs to detect types of malware including viruses, worms, and trojans. 以下、日本語訳 ウイルスや、ワーム、トロイの木馬を含んだマルウェアの種類を検出するために疑わしいファイルやURLを分析します。 とのことです。 サイトには以下のようなフォームがあり、そこから分析対象とするファイルやURLを指定することができます。 試しに以前自分が発見したダウンローダが、Perl製のIRC Botを取得するために指定していたURLで分析を行いたいと思います。 結果は以下のようになりました。(ちなみに今回分析に使用したURLに"curl"コマンド等でリクエストを投げると実際にPerl製のIRC Botのソースコードが返ってきますのでご注意ください。)
Dockerとpipenvを使った環境構築についての記事はいくつか読んだのですが、PIpfile.lockを更新する運用について書かれている記事が少ない(見つけられなかった)ため、書いておきます。 TL;DR Dockerfile内では pipenv install --system --ignore-pipfile --deploy を使う。 Pipfile.lockは更新用にコンテナを作って、その中で更新し docker cp でホスト側に戻す。 pipenv install は現状時間がかかるので軽く使ってみたいときは pip install で試す。 あくまで自分が考えついたプラクティスなので「もっといい方法があるよ」「ウチではこうしてるよ」という意見があれば是非コメントくださいmm 課題 Dockerとpipenvを使った最も一般的な環境構築はDockerfile内で ADD P
はじめに pytestのpluginをどこまで使うかを考えるのがめんどくさくなったりした。 個人的にはそれぞれのタイミングで必要になったらはじめて手に取るべきで、あまり最初から導入するようなpluginは思いつかなかった。必要になったタイミングで追加して手に馴染むものがあれば使っていけば良いのでは位のスタンス。 一方で、デフォルトに乗るというか、大衆に従うというか、無難に使うということを考えた時に、どこまでのpytest pluginを利用するべきなんだろうかも気になったりした。 方法 例えば、以下の様に考えてみると、何が無難なパッケージかを判断できるかもしれない。 pip search pytest で検索できるpackageの一覧を取り出す それぞれのpackageをdownloads数順に良い感じに並べる (追加で基準となりそうな馴染み深いパッケージも加えておく) ソートした後に、新
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く