タグ

pythonに関するMinekatsuのブックマーク (4)

  • Python製のQ&Aシステム·OSQA MOONGIFT

    OSQAはPython製/Djangoベースのオープンソース・ソフトウェア。Q&Aは今、とても人気の高いサービスになっている。日のQ&A系サービスは同じ質問が繰り返されたりネタ的なものも多いが、専門系(旅行や家電といった具合に)のQ&Aシステムは内容も充実している。 機能十分なQ&Aシステム そんなQ&Aシステムは様々な分野で活用できるはずだ。そして自分たちのWebサービスでも同様にQ&Aシステムを立ててみたいと思ったらOSQAを使ってみよう。OSQAは中国製のQ&AシステムCNPROGをフォークしたオープンソース・ソフトウェアだ。 CNPROGも同様にDjangoであり、機能的に大きく変わる訳ではないようだ。だがCNPROGでは上手く動作していなかった(筆者が試した当時だが)バッジ機能やインタフェース全体の英語化がなされているので使い勝手が良い。 管理画面(バッジ) システム的には大元

    Python製のQ&Aシステム·OSQA MOONGIFT
  • Webstemmer(クローラーツール)

    語サイトでは、具体的な性能は測定していませんが、 以下のようなサイトで正しく動くことがわかっています: アサヒ・コム Nikkei NET Mainichi INTERACTIVE Yomiuri On-line IT media 東京新聞 日刊スポーツ 信濃毎日新聞 livedoor ニュース 使いかた Webstemmer をつかったテキスト抽出は以下のようなステップになります: まず、特定のニュースサイトから種となる HTML ページを多数取得する。 取得したページのレイアウトを学習する。 別の日に、同一のニュースサイトから新しい HTML ページを取得する。 2. で学習した結果をつかって、新しい HTML ページから文を抽出する。 1. および 2. のステップが必要なのは最初の 1回だけです。 ひとたびサイトのレイアウトを学習してしまえば、 あとはレイアウトが大きく変更さ

  • Python向けスクレイピングライブラリ·Scrapy MOONGIFT

    ScrapyPython製のオープンソース・ソフトウェア。Webサービスから必要な情報を抜き出したり、自動操作をしたりと未だに利用されているのがスクレイピングと呼ばれる技術だ。求人、不動産、Eコマース…様々なサイトの情報を機械的に収集し、データベースに蓄積している。 Pythonで外部サイトからデータを収集する際に RubyでWebシステムを開発している場合、HpricotやNokogiriを使っていたが、Pythonによる開発の場合はどうしたら良いだろう。そこで使えるのがScrapyだ。ScrapyPythonで開発されたスクレイピングとクローリング用フレームワークだ。 ScrapyではWebサイトにアクセスしてデータを取得し、そのデータからXPathを使ってコンテンツにアクセスできる。オブジェクト指向に従って、柔軟に操作ができるのが便利だ。スクレイピングしたデータを使ってWebサイ

    Python向けスクレイピングライブラリ·Scrapy MOONGIFT
  • 動画、音楽、ポッドキャスティングを配信する·MediaCore MOONGIFT

    MediaCoreはPython製/Webベースのオープンソース・ソフトウェア。動画を自分のサイトでも楽しみたいと思ったら、ストレージが必要になったり、帯域を確保できるサーバが必要になる。ごく少数であれば良いが、ある程度の規模で作ろうと思うと意外とコストがかかるのだ。 動画登録&配信プラットフォーム そこで使ってみたいのがYoutubeのような外部のサービスだ。そして管理画面も合わせて提供してくれるMediaCoreが便利そうだ。MediaCoreはPythonで作られたソフトウェアで、動画の配信と管理、ポッドキャスティング配信を行うプラットフォームだ。 MediaCoreでは一般ユーザは動画のアップロードでき、管理画面からはファイルのアップロードの他にYoutube/Googleビデオ/Vimeoといった動画配信サービスのURLが登録できるようになっている。ポッドキャスティングとして動画

    動画、音楽、ポッドキャスティングを配信する·MediaCore MOONGIFT
  • 1