THIS is the future! NEW: Take a chill pill people, of course this will never make it into mass production.
THIS is the future! NEW: Take a chill pill people, of course this will never make it into mass production.
スパイダリング(Spidering)の基礎 宮崎 真, 廣安 知之, 三木 光範 ISDL Report No. 20050813008 2005年 9月 19日 Abstract スパイダ(spider)とは,インターネットから様々な情報を自動的に取得するプログラム のことである.スパイダを用いることによって,例えば複数のサイトにまたがって存在する情報を 組み合わせて,データ蓄積やファイル保存,独自の検索システムを構築,など様々なサービス が可能となる. 本報告では,このスパイダリングについての概要および注意点を述べる. 1 はじめに 現在,Webサイトの肥沃化が進んでおり,実に30億以上ものページがWeb上に存在している. 多くの情報がオンライン化され,Webは従来に比べずっと閲覧しやすく,検索しやすく, 便利になったのである.しかしながら,この巨大なWebに対し,Webユ
zuzara.com を読んでいると、ブログの本文抽出にチャレンジしているのを見つけました。 tdかdivで囲まれた文字列で、文章と比べてHTMLのタグがあまり多くないもののうち、一番文字数が多いのが本文だろう、というアルゴリズム。 PHP で書かれたコードを Perl に移植しながら、もっと効率的なアルゴリズムが無いかを考えていました。 まずは、『タグの数』ではなく、比率をで判定するように改良(?)しました。 スコア = タグ除去後(length) / タグ除去前(length) タグが含まれていないときが最大値になるので、スコアは 1 が最大となります。タグの数よりもこっちの方が良さそうだったのだけど、コメント部分を抽出してしまう可能性が非常に高い。だめぽ。 牛乳を飲みつつ考えていると(カルシウムを摂取して身長を伸ばす)、ひらめきましたよ!要は、長い文章を取り出せればいいのだから、句読
KOSHIANに続いてTSUBUANをつくりました。 URLを与えるとそのページに含まれる本文らしき文章をXMLで返すAPIです。 RESTで引数はurlしかありませんが、一応仕様はこちらに。 http://zuzara.dyndns.org/docs/contentextractionapi.html サンプルレスポンス: http://zuzara.dyndns.org/api/tsubuan?url=http://blog.zuzara.com/2006/12/12/173/ アルゴリズムは以前作ったスクリプトの改良、といった感じです。精度をちゃんと数字にしていませんが、汎用的にどんなブログでも取得できるようになったと思います。必ずしもブログのみが対象ではなく、言語による依存もありません。精度実験では中国語のブログも対象にしてみました。 以前あった、ceekzさんのアイディアも使わせ
lang=enを指定できるようにしました。対象が英文のときに指定してください。 documentもブログの記事からAPIと同じドメインに移動させつつ更新。怪しげですが英語で書いてみました。 Documentation for Term Extraction API “KOSHIAN” ところでKOSHIANのアルゴリズムについてですが、要素としては キーワードとなる辞書をごりごり作成キーワードと入力された文章のパターンマッチング前処理に形態素解析器(MeCabとかChaSen)は利用していません。はてブを見たら形態素解析のタグが一番大きくなっていてびっくりしました(笑) 辞書さえ作れればどんな言語にでもほぼ同じアルゴリズムでキーワードを抽出できるはずです。辞書は複数の情報源の組み合わせですが、Wikipediaを多く利用させていただいています。 現状で認識している問題点: 入力時の全角英数
JiroSearchとは 「JiroSearch」 は、様々な全文検索ニーズに対応できることを目指し、オープンソースとJavaで開発された全文検索エンジンです。 面倒な設定作業やコーディング作業なしに、全文検索機能を導入することが出来るとともに、様々な検索ニーズに合致したカスタマイズを行うことができます。 基本的な特徴 Webサイト内の日本語全文検索「namazu」と同様のことができます オープンソース(GPLライセンス)ですので、無償で利用することができます Linux, Windowsのサーバ上で動作します インストールして、そのまま利用していただくことができます N-gram形式のインデックス生成型の全文検索として動作します 検索対象ファイルの自動更新を可能にします CSSファイルを直すことで検索結果ページのデザインを変更することができますjspファイルを修正することで、自由に検索結
MeCab に至るまでの形態素解析器開発の歴史等はこちらをご覧ください メーリングリスト 一般ユーザ向けメーリングリスト 開発者向けメーリングリスト 新着情報 2008-02-03 MeCab 0.97 マルチスレッド環境で辞書を開くときの排他制御がうまくいっていなかったバグの修正 Windows版でインストール時に辞書の文字コードを指定できるようになった 一部のコンパイラで正しくコンパイルできなかった問題の修正 部分解析モードを変更するAPI の追加 (Tagger::set_partial()) ラティスの生成レベルを変更するAPI の追加 (Tagger::set_lattice_level()) 温度パラメータを変更するAPIの追加 (Tagger::set_theta()) 全候補出力モードを変更するAPIの追加 (Tagger::set_all_morphs()) 2007-
当サイトは、パソコンを使った動画編集方の紹介をしています。数多くあるソフトの中でも特に優れたフリーソフトを中心にとりあげています。昔録ったVHSビデオテープの映像を、簡単な編集をして、DVDに焼きたいと思った事はありませんか?キャプチャ したTVの映像を、CMカットしたいと思った事は?内容は初心者向けなので簡単に出来ますよ!
オープンソースで開発されているAVI動画編集・エンコードソフト「VirtualDub」v1.6.0が、8日に公開された。Windows 95/98/Me/NT 4.0/2000/XPに対応するフリーソフトで、寄付歓迎とのこと。現在作者のホームページからダウンロードできる。 「VirtualDub」は、オープンソースで開発されている動画編集・エンコードソフト。AVI/MPEG-1ファイルを読み込み、カット編集などをコマ単位で行える。編集後は、システムにインストールされた任意のAVI用コーデックでエンコードを行い、AVI形式で保存可能。AVI 2.0形式に対応しているので、2GBを超えるAVIファイルも扱える。 初期状態で30以上用意されているフィルターを使えば、リサイズやノイズリダクション、インターレス解除、ぼかしやシャープ化、色調補正、グレイスケール化、静止画の半透明合成などの効果を複数同
This webpage was generated by the domain owner using Sedo Domain Parking. Disclaimer: Sedo maintains no relationship with third party advertisers. Reference to any specific service or trade mark is not controlled by Sedo nor does it constitute or imply its association, endorsement or recommendation.
画面サイズは3段階。画質も個人的に問題なし。録画機能もあり便利だが、画質の設定がやりずらかった。 CMカット等の編集機能があれば、申し分なしだが、この手のソフトにはそのような機能は無いのが一般的らしい。 録画した動画はHNLの拡張子のファイルで保存されるが、MPEG出力可能。 拡張子をmpgに変えればそのまま使用できるので、HNLファイルとはTVソフト用としてMPEG2ファイルの拡張子を変えたものらしい。
「Line Rider セーブデータ」というキーワードで検索して来た人がいたので、とりあえずセーブデータのありかを書き残しておきましょう。[ユーザ名]のところは適当に置き換えてね。 まず初期型の場合。 C:\Documents and Settings\[ユーザ名]\Application Data\Macromedia\Flash Player\#SharedObjects\JP5F76QU\ic1.deviantart.com\fs12\f\2006\266\6\f\engin2_16devart.swf\undefined.sol ていうファイルがそれです。 Beta2の場合は C:\Documents and Settings\[ユーザ名]\Application Data\Macromedia\Flash Player\#SharedObjects\JP5F76QU\www.of
ソフト詳細説明 一部特殊な事情の方に,微妙に有名になりつつある「劇場版 ディスプレイキャプチャー あれ」が,とうとうMPEG対応になって登場です.従来通りの ■範囲やWindowを指定しての録画。 ■マウスのキャプチャー。 ■マイクからの音声の取り込み。 ■動画ではなくビットマップとして保存 と言う機能に加え,録画速度の向上や,MPEG1形式での保存,あまつさえJPEG保存など,性能も微妙にアップ.ダテに名前が長くなったわけではありません. おまけも徐々に増加中 ■複数のビットマップファイルを一気にJPEGに変換する「J-JUEL」 ■「劇あれ用」MPEG1エンコードDLLのソースファイル ■「劇あれ」による予約録画を可能にする「TIMER」 ただし,前バージョンで微妙に好評だった簡易AVI編集ソフト「あれぷれいや」は,微妙に特許に抵触していると言う噂を小耳に挟んだので,付属しておりません
じわじわとシェアを広げているFirefoxですが、ClickZによると2005年度の売上はなんと63億円強(!)ということです。オープンソースのブラウザとして有名なので売上げはほとんどないと思っていた人もいるのでは(自分もそうでした)。 » Google Search Box Earns Millions for Mozilla ではFirefoxはどうやって稼いでいるのでしょうか?その意外なビジネスモデルについては下記をどうぞ。 そのビジネスモデルの秘密は実はこれ(↓)。 この何の変哲もない小さな検索ボックスがFirefoxの大きな収益源になっているのです。 利用者がここを使ってGoogle検索をするたびにFirefoxにお金が入る仕組み。さらにその検索結果のAdWordsをクリックすれば、その売上げのおよそ80%がFirefoxのものになるらしいです。 なお、Firefoxのスタートペ
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く