%YAML 1.2 --- YAML: YAML Ain't Markup Language™ What It Is: YAML is a human-friendly data serialization language for all programming languages. YAML Resources: YAML Specifications: - YAML 1.2: - Revision 1.2.2 # Oct 1, 2021 *New* - Revision 1.2.1 # Oct 1, 2009 - Revision 1.2.0 # Jul 21, 2009 - YAML 1.1 - YAML 1.0 YAML Matrix Chat: '#chat:yaml.io' # Our New Group Chat Room! YAML IRC Channel: libera
RSSが公開されていれば、その内容から今何が話題になっているのかを把握することができる。このスクリプトが“まとめサイト”を作るピースの1つだ。 前回までは、スクレイピングの基礎を説明した。今回からは、実際にどのようにスクレイピングのプログラムを作っていけばよいのか、実践的な解説行っていこう。 今回の目的は、「RSSで配信されているブログ投稿を、コメント数が多いもの順に並べて表示する」という処理のスクリプト作成だ。 このようなスクリプトを作っておけば、数ある記事の中から、「盛り上がっている記事(炎上しているかもしれない)」を容易に把握することができる。そして、このスクリプトを以降の記事で紹介する自動化設定に組み合わせることで、“まとめサイト”を作り上げていくのだ。 PerlによるWebコンテンツの取得 スクレイピングするためには、まず、相手のWebサーバに接続してコンテンツを取得しなければな
かつてJR横浜線 十日市場駅近くのMebius (CPU:Pentium 150MHz)より発信していたウェブログです。 筆者は普段EmacsをX Windowで使わない。そもそもX Windowを使っていないからだ。使うのはFreeBSDやLinuxで動くEmacsだが、WindowsからTelnetやSSHでアクセスしているので、キャラクターベースである。マウスも使わ(え)ない。 昔はパソコンの性能に対してWindowsが重かったので、FreeBSD+X Windowを愛用していたが、その時はEmacsも重かったので、Emacsはktermやrxvtの中でしか使わなかった。 そのさらに昔、大学の研究室にはX Windowの端末があったので、X上のEmacsを使おうと思えば使えたのだが、Emacsを知ると同時にTelnetも知ってしまい、EmacsをXで使う利点よりも、コンピューターを遠
以前のGRUBでは起動メニュー (menu.lst) を手で編集していましたが、現在のUbuntuのGRUB 2はupdate-grub (grub-mkconfigのフロントエンド) でgrub.cfgを生成する仕組みに変わっているようです。今までgrub.cfgを直接いじっていましたが、そろそろ正しい生成方法を調べてみました。 (GRUB標準の機能とUbuntu固有部分の切り分けがちゃんとできていないので、ひとまず手元のUbuntu 10.10前提で) 情報源: Grub2 - Community Ubuntu Documentation 動作環境: Ubuntu 10.10 /etc/grub.d/ このディレクトリには、grub.cfg生成の際に呼び出されるヘルパースクリプトが格納されています。 10_linux: HDDにインストールされているLinuxを検出して、Linuxに関
紹介 このUbuntu 11.10(Oneiric Ocelot)向けリリースノートは、リリースに関連する概要と、Ubuntu11.10やその派生版の既知の問題をまとめたものです。 リリースの概要 Oneiric OcelotはUbuntuの主要フレーバーすべて(desktop、server、cloud、Kubuntu、Xubuntu、Lubuntu、Edubuntu、Mythbuntu、そしてUbuntu Studio)の新しいリリースが含まれています。このリリースのUbuntuフレーバーでは、Unity 2Dがフォールバックシェルとして第一の選択肢になったことにより、ハードウェアアクセラレーションがなくても完全なUnity体験をお届けします。LightDMがUbuntu、Edubuntu、Xubuntu、Mythbuntu、そしてUbuntu Studio用のログインマネージャーとして
2010年12月14日23:11 カテゴリPC GRUB Rescueによる復旧 皆さん、こんばんは。 DVD焼いてる間、暇なのでメモ代わりに書いてみます。 僕の趣味はOSごとPC吹き飛ばす事なので、 GRUB Rescueはよく使うんですよねwww ブートローダにGRUBを使っているPCのパーティションが 変更された場合(正確にはbootディレクトリのパーティション変更or破損。多分)、 GRUBは道に迷い、Rescueなどとホザキ始めます。 その時には優しく、時には罵倒しながら、 bootの場所を教えてあげなければいけません。 その際に使うコマンドを書いときます。 ネットで検索したら普通に出てきますが、 色々と気付いた事もあるので自分でも。 まず状況説明。僕のPCはUbuntuとwindowsのデュアルブートで、 Ubuntu内でも幾つかパーティションを分けています。 今回問題になるb
各フレームごとの尤度計算において、累積尤度の低い単語列は正解の単語列に なる可能性が低いため、以後の探索から除外できる可能性が高い。そこで、フ レームごとに最も高い累積尤度から正解の存在をおおよそ保証できる、ある個 数(ビーム幅)のみ計算を続けることにより、計算量およびメモリ量が削 減できる[68]。具体的には、すべてのに対して表 2.1 、10)の式の計算のかわりに、最も高い累積尤度 から、ある個数(ビーム幅)のみを計算する。したがって を記憶するメモリ量は、tree-trellisサーチでは(認 識語彙数単語の状態数)が必要であるのに対し、ビームサーチでは (ビーム幅 )しか必要としないため大幅に削減できる。また、計算量も ビーム幅の計算方法によって異なるが、同様な比率で削減できる。
前回は、Perlモジュールである「Web::Scraper」を使ったスクレイピングについて説明した。Webページ(HTML)は、「構造」と「デザイン」面で比較的分離が進んできたため、CSSセレクタによるスクレイピングが有効であることが分かったはずだ。 今回の最終回では、コンテンツの自動収集と統計手法について考えてみよう。 記事内で扱っていくのは、幾つかのコンテンツをたどって、「利用頻度の高い語句を集め、話題となっているキーワードを見つけよう」というものだ。 話題のキーワードを集める手法 近年ブログのポータル上などでは、話題となっているキーワードを「利用頻度に応じたフォントサイズ」で示し、クリックすると該当の記事一覧が表示されるという仕組みが実装されているものが多い。 オルタナティブ・ブログにも似たようなものとして「話題のキーワード」が見られる。キーワードをクリックすると、Googleによる
Web APIが公開されてなくても、動的にマッシュアップすることが可能だ。便利に使える“まとめサイト”を、各種ツールで動的に構築しよう。 すべて表示 新着記事 関連記事 まとめサイト2.0: 2008年、Webは文字列解析で変わっていく オルタナティブ・ブログを例に挙げて“まとめサイト”を作るための手法を紹介してきたこの連載。最終回は、文字列解析の自動化からキーワードを抽出するための方法を紹介しよう。 (2007/12/28) まとめサイト2.0: 付加価値コンテンツとは――スクレイピングからグラフ化まで HTMLを解析し、スクレイピングしたデータを基にグラフ化を行う。遷移を把握するために有効なものとして、さまざまな応用が考えられるだろう。 (2007/12/21) まとめサイト2.0: スクレイピングで記事ランキングのグラフ化 「オルタナティブ・ブログ」で公開されている週間アクセスランキ
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く