指定した URL へのリンクのアンカーテキストを収集する 2006-09-12-1 [YahooHacks] 今回の YahooHacks は「アンカーテキストの収集」です。 とはいえ、文字コードにはまったー! 「./hack_anchor.pl http://www.yahoo.co.jp/」を実行すると、 「UTF-16LE:Malformed LO surrogate dab3 at /usr/lib/perl/...」 などと怒られて落ちるのですが(環境によって異なるみたい…)、 これを skip するにはどうしたら良いのでしょうか? とりあえず、decode のところを eval してみました…。 ■■■あるページへのリンクのアンカーテキストを収集する 同じページを指すハイパーリンクのアンカーテキストにはいろいろと バリエーションがあります。 例えば、 ht
同じ名前の市町村 2006-05-07-1 [地理] 同じ名前の市町村をちょっと調べてみた。 ■同じ名前の市は「伊達市」と「府中市」のみ。 - 伊達市: 北海道伊達市, 福島県伊達市 - 府中市: 東京都府中市, 広島県府中市 ■同じ名前の町、同じ名前の村は結構ある。 4つ (★★★★) - 池田町 : 北海道中川郡池田町, 福井県今立郡池田町, 長野県北安曇郡池田町, 岐阜県揖斐郡池田町 3つ (★★★) - 美里町 : 宮城県遠田郡美里町, 埼玉県児玉郡美里町, 熊本県下益城郡美里町 - 朝日町 : 山形県西村山郡朝日町, 富山県下新川郡朝日町, 三重県三重郡朝日町 - 南部町 : 青森県三戸郡南部町, 山梨県南巨摩郡南部町, 鳥取県西伯郡南部町 - 美郷町 : 秋田県仙北郡美郷町, 島根県邑智郡美郷町, 宮崎県東臼杵郡美郷町 - 美浜町 : 福井県
MeCabをPerlから使う 2006-02-25-4 [Programming][NLP] NAISTの後輩のスーパーハカー taku-ku 氏作の形態素解析エンジン MeCab。 解析スピードは ChaSen より速いし、なにより今もメンテされてるのが 素晴らしい。20%ルール!? Perlモジュールもあって、しかも使い勝手も良いので Text::ChaSen [2006-02-24-3]は止めて、こっちを使っていこうかと。 MeCab: Yet Another Part-of-Speech and Morphological Analyzer <http://mecab.sourceforge.jp/> 以下を取ってきてすんなりインストール。何のバッドノウハウもなし。 - mecab-0.90rc9.tar.gz - mecab-ipadic-2.7.0-2005
日本人向けの英単語スペルチェッカー 2006-02-24-4 [NLP][英語] Yahoo!検索に、日本語を母国語とする人向けの英単語スペルチェッカー 機能が!!! なかなかうまくいってるっぽいです。 英語が苦手なあなたに朗報!〜検索結果でのローマ字・英語スペルチェック を大幅強化 - Yahoo!検索 スタッフブログ <http://blogs.yahoo.co.jp/yjsearchblog/26676714.html> 従来の英語のスペルミスに対応するスペルチェックに加えて、ローマ字な ど、日本語を母国語にする人がよく間違えるスペルミスに対応しています。 ローマ字入力でも元のスペルにマッチ! shuwarutunegga, burogu, burijitto, pabirion, roketto, cnetto ローマ字表記交じりのあいまい英単語スペルも。
尾崎放哉全句集がA4一枚に! 2006-02-19-1 [LifeHacks] 「すばらしい乳房だ蚊が居る」 などの味わい深い自由律俳句で知られる俳人、 尾崎放哉(おざきほうさい)。 青空文庫収蔵の「尾崎放哉全句集」がなんとA4一枚(両面)に コンパクトに印刷できます。そのPDFを公開! <http://chalow.net/misc/OzakiHousai.pdf> 昔、隙間時間を有意義に過ごすためのコンテンツ・Tipsサイト 「隙間時間.NET」というのを企画してて、それ用に用意した サンプルコンテンツの一つです。 今は塚田君のサイトに行っちゃうな、sukima-jikan.net は。 Referrer (Inside): [2007-01-17-3] [2006-03-26-2]
Web2.0ジェネレータ 2006-02-22-1 [ネタ][WebTool] Web20Generator: XHTML CSS Design Generator <http://www.web20generator.com/> It's Not Too Late! よーし、さっそく! ↓↓↓↓↓ <http://www.web20generator.com/generated.aspx? l=FFFFFF&b=FF99FF&g=FFCCCC&n=%e3%81%9f%e3%81%a4%e3%82%922.0> This page has nearly everything: Rounded corners, gradients, XHTML and CSS, a color scheme to make your eyes vomit, a trendy 'badge'
コーランに何が書いてあるか知らなかったよ 2006-01-19-1 [書評・感想] ■阿刀田高 / コーランを知っていますか / 新潮文庫 「豚肉食べるな」などの戒律以外にどんなことがコーランに書かれている のか長年の疑問でしたがやっと分かりました! 同じ唯一神からの啓示な わけで旧約聖書や新訳聖書と同じ内容が多いわけです。 この歳になって今さらこんなこと言ってるのも恥ずかしいところですが、 何事も知るのに遅すぎるということはない、知らないよりもまし、 ということでひとつ。 あと、これまでの阿刀田高の「〜を知っていますか(新潮文庫)」 シリーズ(旧約聖書、新約聖書、ガリバー旅行記、ギリシア神話)と 比べると、本書はちょっと慎重かな、という印象です。おちゃらけ少なし。 追記060208: - ムハンマド風刺漫画 <http://www.worldtimes.co.j
目の健康についてまた真剣に考えねば 2006-01-19-3 [健康] 最近視力が落ちてるかもしれない。注意。 近視の基礎知識と対処法 vol.2 近視を進行させない生活習慣とは - [目の健康]All About <http://allabout.co.jp/health/eye/closeup/CU20050209A/index.htm> <オフィス・家庭編> (1)本・書類・パソコンに、つい目が近づいてしまう (2)デスクや椅子、パソコン関連機器を調整していない (3)つい長時間目を使い続け、目を疲れさせてしまう (4)照明環境が適切ではない (5)不自然な姿勢で、本を読んだりテレビを見ることがある (6)夜更かし、残業などをすることが多い <生活習慣編> (1)朝食抜き、偏食が多い (2)運動不足、インドア派 (3)睡眠不足が続いている 参天製薬 ま
ロングテールの尾はとっても、とっても長い 2006-01-19-6 [Blog] gapingvoid: top ten reasons why nobody reads your blog <http://www.gapingvoid.com/Moveable_Type/archives/002173.html> の翻訳&抜粋記事、 「5P日記: あなたのブログを誰も読まない理由」 <http://www.chakuriki.net/diary/archives/2006/01/post_550.html> ・ロングテールの尾はとってもながい。 むむ。ちまたにブログがあふれすぎてる、か。 そういえば、今更だけど、最近 Chris Anderson の "The Long Tail" 読んだ。基本。おもしろー。日本語訳は出てないのかな? - Wired 12.10: T
とりあえずアウトプット 2005-02-22-1 [RadioYto] 「とりあえずアウトプット」というやり方は良いですよね。 アウトプット主義! なんでもそうすれば良いというわけではありませんが。 - 糸井重里著「インターネット的」[2003-06-30-2] いま思っていることは、新鮮なうちに、いま言ってしまわないと、ほとん どが消えてしまうのです。その程度のことで消えてしまうようなものはた いしたものじゃない、という言い方もできるのですが、試しに語ってみる、 とりあえず始めてみることによって、アイデアやクリエイティブは膨らん だり転がったりして、大きな何かに化ける可能性があるのです。 - 5年後のことなんて、わからないし。 : NDO::Weblog <http://naoya.dyndns.org/~naoya/mt/archives/001572.html>
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く