タグ

ブックマーク / tariki-2.hatenadiary.org (7)

  •  スクレイピングが特殊な行為だとか魔法だとか思ってる人が減らないので - たぬきん貧乏日記 〜No Worry, No Hurry. Eat Curry!〜

    ちょっと書いておこうか。 現時点でも岡崎市立中央図書館の新着情報ページは糞なわけですよ。 ためしに「ここ一週間で入荷した中の最も注目されているをカテゴリ別に抽出」してみてください。 すぐにはできませんから。「最近の話題の」すらわからない。 それをわかるようにしたら「おお,最近はこんなのが読まれてるのか。俺も読もう」という判断がつく。 わかるかなあ。要するに,現状不便なんだけど,このデータを毎日取得すると差分がわかるでしょ,つまり,今日入ったがわかる。ってことは,それを毎日続けると,毎日入ったがわかる。だから,「今日を基点に過去一週間」ってデータも取れる。さらに書誌詳細も取っておけば,「新着で人気」のかどうかがわかる。 それをデータベースに入れてあれば,簡単に抽出できる。こんなイメージで。 「過去一週間で,予約が3件以上入ったを調べる」 「今日入ったで,予約の多い順にとりあえず

     スクレイピングが特殊な行為だとか魔法だとか思ってる人が減らないので - たぬきん貧乏日記 〜No Worry, No Hurry. Eat Curry!〜
  •  思考実験継続中 - たぬきん貧乏日記 〜No Worry, No Hurry. Eat Curry!〜

    注意: このエントリは岡崎市立中央図書館事件において「おかしいだろ」と*私が思った*部分について法律家の言葉を使って論証できないか考えている作業中の一部分です。 ○前提 事実として以下の事柄がありました 中川さんがクローラを走らせた 目的:スクレイピングを実施するため*1 方法:2003年時点で「礼儀正しいレベル」とされた*2,1秒に1〜2回程度のアクセスを行い,収集したデータを自動的に分類する 岡崎市立中央図書館のWEBサーバで「検索できない」という状況が発生した 図書館員はその状況に気づいていなかった 外部からの苦情によって気づき,サーバの再起動*3で対処した 苦情に基づく再起動は述べ4回 再起動に備えて残業が発生 岡崎市立中央図書館のWEBシステムの概要 三菱電機インフォメーションシステムズ(MDIS)が製造販売している「MELIL/CS」のWEB機能 旧式*4の「バージョン5」が導

     思考実験継続中 - たぬきん貧乏日記 〜No Worry, No Hurry. Eat Curry!〜
  •  MDIS が謝罪したようです - たぬきん貧乏日記 〜No Worry, No Hurry. Eat Curry!〜

    http://bakera.jp/ebi/topic/4298 ※後半の個人情報流出に関しては、私はよく知らないのでとりあえずノーコメントで。たぶんたりきさんがコメントされるでしょう。:-) Σ(゚д゚ノ)ノ 呼ばれたのでコメントしますとですね。 えーと,忙しくてろくに見てませんでした。わらい。 それだけじゃなんなので,あちこちで記事になったのを今更ながら読んでみたわけですが,酷いものです。何が酷いって,お前らこの期に及んで事実を正しく把握してないだろと。 端的に指摘しておきますと,まずこの図というかスライドというか,Internet Watch から引用します。 http://internet.watch.impress.co.jp/docs/news/20101130_410564.html http://internet.watch.impress.co.jp/img/iw/docs

     MDIS が謝罪したようです - たぬきん貧乏日記 〜No Worry, No Hurry. Eat Curry!〜
  •  Twitter のストリーミングAPIを使ってダラダラ流すワンライナー - たぬきん貧乏日記 〜No Worry, No Hurry. Eat Curry!〜

    curl -sNu<ユーザID>:<パスワード> "http://stream.twitter.com/1/statuses/filter.json?track=<キーワード>" | perl -MJSON -Mutf8 -nle '$dat = decode_json( $_ ); if($dat->{user}{lang} eq "ja") {print encode("utf-8", "$dat->{user}{name} : $dat->{text}\n\n");};'

     Twitter のストリーミングAPIを使ってダラダラ流すワンライナー - たぬきん貧乏日記 〜No Worry, No Hurry. Eat Curry!〜
  •  シャアが来る - たぬきん貧乏日記 〜No Worry, No Hurry. Eat Curry!〜

    通常の三倍のひろみちゅが。と思ったらすでにブクマ済みだったとは。 http://itpro.nikkeibp.co.jp/article/COLUMN/20070206/260901/?ST=security&P=1 対策が・・・ 基的に真っ当な「出力」(データの引渡し)をしていれば問題はありません。 データの引渡し先の相手に適合するフォーマットにしておくことが肝心というわけですな。 相手が「コマンドライン」ならシェルのメタキャラクタをエスケープしておく。 相手が「データベースエンジン」ならSQLのメタキャラクタをエスケープしておく。 相手が「ブラウザ」ならHTMLの後略。 出力先がCSVならカンマ含んだデータをダブルクォーテーションで囲むだろ?そういうことっすよ。 ちなみに原理についてはもうアレすぎるので放置。確かに出力時のバグって点では同じだけど、それ以外の部分が全部違うだろ。

     シャアが来る - たぬきん貧乏日記 〜No Worry, No Hurry. Eat Curry!〜
    dnsystem
    dnsystem 2007/02/15
    わかりやすい
  •  OP25B - たぬきん貧乏日記 〜No Worry, No Hurry. Eat Curry!〜

    外部鯖に直接メールを出させない、つまりクライアントは外部の SMTP 鯖に直接アクセスさせないという OP25B。だいぶ普及してるというより、確かどっかが旗振って大手はコレやることになってるんだっけか。 っつうかね。馬鹿かと。 クライアントはまずどのサービスを利用するかはクライアントで決められるのが当然だろが。どこのメル鯖使ってもいいしどこのWEB鯖使ってもいい。鯖の許可さえあればな。 だから来は「おまいら一斉に囲い込みますよ」ではなく、「おまいら一斉に SMTP でも認証しますよ」とやるのが正しい姿だ。 その上で、第三者中継してるようなサーバにはそれなりの管理責任を背負ってもらいますよという世論を醸成するのが王道だろ。 代替ポートで認証受けてメール出してくださいじゃねえよ。自分のサービスで AMTP Auth したらサポートがパンクすんのわかってるから自分の内側では OK で外には厳し

     OP25B - たぬきん貧乏日記 〜No Worry, No Hurry. Eat Curry!〜
  • 2005-11-28

    カレー醤油ってなんですか!!!なんですかその魅惑調味料はっっっ!!!!!! ググった 湯浅醤油の新商品「カレー醤油」 カレー用の醤油だそうだ 商品詳細はこちらですな ジャスコは近くにないのです・・・('A`) アンケートという、言ってみれば最も操作しやすいツールを使ってミスった(笑)わけだけど、実は報道ってのは他にもいろんなことをしている。 たとえば、「遮蔽」 テレビや新聞じゃ「アジア各国が{首相|麻生大臣}の靖国参拝に反対」とか書いてるけど、これも遮蔽。実際には特定アジアだけだったりする。 ウトロ問題。京都のウトロ地区で、在日朝鮮人の人が立ち退きを迫られている問題。韓国も日に対して早期解決を申し入れたりしている。実はコレ、在日の地主が在日を追い出そうとしているだけの、在日同士の諍いで日人は関係していない。でも差別問題のようにして報道されている。地主を通名で出したりしてね。 ニートの問

    2005-11-28
  • 1