この日本の名字マップは、電話帳や住宅地図の表札名の約4千万件のデータを、都道府県ごとに集計し、地図化したものです。表示方法としては絶対数と特化係数が選べます。また、2画面で異なる名字を地図化したり、絶対数と特化係数の地図を比較したりできます。 特化係数:当該の名字が各都道府県でどの程度特化しているかを示したもので、最大値が100であれば、全国的に均等に分布していることになります。 作成:立命館大学 協力:アクトン・ウインズ株式会社
下記が Ruby から MySQL に接続する例です。ここではRuby/MySQLというライブラリを利用します。 ソースコード 下記のソースコードを参考にしてください。 # Ruby/MySQL を読み込みます。 require'mysql' # MySQL に接続します。 my = Mysql.new('hostname','username','password','dbname') # SQL クエリを実行します。 res = my.query('SELECT * from table_heteml') # 結果を表示します。 res.eachdo|row| puts row[0] end hostname
今まで何度もスクレイピングとかクローリングをしてきたので、マエショリストの端くれとしてコツを公開すべきかなあ、と思い、公開します。 今日の題材は、CNET Newsです。私はウェブ文書にタグ付けをするという研究をしているのですが、そのための教師データとしてクローリングをします。 photo by Sean MacEntee 要件定義 CNET Newsから全ニュースを保存し、その本文をデータベースに保存します。これは、次のようなフローに書き下すことができます。 全URLを取得し、データベースに保存 データベースにある全URLをダウンロードする 保存した全ページを解析して、本文をデータベースに保存する という流れです。これらは独立していますから、それぞれどの言語で解析しても構いません。しかし後述しますが、「あとから追いやすくする」「適材適所」といったあたりを気をつけて、言語選択をするべきだと
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く