ji_kuのブックマーク / 2012年1月9日 - はてなブックマーク

HTML5に対応したWordPressのテーマをつくる | Act as Professional

既にお気づきの方もおられるとおもいますが、当サイトのデザインを一新してHTML5対応しました。最近、HTML5とCSS3に触る機会が増えてきたので、勉強がてら、本サイトのテーマをHTML5対応で、一通りつくりました。本サイトはWordPressを利用しています。昔、とあるサイトからテーマを頂いたものを利用して、原形をとどめないぐらいに自分で改造をしてきた状態でした。そもそも、数ヶ月前まで、HTML5にはあまり興味が無く、情報も集めてない状態でした。どうせ、HTML5といいつつ、CSS3とJavaScriptのことだろ。と、考えてました。ですが、実際にHTML5で推奨されているタグを利用したり、新たに知ったりすると、これ、いままでのHTMLと全然違うな。と、思わざる終えませんでした。そんな、旧世代のHTMLは知ってるけど、HTML5ってどうなんよ？的なレベルだった僕がどうやって、Wor

ji_ku 2012/01/09

WordPress

リンク

はてなグループの終了日を2020年1月31日(金)に決定しました - はてなの告知

はてなグループの終了日を2020年1月31日(金)に決定しました以下のエントリの通り、今年末を目処にはてなグループを終了予定である旨をお知らせしておりました。 2019年末を目処に、はてなグループの提供を終了する予定です - はてなグループ日記このたび、正式に終了日を決定いたしましたので、以下の通りご確認ください。終了日: 2020年1月31日(金) エクスポート希望申請期限:2020年1月31日(金) 終了日以降は、はてなグループの閲覧および投稿は行えません。日記のエクスポートが必要な方は以下の記事にしたがって手続きをしてください。はてなグループに投稿された日記データのエクスポートについて - はてなグループ日記ご利用のみなさまにはご迷惑をおかけいたしますが、どうぞよろしくお願いいたします。 2020-06-25 追記はてなグループ日記のエクスポートデータは2020年2月28

ji_ku 2012/01/09

スクレイピング

リンク

Web::Scraper - naoyaのはてなダイアリー

Today I've been thinking about what to talk in YAPC::EU (and OSCON if they're short of Perl talks, I'm not sure), and came up with a few hours of hacking with web-content scraping module using Domain Specific Languages. 使ってみたよ! #!/usr/local/bin/perl use strict; use warnings; use FindBin::libs; use URI; use Web::Scraper; use Encode; use List::MoreUtils qw/uniq/; my $links = scraper { process 'a.key

ji_ku 2012/01/09

スクレイピング

リンク

ブログが続かないわけ | Web::Scraper 使い方(超入門)

３年前にこの本に出会って、僕はスクレーピングの虜になった。おかげで正規表現をたくさん書く機会が得られたし、CPANのモジュールともたくさん触れ合うことができたし、さらに自分自身でも構造化されたHTMLを書く習慣も身についた。ただ、やっぱり、スクレーピングは簡単ではない部分もたくさんあると思う。文字コードについても意識しなければならないし、なにより正規表現で必要な部分を抽出することそのものが結構骨のいる作業だ。HTML::TreeBuilder を使った方がいいのか、それとも正規表現だけでやったほうが楽なのか。そんなことを考慮しながらコーディングして行く。そこがスクレーピングの楽しいところでもあるのだが、そこがスクレーピングの敷居を高いものにしていることも否めない。そんな、愛らしくもあり憎たらしくもあるスクレーピングを簡単にやってしまうのがこのモジュール、Web::Scraper だ。

ji_ku 2012/01/09

スクレイピング

リンク

駅データ無料ダウンロード『駅データ.jp』

2019.04.05 三陸鉄道リアス線移管対応/石勝線夕張支線各駅廃止/Jヴィレッジ駅追加/初台・幡ヶ谷を京王線から削除 2019.03.17 昨日更新の「浜町アーケード駅」の登録に誤りがありましたので訂正しました 2019.03.16 おおさか東線/ゆりかもめ/長崎電気軌道ほか50件程度更新 2018.04.24 Osaka Metro(4/1)追加/大阪市交通局は民営化に伴う名称・事業所変更北陸新幹線の事業者コードについて駅データ．ｊｐの仕様上、１路線には１事業者コードしか登録できません。北陸新幹線はJR東日本とJR西日本が運営していますが、駅データ．ｊｐではJR東日本の事業者コードのみ登録していますのでご注意ください。【有料会員登録のお振り込みをされた方へ】有料会員としてお振り込みをしたら、必ず「ダウンロード」の「有料会員登録」から「お振り込みの報告」をしてください。

ji_ku 2012/01/09

リンク

Ride（らいど)の技術メモ　solr schema.xml (１文字の日本語検索が CJKAnalyzer では駄目だった）

CJKAnalizerでは「花」の１文字の検索を行うと、検索出来ない不具合が見つかった。その他に検索できない日本語が色々出てきたので、CJKAnalizerには身を引いてもらいます。んで、色々試したのですがどれも一長一短すぎ、使い物にならないので、 N-Gramを使用することにしました。 N-Gram を 1-gram で使用した場合、語句に関係無く文字が一致するとヒットしてしまうので、検索ワードが２文字以上の場合は 2-gram を使用する方針としました。データ上に検索キーワードが存在するのに CJKAnalizer ではヒットしない場合があるなんて、信じられない！。 solrを使用している事例は日本語のページでも見ますが、こういう事が明らかにされていないのは非常に不親切ではないでしょか？？実際solrの問い合わせパラメータを日本語で説明しているサイトも無いし、オープンソースなん

ji_ku 2012/01/09

リンク

Java製形態素解析ライブラリ「lucene-gosen」を試してみる

概要 Javaの有名な形態素解析器でありながら、長らく「公式サイトどこ？」な状況だったSenとGoSenですが、最近はlucene-gosenなるGoSenベースのライブラリがちゃんと管理された状態で公開されてるとか。 lucene-gosen http://code.google.com/p/lucene-gosen/ しかもこの子は辞書内包なのでjarを落とすだけで使えて、Lucene用AnalyzerやSolr用Toknizerも付いていて、日本語の検索用インデックスを貼る時に便利な各種フィルタも用意されているという、至れり尽くせりな構成になっているとか。これは触ってみねばということで、とりあえず簡単な形態素解析、辞書の追加、Luceneでの利用、Solrでの利用を試してみました。ちなみに上のURLでCommiterのところに名前が出ているKoji SekiguchiさんはSol

ji_ku 2012/01/09

リンク

2010-05-27

Solr(というかLucene)で日本語を使えるようにするには大きくわけて、N-グラム(CJKAnalyzer)か形態素解析(JapaneseAnalyzer) を使う方法がある。 N-グラムは東京都で検索すると京都が引っかかったりと残念なので、形態素解析を使いたいのだが、Lucene-jaでは形態素解析にsenを使わなきゃいけない。 senはバギーなので(辞書に登録する単語数が少ない場合は問題ない) Lucene-jaを改変してGoSen（senよりかはマシ）用のラッパーを作らなきゃいけない。 antを入れておきましょう（eclipseなら標準ではいってる）ダウンロード http://itadaki.svn.sourceforge.net/viewvc/itadaki/GoSen/ より落とす。SVNがない場合はしたのほうでtar.gz形式でダウンロードできる $GoSen_HOM

ji_ku 2012/01/09

リンク

NGramTokenizerとEdgeNGramTokenFilter | 関口宏司のLuceneブログ

一定期間更新がないため広告を表示しています

ji_ku 2012/01/09

リンク

Solr による N-Gram 検索 - MOYO Laboratory

日本語の文章に対して全文検索用のインデックスを作成する方法としては、形態素解析により分解した単語をインデックスする方法や、N-Gram によってインデックスを作成する方法などがあります。形態素解析はインデックスが小さく検索が早いこと、N-Gram は業界用語などの特定ドメインの言葉や日本語以外にも対応できて部分一致検索が可能であることなど、双方に利点があります。今回は Solr を使用した N-Gram 系トークナイザーについて記述します。 N-Gram 検索を行うには Solr コアの schema.xml を開いてフィールド型を定義します。 <fieldtype name="text" class="solr.textField" positionIncrementGap="100"> <analyzer> <tokenizer class="solr.CJKTokenizerFac

ji_ku 2012/01/09

リンク

はてなブックマーク

タグ

2012年1月9日のブックマーク (10件)

HTML5に対応したWordPressのテーマをつくる | Act as Professional

はてなグループの終了日を2020年1月31日(金)に決定しました - はてなの告知

Web::Scraper - naoyaのはてなダイアリー

ブログが続かないわけ | Web::Scraper 使い方(超入門)

駅データ無料ダウンロード『駅データ.jp』

Ride（らいど)の技術メモ　solr schema.xml (１文字の日本語検索が CJKAnalyzer では駄目だった）

Java製形態素解析ライブラリ「lucene-gosen」を試してみる

2010-05-27

NGramTokenizerとEdgeNGramTokenFilter | 関口宏司のLuceneブログ

Solr による N-Gram 検索 - MOYO Laboratory

お知らせ

今週のはてなブックマーク数ランキング（2024年8月第3週）

今週のはてなブックマーク数ランキング（2024年8月第2週）

今週のはてなブックマーク数ランキング（2024年8月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス