タグ

ブックマーク / code46.hatenablog.com (6)

  • Solrを使ったレシピ検索のプロトタイピング

    モーショノロジー#1で発表してきました http://atnd.org/events/23608 資料: http://www.slideshare.net/penguinana/solr-11287004 Solrを使ったレシピ検索のプロトタイピング View more presentations from genta kaneyama 他の発表の資料は順次以下から見れるようになるようです。 https://www.facebook.com/motionology クックパッドではchankoという仕組みを使って番で複数のバージョンを安全にデプロイできるようにしています。 これによって1つの場所を複数のチームが同時に改善したりできるようになりました。 chankoについては以下をお読みください。 Extensionの仕組みをMITライセンスで公開します

    Solrを使ったレシピ検索のプロトタイピング
    denken
    denken 2012/03/03
  • Solr勉強会に行ってきました。 - 不可視点

    7月21日にECナビにてSolr勉強会がありました。LTに「Solr@twitter検索」という発表で参加させて頂いた時の資料を公開しておきます。すごく勉強になりました。当日名刺をもってなかったり、遅刻してきたりいろいろご迷惑おかけしてしまって申し訳なかったです…!でもこりずに次も誘ってくださいw 当日の勉強会の様子: id:zegenvsさんの日記 id:Kishiさんの日記 スライド:Solr@twitter検索(.ppt) Solr@twitter検索View more presentations from penguinana. 分かりにくいスライドですが「考え方が根的に間違っている!」「これはこうすべきだし!」「これを使うべき。」「ここはどうなってるの?」などお気づきの点ありましたらコメント欄などでお知らせください。 もう少しSolrいじってみてまたブログに書いたりしてみようと

    Solr勉強会に行ってきました。 - 不可視点
  • MeCabの辞書にはてなキーワードを追加しよう - 不可視点

    MeCabは形態素解析のためのソフトウェアです。日語を分かち書きするために使われるものとしては最も人気の高いものだと思われますが、チャットや掲示板に書き込まれるような崩した日語や、正しく書かれた日語でも新語を期待した通りに分かち書きしてくれないことがあります。これはMeCabの内部で使われている辞書が一般的な言葉を情報源としているわけではないことに関係があります。MeCabというか、より一般的な話ですが以下のような認識が一般的かと思われます。 というのも、一番広く使われているであろう自然言語処理技術形態素解析(単語分かち書き、と言ったほうがいいのかもしれない)であろうが、これは現在99%くらいの精度になっていて、すでに人間がやるより遙かに高精度で行えるのだが、これだけ高い精度が出せるのは新聞記事を相手にしたときだけであって、それは新聞記事をコーパスとして用いる機械学習により形態素解

    MeCabの辞書にはてなキーワードを追加しよう - 不可視点
    denken
    denken 2009/05/31
    Senの辞書にWikipediaを追加したときはコストの値をどうするかで結構悩んだ
  • twitter検索のクロール方法について - 不可視点

    twitter検索はpublic_timelineスクレイピングする方法でポストを収集していました。 これはうまくいっていたのですが3月のはじめにAPIによるアクセスに続いて通常ページもキャッシュされるようになり、ポストの取得がとびとびになってしまいました。影響はかなり出てしまい、回収率は1/10程度に落ち込んでしまいました。 代替策 TwitterはData mining feedという600ほどのポストを一度でもらえるAPIを提供していてポストを多く集めたい人はそれを使うようにというアナウンスをしています。しかしこれもキャッシュが効いているようですからそれほど改善しないのではないかと思い試していません。 また、既に事実上日語のみを検索対象にするサービスになっているので日語ユーザーのポストだけもらえればいいかと思い、日語ユーザー(7万人前後)をRSSで取得する方法を考えましたが、

    twitter検索のクロール方法について - 不可視点
  • Greasemonkey勉強会 - 不可視点

    ゼミ用資料 関係のない方はスルーしてください 今回の資料:ダウンロード Greasemonkeyとは Firefoxでユーザースクリプトを実現するためのエクステンション(拡張機能)の一つで、読み込んだウェブページをクライアント(ユーザー)側でカスタマイズ可能にするもの。 他のブラウザでは、同様の機能が、Opera8では標準で、IEではTrixieを導入することで、SafariではCreammonkeyを導入することで実現できる。 例えば、特定サイトのフォントを変更したり、広告を排除したり、便利なリンクを追加したりすることができるユーザースクリプトがあります。より詳細な内容:http://diveintogreasemonkey.org/toc/ *1 使うには https://addons.mozilla.org/ja/firefox/addon/748 どんなものがあるの とりあえず使っ

    Greasemonkey勉強会 - 不可視点
  • 形態素解析エンジンSenを使う - 不可視点

    ゼミ用資料 関係のない方はスルーしてください グーグル様に聞けばすばらしい資料がいっぱい出ますが、とりあえず出たやつをまとめました。 無料のものから商用向けまで非常に多くの形態素解析エンジンが開発されている。 形態素解析とは? 対象言語の文法の知識(文法のルールの集まり)や辞書(品詞等の情報付きの単語リスト)を情報源として用い、自然言語で書かれた文を形態素(Morpheme, おおまかにいえば、言語で意味を持つ最小単位)の列に分割し、それぞれの品詞を判別する作業を指す。 自然言語で書かれた文を、形態素(言語で意味を持つ最小単位)に分割する技術です。この際、辞書 (「品詞」などの情報つきの単語リスト)中の情報を参照することで、「品詞」、「活用形」、「読み」等の情報を得ることが可能です。 工藤 拓[MeCab 汎用日形態素解析エンジン]http://www.jtpa.org/files/M

    形態素解析エンジンSenを使う - 不可視点
  • 1