タグ

2010年7月4日のブックマーク (7件)

  • gorilog.net

    This domain may be for sale!

    makimoto
    makimoto 2010/07/04
  • 3行でできる超お手軽全文検索 - mixi engineer blog

    梅雨。部屋干しした洗濯物による異臭騒ぎに苦しむmikioです。今回は、Tokyo Cabinetのテーブルデータベースで超お手軽に全文検索をする方法について説明します。 使い方 テーブルデータベースについてまずおさらいしておきましょう。PerlRubyのハッシュのようにコラム名とその値を関連づけた構造を、主キーを識別子として保存するデータベースです。例えばRubyからデータを保存するに以下のように行います。データベースであることをほとんど意識させないというのが素敵ポイントです。APIはCでもPerlでもRubyでもほとんど同じなので、言語にかかわらず同じようにレコードを操作できます。 require 'tokyocabinet' include TokyoCabinet # データベースを開く tdb = TDB::new tdb.open("casket", TDB::OWRITER

    3行でできる超お手軽全文検索 - mixi engineer blog
    makimoto
    makimoto 2010/07/04
  • Project Gutenberg のテキストデータから本文を抽出する - 木曜不足

    Project Gutenberg は小説や詩、論文、教養書、演説原稿などなどなど、著作権切れあるいは著作権のないテキストの一大データベース。主にはやはり英語だが、他の諸言語のデータもそこそこある。 このテキストはまるっと自由に使えるので、文章解析などをやるには宝の山。 だけど、肝心のテキストの前後にヘッダやフッタや、とにかく様々な情報がくっついているのが、かなり難。 ある程度書式を決めといてくれれば良かったのに*1、誰もが自由気まま勝手に制作していて、めっちゃフリーダムでアナーキーなことになっている。 区切りのフォーマットがそもそもファイルによってバラバラだし。 そんな区切りもあればいい方で、なんの区切りもなく「誰がスキャンしました」だの「間違ってるかもしれないからチェックしてね!」だの書いてあったり、最悪の場合、それが文と空行1つしかあいてないという。 しかたなくそのまま解析したりな

    Project Gutenberg のテキストデータから本文を抽出する - 木曜不足
    makimoto
    makimoto 2010/07/04
  • Anatomy of a Large-Scale Social Search Engine

    Back in October, we wrote a research paper entitled “Anatomy of a Large-Scale Social Search Engine” and submitted it to WWW 2010. We found out last week that it has been accepted, so we’ve decided to share it with you today! Our paper was inspired by the classic Google paper, “Anatomy of a Large-Scale Hypertextual Search Engine”, in which Sergey Brin and Larry Page originally describe the algorith

    makimoto
    makimoto 2010/07/04
  • Academic reference management software for researchers | Mendeley

    Mendeley brings your research to life, so you can make an impact on tomorrow Search over 100 million cross-publisher articles and counting Search Popular searches: COVID-19 Bioenergy Obesity Create a free account Access your library, everywhere Add papers directly from your browser with a few clicks or import any documents from your desktop. Access your library from anywhere. Windows, Mac, Linux a

    makimoto
    makimoto 2010/07/04
  • NLP若手の会(YANS) Web Site -   第5回 (2010年)

    シンポジウムは、自然言語処理および関連分野の若手研究者の交流を促進し、若手のアクティビティを高めることを目指しています。これから始まる、または始まったばかりの研究の発表を歓迎し、活発な議論を行う場を実現したいと考えています。また、招待講演や国際会議参加報告などの特別セッションを通じて、自然言語処理の普及・啓蒙を図り、若手研究者の育成につなげていきたいと考えています。 以下のように研究発表を募集しますので、奮ってご応募ください。 主催:言語処理学会 日時:2010年9月14日〜16日 (予定) 場所:国立情報学研究所12階会議室 (東京都千代田区) 参加費:無料 (懇親会費は別途) 以下のとおり研究発表を募集します。 発表テーマ自然言語処理 音声言語処理 人工知能 その他、関連分野 発表資格発表者は40歳までの年齢の方とします。 言語処理学会の会員・非会員を問いませんが、入会をお勧め

    makimoto
    makimoto 2010/07/04
  • Rakuten Institute of Technology | 楽天技術研究所

    In order to surpass human intelligence, we must first observe and deeply understand the nuances of human behaviors and actions. As the R&D organization of the Rakuten Group, we research and develop technologies and algorithms to create new, valuable services. LEARN MORE In order to surpass human intelligence, we must first observe and deeply understand the nuances of human behaviors and actions. A

    Rakuten Institute of Technology | 楽天技術研究所
    makimoto
    makimoto 2010/07/04