タグ

2008年8月23日のブックマーク (5件)

  • ヤフーの日本語係り受け解析APIとサンプルプログラム「なんちゃって文章要約」

    ヤフーの日語係り受け解析APIとサンプルプログラム「なんちゃって文章要約」 2008-08-21-1 [WebTool][NLP][Programming][Algorithm] Yahoo!デベロッパーネットワーク(YDN)に 「日語係り受け解析Webサービス」が登場しました。 Yahoo!デベロッパーネットワーク - テキスト解析 - 日語係り受け解析 http://developer.yahoo.co.jp/jlp/DAService/V1/parse.html 「係り受けってなに?」という方もいると思うので、 以下、まったくもって厳密ではない、適当な解説を試みます。 (1) 日語をコンピューターで処理するには、 まず形態素解析というのをやって、 文を形態素(≒単語)単位に分割します。 YDN の「日形態素解析Webサービス」[2007-06-18-1] で試すことができ

    ヤフーの日本語係り受け解析APIとサンプルプログラム「なんちゃって文章要約」
    pcod
    pcod 2008/08/23
  • 【楽天】楽天研究開発シンポジウム2008|開催概要

    楽天技術研究所では、来る2008年11月29日(土)、楽天社にて「次世代インターネットサービスを支えるテクノロジー」をテーマに、楽天研究開発シンポジウム2008を開催いたします。 知識創成社会を担う情報技術分野の主に学生の皆様から、現在研究中または最近行った研究の成果を発表論文として募集し、様々な視点からの研究発表と、そのディスカッションを通して、次世代インターネット技術のあるべき姿を明らかにし、これからの研究開発はどうあるべきか、その方向性を示します。 シンポジウムでは、我々の生活に欠かせない存在となったインターネットをより活用し、ライフスタイルの改善に繋がる研究として、情報検索やマルチメディアといった応用技術からサービスを支えるための大規模・分散基盤技術に至るまで、幅広い研究分野を対象とし、その研究成果を募集しますので奮ってご投稿くださいますようご案内いたします。 ご投稿頂い

  • Wikipedia:データベースダウンロード - Wikipedia

    ウィキペディアのコンテンツなどのデータは、再配布や再利用のために利用できる一元化されたデータベース・ダンプでの提供が行われています。クローラを用いてコンテンツを収集しないでください。このデータベース・ダンプの生成は不定期に行われています。 ウィキペディアのコンテンツは Creative Commons Attribution-ShareAlike 4.0 International License (CC BY-SA 4.0) および GNU Free Documentation License (GFDL) の下にライセンスされています(Wikipedia:著作権と利用規約を参照)。画像などのメディアファイルは異なるライセンスで提供されることもあり、ファイルページで明記されています。 より詳しい解説はmeta:Data dumps(英語)を参照してください。 全プロジェクトのダンプ:du

  • wikipediaのダウンロード&データベースにインポート - プログラマでありたい

    ダウンロード Wikipedia:データベースダウンロード ウィキペディア日語版: jawiki-latest-pages-meta-current.xml.bz2 xml2sqlmysqldump形式に変換 wikipediaのコンテンツは、600MB以上ある。それなりに時間が掛かるので、落としている間にデータベースへのインポートの準備。データの提供形態はxmlなので、データベースに入れるにはそれなりの工夫が必要である。幸いwikipedia自体が2種類の方法を提供してくれている。MediaWikiに付属しているimportDump.phpを使うか、xml2sqlというツールをインストールするかが選べる。 他でも使えそうなので、xml2sqlを使うことにした。 xml2sql $wget ftp://ftp.tietew.jp/pub/wikipedia/xml2sql-0.5.ta

    wikipediaのダウンロード&データベースにインポート - プログラマでありたい
  • manual - 機械学習勉強会Wiki

    はじめに † 機械学習テンプレートライブラリは,自然言語処理へ機械学習を応用する研究や,より自然言語処理に適した機械学習手法の開発を容易にするための C++ テンプレートライブラリです.特に,系列構造や木構造など,自然言語の構造を表現するのに適した構造に対して,様々な機械学習アルゴリズムを利用できるように設計されています. 設計の特徴として,データ構造を表すクラスと学習アルゴリズムを表すテンプレートクラスを分離し,これらの間をつなぐインタフェースを設定することで,汎用性を高めています.これにより,新たにデータ構造クラスを作成した場合に様々な学習アルゴリズムとの組み合わせを容易に試すことができ,逆に,新たな学習アルゴリズムを実装した場合には様々なデータ構造との組み合わせを試すことができます. 現在のところ,以下のデータ構造が実装されています. 多クラス分類 ― 文書分類,関係抽出など 可変候