Wikipedia はそのダンプデータを公開しているので、自然言語処理の研究で利用するひとが結構いたりする。 なので、ためしに英語版 Wikipedia のダンプデータのXMLをパースしながら、適当に書式情報を削除して1項目1ファイルにして HyperEstraier の文書ドラフト形式で出力してみた。 日本語版で、抽出に 13 分、インデキシングに 75 分。英語版で、抽出に 60 分、インデキシングに 3 時間というところ。(CPU: Intel Xeon 2.66GHz) #!/usr/bin/env python # -*- coding: utf-8 -*- import sys import os import codecs import re from itertools import izip, count from xml.etree import ElementTree
検索の前にインデックスの作成が必要なので、以下のコマンドで、任意のディレクトリ内にインデックスを作成させる。 昔のnamazuとかを知っている人なら、あっけに取られるぐらい一瞬で終わる。 ...と言うか、エラーで全部スキップしてるんじゃないかとか不安なぐらい。そんなことはないですが。 estcmd gather -il ja -sd インデックスディレクトリ 検索対象ディレクトリ 空白を含むパスなどはダブルクォーテーションで括れば良いようだ。例えば、「C:\DOCUMENTS AND SETTINGS\ALL USERS\DOCUMENTS\WEBDATA\」を検索対象として、「index」というディレクトリにインデックスを作らせるには以下のようにする。 estcmd gather -il ja -sd index "C:\DOCUMENTS AND SETTINGS\ALL USERS\
概要 Hyper Estraierは全文検索システムです。たくさんの文書の中から、特定の語句を含むものを探して、該当するものの一覧を表示することができます。Webサイトを運営している方なら、自分のサイト専用の検索エンジンとして利用することができます。メールボックスやファイルサーバを対象とした検索ツールとして利用することもできます。 Hyper Estraierには、次のような特徴があります。 インデックスを使った高速な検索ができます。 大量の文書のインデックスを短時間で作成できます。 N-gram方式による漏れのない検索ができます。 形態素解析とN-gramのハイブリッド機構で検索精度を向上させます。 フレーズ検索や正規表現検索や属性検索や類似検索をサポートします。 世界各国の言語が扱えます。 対象文書の所在や形式に依存しません。 賢いWebクローラが付属しています。 ライブラリとして各種
iDicを使ってiPod touchでWikipediaを見られるようにしようと、環境をそろえてWikipediaのダンプデータをEPWING形式に変換したのだが、初期型 PPC Mac miniで実行してしまったため変換にものすごい時間がかかった。 とりあえず以下が手順だが、遅いCPUでは変換作業をしないことをお勧めする。 必要なファイルをダウンロード # cd /usr/local/src # curl -o ftp://ftp.sra.co.jp/pub/misc/freepwing/freepwing-1.4.4.tar.gz # curl -o http://ikazuhiro.s206.xrea.com/filemgmt/visit.php/73 # curl -o http://ikazuhiro.s206.xrea.com/filemgmt/visit.php/55
Another Ebay permanent XSSWritten by KFTuesday, 13 November 2012 The Indian security researcher Shubham Upadhyay aka Cyb3R_Shubh4M, sent us a new permanent XSS affecting the products listings on Ebay.com read more... F-Secure, McAfee and Symantec websites again XSSedWritten by DPFriday, 13 January 2012 Once again, the websites of the three famous antivirus vendors are vulnerable to cross-site scri
概念空間の再構造化による創造性支援 相原 健郎 文部省 学術情報センター 研究開発部 〒112 東京都文京区大塚3-29-1 Tel: 03-3942-8594 Fax: 03-5395-7064 E-Mail: aihara@rd.nacsis.ac.jp 概要 本論文では,思考の制約を変更することで概念空間の再構造化による創造的な 思考を支援する方策について述べる.具体的なシステムとして,研究者の日常 の研究活動において書き貯められる研究メモを蓄積し利用する支援システムを 構築し,そのシステムを用いて実験を行った. まず創造的思考のモデルを提案する.そして,人間の創造的な思考には,思考 の制約となっているものを変更することが有効である,ということに基づき, そのような思考の制約をユーザが変更することを支援するシステムを考察する. 本研究では,思考の制約のうち,記憶の想起の障害となってい
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く