タグ

ブックマーク / mikio.hatenablog.com (3)

  • WictionaryとWordNetから英和辞書を作ろう - 豪鬼メモ

    英和辞書・和英辞書として使える辞書検索システムを作る連載の4回目である。今回はWictionaryから辞書データを抽出して、WordNetとも併合して、物の英和辞書として使えるシステムを構築した。今回もデモサイトを作ったので、お試しいただきたい。凝った機能はまだ入れていないが、普通に使えるレベルになっていると思う。 英語の文字列を入力して検索すると、英和辞書としてその語を検索する。単語だけではなく複数語からなる熟語も数多く収録されている。日語を入力すると和英辞書として逆引きしてそれに対応する英語を検索する。 英語も日語も現状では完全一致のみで検索を行う。 デフォルトでは文字種を見て正引き(英和モード)か逆引き(和英モード)かが自動的に選択される。正引きと逆引きを明示的に切り替えたい場合は、「Auto Mode」を「En-to-Ja」か「Ja-to-En」に変えればよい。表示方法もデフ

    WictionaryとWordNetから英和辞書を作ろう - 豪鬼メモ
  • WordNetを使った辞書検索システムのプロトタイプ - 豪鬼メモ

    DBMで単語辞書を作る連載の3回目だ。今回はデモを実装した。仕様を単純化したプロトタイプであり、基的な機能の説明をするのに丁度よいはずだ。それにもかかわらず、普通に実用できるものに仕上がっている。 まずはこちらのデモサイトを使ってみていただきたい。検索窓に英語の単語またはフレーズを入れれば、その言葉が検索できる。該当した言葉があれば、その言葉の日語訳と、英文による語義説明が表示される。同義語やその他の関連語も表示される。日語の言葉を入力して検索することもできる。 主たるデータソースとしてはWordNetを使っている。WordNetは名前が示す通りに言葉のネットワーク構造を表現することに主眼が置かれており、synsetと呼ばれる同義語(synonym)の集まり毎に語義の説明がつけられている。なので、語義の説明を読むよりは、同義語に目を通した方が理解しやすかったりする。例えば、英文を読ん

    WordNetを使った辞書検索システムのプロトタイプ - 豪鬼メモ
  • DBMで単語辞書を作ろう - 豪鬼メモ

    データベースマネージャTkrzwを無事にリリースしたはよいが、ドッグフードは自分でわないといけない。DBMを作るとまず最初にやりたくなるのが、それを使った単語辞書を作ることである。仕事柄、英和辞書と和英辞書はよく使うのだが、自分で作ったものを毎日便利に使っている。時間効率と空間効率に優れたDBMは辞書データを扱うのにうってつけだ。ということで、PythonでとDBMライブラリを使って単語辞書を実装していこう。 同じ仕組みで英和辞書でも和英辞書でも独和辞書でも中仏辞書でも何でも作れるが、当然ながら辞書データが必要である。私は普段、英辞郎のデータを購入して使っているが、ライセンス上、デモサイトの公開などには使えない。代わりに、この連載ではプリンストン大が公開しているWorldNetというデータベースを利用して英英辞書を作る方法を紹介する。ただし、入力データを先にTSV形式の中間データに落とし

    DBMで単語辞書を作ろう - 豪鬼メモ
  • 1