タグ

ブックマーク / ny23.hatenadiary.org (3)

  • Python で構文木を端末に描画してみる - ny23の日記

    巷にある構文解析器には,解析結果を木構造で端末に表示する機能がある.あった方が良いだろうなと思いつつ,自分で実装するのはいかにも面倒そうだと感じて,今まで後回しにしていた.いい加減そろそろ無いと困ると感じるようになってきたので,先日の通勤電車の中で暇つぶしに書いたら,思いの外あっけなく実装できたので,メモ代わりに残しておく.最初 Ruby でワンライナーで書けないかなと思ったが,流石に難しかったので,練習も兼ねて Python で実装してみた. #!/usr/bin/env python # -*- coding: utf-8 -*- # Usage: lattice_to_tree.py < in.KNP # translate parser output into human-readable dependency tree structure import sys # customi

    Python で構文木を端末に描画してみる - ny23の日記
  • IPA 品詞体系の構文解析器の学習 - ny23の日記

    (半)指導している学生が IPA 品詞体系に基づく構文解析器が遅過ぎて実験が進まないというので,手元の構文解析器(Juman 品詞体系を想定)を IPA 品詞体系に対応させてみた.構文解析器のコードは素性抽出周りを10行くらいいじるだけで簡単に対応させることができた(公開済). 次に,構文解析器の訓練に使う注釈付きデータが必要になるが,これには Juman 品詞体系に基づく注釈付きデータに IPA 品詞体系の品詞タグを付与して使うことにした.品詞タグを変換するには, 元の Juman 品詞体系の品詞タグを IPA 品詞体系に変換する IPA 品詞体系の形態素解析器を用いて自動付与する という二つの方法が考えられる.今回は運用時の状況を考慮して,構文解析器とパイプライン的に組み合わせる予定の形態素解析器/辞書を利用して品詞タグを再付与することにした.以下がそのスクリプト. #!/usr/bi

    IPA 品詞体系の構文解析器の学習 - ny23の日記
  • トライ(ダブル配列,簡潔データ構造)と STL コンテナの比較(最新版) - ny23の日記

    [2011/11/30 更新; std::(unordered_)map でメモリ使用量を見積もる - ny23の日記に従い,STL コンテナのメモリ使用量を計測] [2011/02/21 更新: marisa-trie 0.1.3; 発表資料(Prefix/Patricia Trie の入れ子による辞書圧縮) - やた@はてな日記 にてこの記事の実験結果を引用されているので,以後原則更新しないこととする.なお,marisa-trie は 検索時間が短くなりました - やた@はてな日記 にあるように,marisa-0.2.0-beta3 以降ではさらに検索が速くなっています.] [2011/02/18 更新: marisa-trie の仕様変更に伴い,追記の記述を整合性が取れるよう変更; 最新版では未確認] id:s-yata さんが marisa-trie を公開されたので,例によってベ

    トライ(ダブル配列,簡潔データ構造)と STL コンテナの比較(最新版) - ny23の日記
  • 1