タグ

2014年4月9日のブックマーク (9件)

  • Peek-a-boo (Rose Murphy)

  • Lucene's FuzzyQuery is 100 times faster in 4.0

    There are many exciting improvements in Lucene's eventual 4.0 (trunk) release, but the awesome speedup to FuzzyQuery really stands out, not only from its incredible gains but also because of the amazing behind-the-scenes story of how it all came to be. FuzzyQuery matches terms "close" to a specified base term: you specify an allowed maximum edit distance, and any terms within that edit distance fr

  • 開発メモ: Kindle用のフリーの英和辞書を作った

    WordNetのデータを使って、Kindleで利用できるフリーの英和辞書を作ってみた。ここで言うフリーとは、無料かつ誰かに特別な許可をとることなく再配布したり改変したりできるということである。 ダウンロード 以下にデータを置いておく。これをUSB経由かネット経由でKindleに転送すれば辞書として利用できるようになる。 wordnet-ja.prc 背景 ここのところ、EngHelperプロジェクトで英辞郎を使ったKindle用辞書を作っていたのだが、ライセンスの制約上、生成したデータの再配布はできない。手前味噌ながら、EngHelperの辞書の使い勝手はかなり良いのだが、より手軽にKindle上で英和辞書を試したいという人達のために再配布可能な辞書を作ろうと思い立った。で、WordNet語版を使うとそこそこうまくできそうな気がしたので、実際やってみた。 WordNetはプリンストン大

  • 開発メモ: 編集距離による曖昧検索

    英和辞書の曖昧検索を実装したという話。それにあたってDB層で編集距離による絞り込みを実装している。 image:1:1331519319-spelling.png 曖昧検索 二つの文字列があったとして、一方をもう一方と一致させるために何回の編集操作が必要かという尺度を編集距離といい、それは二つの文字列の類似性を測るのに利用することができる。最も典型的なのはレーベンシュタイン距離である。 スペルミスをしてしまった場合に最も似た候補を出力してくれると英和辞書の機能としては嬉しい。というか俺はスペルミスをしまくるので俺にとっては必須の機能である。入力されたクエリから数文字分ずれていても検索できる曖昧検索機能が欲しいということだ。EngHelperの辞書機能にもそれを搭載しておきたい。 LとRの区別がつかない日人としては、「english」を探そうとして「engrish」とか入力しがちである。そ

  • 用語の意味: 翻訳、ローカリ、インターナショナリ、グローバリ - LYEのブログ

    Andreas Szurawitzki 氏 (ヘルシンキ大学の大学生) が書いたゲームのローカリゼーションに関する修士論文を今日から読みはじめました。 Japanese Video Game Localization A Case Study of Sony’s Sairen Series (PDF) まだ前提部分読んでるところなんですけど、読んでいたら「翻訳、ローカリゼーション、インターナショナリゼーション、グローバリゼーションの定義」を自分なりに消化できたような気がします。ずっとしっかり説明したかったことだし、せっかくイメージができたので、ちょっと書いてみます。 翻訳 (Translation): 等価性 (Equivalencce) を基礎において行われる行為のこと インターナショナライゼーション (Internationalization): 最重要課題の一つが "翻訳の等価性を効

    用語の意味: 翻訳、ローカリ、インターナショナリ、グローバリ - LYEのブログ
  • EXCELとゲーム翻訳者の仲介役! felixノススメ - LYEのブログ

    あんなに期待していたLocalizeDirectはどうも翻訳メモリやら用語集の統合ができないようです。それじゃフィルタ機能以外に翻訳者に利点がないよ… という感じで、業界のデファクトスタンダードはEXCELなんだなと再認識したので、自衛措置として「EXCELの天下はしばらく続く」という前提のもとに自分の作業環境をさっさと整えようということになりました。 探すにあたってのテーマは「用語集や既存訳を脳みその中に展開して」作業しなくていいようにしてくれるツール。当はQAチェックができたり、バージョン管理ができるようなソフトがあればいいんだろうけれど、そのあたりは今回は諦める。ひたすらに、「EXCEL上で最低限のCATテクノロジーが使えるツール」を探しました。 そうして見つかったのがFelixというツール。こいつは基Wordで使うものみたいですが、Excelにも対応しており(この他PowerP

    EXCELとゲーム翻訳者の仲介役! felixノススメ - LYEのブログ
  • イチから分かるソフトウェア向け CAT (翻訳支援) ツールの概要 - LYEのブログ

    今日はちょっと真面目に書きます。 「機械翻訳と翻訳支援ツールは何が違うか?」から始まり、「CAT ツールの構成と概要説明」、「ドキュメント用とソフトウェア用の違い」、「ソフトウェアを翻訳するときの長所と短所」、それから LYE の個人的な意見と続きます。LYE の意見では、「こいつを導入すれば御社大勝利! ではない」けれど「導入の必要性は時代がグイグイ高めてきているのでは?」ということなんかを書いています。 記述に間違いがありましたらメールまたは Twitter でご指摘いただけるとありがたいです。 それでは。 CAT ツールと機械翻訳ソフトの違い 機械翻訳ソフトとは、「原文を文法的に解析して機械的に訳出するソフトウェア」。翻訳に際して人間が一切干渉しなくてもよい。 要するに、エキサイト翻訳。 CAT ツールとは、主に翻訳メモリテクノロジを中心に据えた「翻訳者向け作業環境」のこと。主な機能

    イチから分かるソフトウェア向け CAT (翻訳支援) ツールの概要 - LYEのブログ
  • Cat tool overview for CEDEC2011 Draft

  • OmegaT プレゼンテーション 2012

    2012/6/29 に行われたダブリン計算言語学研究セミナーにおける Didier Briel 氏の発表資料日語訳です。オリジナル (PDF) は http://www.didierbriel.com/news/dclrs.html より入手可能です。日語版作成に当たり、PDF の埋め込みフォントには Migu 1P (http://mix-mplus-ipa.sourceforge.jp/) を使用させていただきました。ありがとうございました。

    OmegaT プレゼンテーション 2012