タグ

ブックマーク / huixing.hatenadiary.org (10)

  • 自分の北辞郎のエントリーが5万語台に - huixingの日記

    北辞郎が19万語を突破し*1、自分のエントリーした単語も5万語を超えたので、気のついた事を書いてみようと思う。 成語とことわざについて まず気を付けなければならないのは、中国語の成語をそのまま日語のことわざから拾って無理に当てはめようとすること。これはぜひ避けなければならないことで、まず平易な説明があって、そのあとで日語のことわざに当たりそうなものを付け加えればいいのであって、中国語成語=日語ことわざありきではない。例えば、顺水推舟のエントリーではもともと日語訳は「流れに掉さす」のみだけが記されていた。しかしたいていの日人は、「流れに掉さす」を耳で聞いた場合、流れを止める、水を差すという意味に取ることが多い。googleで「流れに掉さす」を検索すると、ほとんどが誤用例である。たまに正しい例があると、大抵は正しい日語とかいうサイトのページだったりする。それで中国語成語=日語こと

    自分の北辞郎のエントリーが5万語台に - huixingの日記
    makoto15
    makoto15 2012/12/03
  • グーグルの中国語ピンイン入力法に広東語の単語を導入 - huixingの日記

    グーグル中国語ピンイン入力法が更新されたことでもあるし、北辞郎から抽出した広東語の単語語句を一気に中国語ピンイン入力法のユーザー辞書に導入するためのファイルを作った。しかし導入にあたっては正しいピンイン綴りに従わなければならないために、hold住やK仔やO嘴などの広東語特有の英語が混ざった単語やheaやOutなど純粋な英語綴りのものは導入できない。hold住やK仔やO嘴などはよく使うのだから、グーグルには例えばv+hold+v+zhuというように、vをトグルとして使って、いちいち英語中国語を入れ替えなくとも、一気にhold住を入力できるようにしてほしいものだ。このファイルを導入し終えるとある単語は導入に失敗したとアラートが出るけれども、例えば一句唔该使死人がyjwgshsrと打つだけで出てくるし、一啖砂糖一啖屎がydshtydshと打つだけで出てくるようになる。広東語を粤拼でなしに普通

    グーグルの中国語ピンイン入力法に広東語の単語を導入 - huixingの日記
  • 自分の北辞郎のエントリーが3万語台に - huixingの日記

    自分の北辞郎のエントリーも3万語台になったことであるし、これを契機に考えたことを書いてみる。 エントリー数について 北辞郎で編集したエントリーは現在約3万3千件、うち新規単語のエントリーが2万6千件。2005年からはじめてやっと3万語台になった。北辞郎も全体として現在登録語数は16万8千件、自分では最近では平均1日30エントリーを登録しているので1ヶ月では約600語、1年間では7200語になる。2012年の新年ごろには北辞郎は17万語の大台に乗ることも不可能ではないだろう。 ただ闇雲に数を増やしても意味が無いとも思っていて、単語登録数の多い紙の辞書を引き写せば数は簡単に増やせるだろうが、いわゆる大辞書もろくでもない単語を載せていることがあり、編者が地方出身者のせいか日語が変なエントリーもあるので引き写せばいいという訳でもない。気にせずマイペースでいけばいいと思っている。自分の方向としては

    自分の北辞郎のエントリーが3万語台に - huixingの日記
    makoto15
    makoto15 2011/10/31
  • 中国と台湾で共同で辞書作成へ - huixingの日記

    中国台湾の関係が密接になる中で、時に誤解を招く台湾海峡両岸の言葉の相違を解決するために、中国大陸の中国語と台湾中国語両方を含めた共同辞書Great Chinese Dictionaryが今年完成する。辞書は無料でオンライン検索でき、まず初めに2万8千語を含めた辞書を今年終わりまでに公開し、完全版を2015年に公開することを予定している。この辞書は台湾の馬英九大統領の発案によるものであり、元はChunghua Chinese-Language Thesaurusとも呼ばれていたもので、簡体字と繁体字両方を表示する。この辞書によってどちらの中国語表記が優勢となるかは未知数だが、少なくとも大陸の中国人が繁体字を認識できて書く時には簡体字で書くようになればいいと考えているようだ。 Relations have been improving since 2008 and in the past

    中国と台湾で共同で辞書作成へ - huixingの日記
    makoto15
    makoto15 2011/05/25
  • 伝統的な辞書の欠点を補うウェブ辞書wordnik - huixingの日記

    いままでの伝統的な辞書の欠点を補う,辞書学者Erin McKeanによるウェブ辞書であるwordnik。wordnikはユーザーにただ意味を登録してもらうばかりでなく,言葉の変化を記録して,センテンス中での使われ方や意味上関連する隣り合う言葉やイメージや使用頻度統計をひとつの場所にまとめて示してくれる。 A couple of years ago, lexicographer Erin McKean gave a TED talk about the evolution of language and the shortcomings of traditional dictionaries (an hour long, well worth your while). Since then she has been working on an entirely new sort of onl

    伝統的な辞書の欠点を補うウェブ辞書wordnik - huixingの日記
  • googleの翻訳補助システムtranslator toolkit - huixingの日記

    googleが翻訳補助システムであるtranslator toolkitをリリースした。英語ソースから50カ国語以上の外国語への翻訳に使える翻訳プラットフォームとしての機能をもち、ローカルファイルの翻訳、ウェブページの翻訳、wikipediaの項目の翻訳、Knolの項目の翻訳が出来る。一般のグローバルな翻訳メモリを利用できるほか、自分で作っていたTMXフォーマットの翻訳メモリファイルをアップロードすることで他の翻訳メモリより優先して使うことが出来るようになる。またグローサリーについても、translator toolkit用のグローサリー・ファーマットに適合した、UTF-8でエンコードのCSVファイルをアップロードすることで選択できるようになる。ただ英語から一方向の翻訳しかできないのが残念だ。中国語から日語へなどといった多言語間での翻訳に使えるようになれば有用なツールになるにちがいない。

    googleの翻訳補助システムtranslator toolkit - huixingの日記
  • マイクロソフトがgoogleに続いて機械翻訳APIをリリース - huixingの日記

    マイクロソフトがgoogleのAJAX Language APIに続いて機械翻訳APIとウィジェットをリリースした。簡単なコードをウェブページに貼り込むだけでプログラムの細かい点まで知らずとも、どうやってjavascriptAPIを呼び出すか知らなくとも、ウェブ上にウィジェットを表示させてページ丸ごとか一部分を自動翻訳できる。また機械翻訳APIはウィジェット以外にもAJAXやHTTPやSOAPなどのプロトコルを通じてもアクセスできる。 If you've ever wanted to programmatically translate text from one language to another directly from code, there's a new web service from Microsoft Research you might want to try. I

    マイクロソフトがgoogleに続いて機械翻訳APIをリリース - huixingの日記
    makoto15
    makoto15 2009/04/17
  • 失敗に終わった中国語完全ピンイン化 - huixingの日記

    このごろ中国では全国政協委員で天津市僑聯副主席の潘慶林が簡体字を10年の時間を使って廃止し繁体字に戻そうとの意見を提出して以来、漢字の簡体字と繁体字を巡る議論がかまびすしい。しかし簡体字は最終目標である中国語のピンイン文字化への過渡的な措置でしかなかった。実際に1960年代に山西省の万栄県を試験地点に選び、県内のすべての漢字を完全にピンイン化する実験が行われていた。県内では各種の学習クラスや研修クラスを設けてピンインの普及にあたる一方、ピンインだけを使ったピンイン新聞を発行した。しかしこの実験は失敗に終わり、数年後には万栄県の試験地点としての役目も終わった。そして全国でのピンイン文字の普及活動も当然ながら展開されることはなかった。 中山大学曾宪通教授告诉记者,为实现汉字最终的拼音化,60年左右还在山西万荣县进行过拼音文字的试点,即用拼音完全替代汉字。在全县范围内,组织了各种学习班和培训班,

    失敗に終わった中国語完全ピンイン化 - huixingの日記
  • EBWinが独自のユーザ辞書作成可能に - huixingの日記

    電子辞書を串刺し検索できるフリーの辞書ツールEBWinがバージョン3.0より独自のユーザ辞書を利用できるようになった。付属のrubyライブラリでPDICや英辞郎からのインポートを簡単に行うことが出来る。またunicodeを使用できるため韓国語や中国語でもOKということになる。ユーザによる中国語辞典である北辞郎からPDIC辞書形式でデータをダウンロードし,PDIC/Unicode版に取り込み,更にそこからEBWinに取り込むことで,中国語電子辞書と自分の作成した中国語辞書データを串刺し検索できるようになるはず。またEBWinの辞書ファイルは単一ファイルのためバックアップや配布が簡単で,公開・配布は商用・非商用を問わず自由にできる。辞書形式の変換は上記の方法で出来るけれども,北辞郎の編集データのダウンロードでEBWin形式のオプションができると便利かもしれない。 *ユーザ辞書の特徴 * 信頼性

    EBWinが独自のユーザ辞書作成可能に - huixingの日記
    makoto15
    makoto15 2008/12/22
  • CJKV日中韓越情報処理セミナー - huixingの日記

    CJKV日中韓越情報処理というセミナーがあったらしく,その内容はと言えば目新しいものが何もなさそうだが,一つだけ気になった点が,docomoの顔文字が標準化の阻害になっているということ。utf-8の普及が進まないのも携帯がそれに対応しないからというような話もある。標準化には携帯がネックになりそうだ。 DoCoMoの絵文字の弊害が,思ったよりも大きいのを感じた.実は,これに関して私を含めて何人も正式にアクションを起こしたことがあるがダメだった…何故か?(←これは,よい子への宿題.ただし,調べた結果は決して公開してはいけない点に注意) 携帯メーカキャリア各社にもお願いしたいことがあります。早く多言語対応して下さい。容量の問題もあるでしょうから、購入後にフォントやIMEをダウンロードして、自分でセッティングするかたちでもいいのでお願いします。ワタクシ、Blogサービスやツールの多言語対応があまり

    CJKV日中韓越情報処理セミナー - huixingの日記
  • 1