タグ

ブックマーク / huixing.hatenadiary.org (38)

  • 自分の北辞郎のエントリーが5万語台に - huixingの日記

    北辞郎が19万語を突破し*1、自分のエントリーした単語も5万語を超えたので、気のついた事を書いてみようと思う。 成語とことわざについて まず気を付けなければならないのは、中国語の成語をそのまま日語のことわざから拾って無理に当てはめようとすること。これはぜひ避けなければならないことで、まず平易な説明があって、そのあとで日語のことわざに当たりそうなものを付け加えればいいのであって、中国語成語=日語ことわざありきではない。例えば、顺水推舟のエントリーではもともと日語訳は「流れに掉さす」のみだけが記されていた。しかしたいていの日人は、「流れに掉さす」を耳で聞いた場合、流れを止める、水を差すという意味に取ることが多い。googleで「流れに掉さす」を検索すると、ほとんどが誤用例である。たまに正しい例があると、大抵は正しい日語とかいうサイトのページだったりする。それで中国語成語=日語こと

    自分の北辞郎のエントリーが5万語台に - huixingの日記
    Ctrans
    Ctrans 2012/12/04
    パーサーいいですね。未登録語の認識が難しいところですが、最長一致で機械的に単語を示すことなら割と簡単にできると思います。実装方法を考えてみます。
  • ウィキペディアの裏で働くボットClueBot-NG - huixingの日記

    ウィキペディアはネット上で調べ物をするのになくてはならないものだけれども、誰でもが編集できることから悪意のある人間がわけもなく内容を改変できてしまう。しかしウィキペディアの背後ではClueBot-NGと呼ばれるボットが疲れを知ることもなく常に監視して破壊行為をたちどころに見つけてしまう。もしClueBot-NGがなければウィキペディアは混乱の極みと化していることだろう。ウィキペディアの英語版は現在400万を超える項目、25億字を数え、ブリタニカ百科事典の50倍を超える分量を持ち、万を数える編集する人間を抱えている。これらを人間の手で監視するのはほとんど不可能な話だ。しかしClueBot-NGにも多少のミスがある。ClueBot-NGの仕事にはデータセットの支持が欠かせない。データセットを完璧なものにすることでClueBot-NGの精確度も上がる。 ウィキペディアには悪意ある書き換え行為を根

    ウィキペディアの裏で働くボットClueBot-NG - huixingの日記
    Ctrans
    Ctrans 2012/08/24
    ウィキペディアの裏で働くボットClueBot-NG - huixingの日記
  • 中国の大辞典である大辞海が2015年までに完成 - huixingの日記

    中国の大辞典である大辞海が2015年までに38巻全巻を出版し完成する予定であることが明らかにされた。大辞海は中国の百科事典的な総合辞典である辞海をもとにして、2002年に刊行が開始されており、現在までに21巻が出版され全体の60パーセントが完成している。完成の暁には収録語数25万条、字数5千万字の大型辞典となる。また大辞海は中国政治・経済・文化や科学技術などの各分野を反映すると同時に世界各国の知識や情報も紹介している。2015年以降はピンイン順に整理した総まとめ編の刊行とeブック版とウェブ版の刊行に取り組む予定となっている。 《大辞海》《辞海》主编扩大会议7日在沪举行,全国人大常委会副委员长陈至立出席会议。据悉,我国跨世纪重大文化工程、国内首部特大型综合性词典《大辞海》计划于2015年底前出齐38个分卷,目前编纂工程已经完成60%。皇皇巨著《辞海》是我国最大的综合性词典,凝聚了中国几代专

    中国の大辞典である大辞海が2015年までに完成 - huixingの日記
    Ctrans
    Ctrans 2012/06/22
    中国の大辞典である大辞海が2015年までに完成 - huixingの日記
  • 中華語言知識庫がオープン - huixingの日記

    中国大陸と台湾中国語の差異を集めたデータベースである中華語言知識庫がオープンした。このデータベースは台湾の馬英九総統の提案によって中国大陸と台湾の共同作業で行われた。また同様の共同作業によって中国語の差異を収録した小辞典である「両岸毎日一詞」も発表されている。 http://zhonghuayuwen.org/ http://chinese-linguipedia.org/ http://d.hatena.ne.jp/huixing/20110523/dictionary

    中華語言知識庫がオープン - huixingの日記
    Ctrans
    Ctrans 2012/02/15
    中華語言知識庫がオープン - huixingの日記
  • 自分の北辞郎のエントリーが3万語台に - huixingの日記

    自分の北辞郎のエントリーも3万語台になったことであるし、これを契機に考えたことを書いてみる。 エントリー数について 北辞郎で編集したエントリーは現在約3万3千件、うち新規単語のエントリーが2万6千件。2005年からはじめてやっと3万語台になった。北辞郎も全体として現在登録語数は16万8千件、自分では最近では平均1日30エントリーを登録しているので1ヶ月では約600語、1年間では7200語になる。2012年の新年ごろには北辞郎は17万語の大台に乗ることも不可能ではないだろう。 ただ闇雲に数を増やしても意味が無いとも思っていて、単語登録数の多い紙の辞書を引き写せば数は簡単に増やせるだろうが、いわゆる大辞書もろくでもない単語を載せていることがあり、編者が地方出身者のせいか日語が変なエントリーもあるので引き写せばいいという訳でもない。気にせずマイペースでいけばいいと思っている。自分の方向としては

    自分の北辞郎のエントリーが3万語台に - huixingの日記
    Ctrans
    Ctrans 2011/10/29
    こちらこそいつもありがとうございます。北辞郎の機能は大半がhuixingさんのご提案に基づいており、huixingさんがいらっしゃらなければ、北辞郎は今のようなかたちにならなかったと思います(^-^)
  • 中国と台湾で共同で辞書作成へ - huixingの日記

    中国台湾の関係が密接になる中で、時に誤解を招く台湾海峡両岸の言葉の相違を解決するために、中国大陸の中国語と台湾中国語両方を含めた共同辞書Great Chinese Dictionaryが今年完成する。辞書は無料でオンライン検索でき、まず初めに2万8千語を含めた辞書を今年終わりまでに公開し、完全版を2015年に公開することを予定している。この辞書は台湾の馬英九大統領の発案によるものであり、元はChunghua Chinese-Language Thesaurusとも呼ばれていたもので、簡体字と繁体字両方を表示する。この辞書によってどちらの中国語表記が優勢となるかは未知数だが、少なくとも大陸の中国人が繁体字を認識できて書く時には簡体字で書くようになればいいと考えているようだ。 Relations have been improving since 2008 and in the past

    中国と台湾で共同で辞書作成へ - huixingの日記
    Ctrans
    Ctrans 2011/05/24
  • 古風溢れる中国語木刻字体フォント - huixingの日記

    中国フォントには宋体フォントはあるが、古い提灯や木刻版に使われているような古風溢れる漢字のフォントはありそうでなかった。そんな望みを叶えてくれるのが「古籍書刻体」とでも総称できる2つのフォント、浙江民間書刻体と康煕字典体だ。浙江民間書刻体はグラフィック・デザイナーである応永会がデザインしたもので、彼は他にも博州小楷書体をデザインしている。彼はこれまでの中国フォントに不満を持っていてフォント製作を独学で研究していたが、2003年に日フォント工房の欣喜堂の古籍書体フォントを見て、子供の頃に抱いていた古籍書体に対する熱が再びもたげてフォント製作に着手したという。製作にはグラフィック・デザイナーの職で生計を立てる傍ら、仕事以外の時間を利用して作られていった。そして断続的に3年をかけて4000字まで改良を重ねながら作り上げ現在は試用バージョンとして提供されている。一方の博州小楷書体は2年でや

    古風溢れる中国語木刻字体フォント - huixingの日記
    Ctrans
    Ctrans 2011/02/14
    古風溢れる中国語木刻字体フォント - huixingの日記
  • 中国のファイアーウォールを回避する西廂計画 - huixingの日記

    中国のファイアーウォールを回避する西廂計画は、クライアントを中国の古典小説西廂記の壁を越えて崔鶯鶯に会いに行った張生にたとえて「張生」と呼び、サーバーを「崔鶯鶯」と呼ぶ。西廂計画では張生が重要な働きをする。ファイアーウォールはTCPプロトコルの3度のハンドシェイクをチェックしない特性を利用してresetパケットを強制的に挿入してインターネットを規制するが、西廂計画はこの特性を巧妙に利用して、クライアントとサーバーからファイアーウォールが見たいと望むデータパケットを送って規制を回避する。これらはすべてTCPプロトコル内で行われることで、もしTCPプロトコルがチェックをするのであれば西廂計画もありえないし、ファイアーウォールも存在しないことになる。現在、西廂計画はアルファ版であり、理論を論証する論文段階にあるが、作者自身は開発を継続するつもりはないようだ。それでも別のネットの習熟した人間がかか

    中国のファイアーウォールを回避する西廂計画 - huixingの日記
    Ctrans
    Ctrans 2010/03/15
    中国のファイアーウォールを回避する西廂計画 - huixingの日記
  • 南詔国の発祥地である巍山 - huixingの日記

    雲南省の大理から1時間と少しで行ける南詔国の発祥地である巍山に行ってきた。巍山は古い町並みを残すラブリーな街で、ここから三輪タクシーを利用して道教の聖地である巍宝山を合わせて見ることができる(片道25元)。

    南詔国の発祥地である巍山 - huixingの日記
    Ctrans
    Ctrans 2009/12/05
    南詔国の発祥地である巍山 - huixingの日記
  • 古い家並の残る喜洲に行ってきた - huixingの日記

    大理から距離にして17キロの所にある喜洲に行ってきた。ここの喜洲粑粑は中国式ピザといえるもので(3元)、できたてはこんがり焼き上がったパリパリの皮を楽しめるため別名破酥の名前がついている。焼き方も特殊で下からの鉄板の強火と上に炭火を乗せた鉄板で焼き焦がすことなくパリパリに焼き上がることができる。ただし焼き上がりまで時間がかかるため辛抱が必要だ。喜洲では民居の邸宅に泊まり自転車を借りて周城まで行ってきた。ここは藍染が有名で、大理で売られている藍染の布のすべてがここで生産されており、一部ではまだ手織りの実演を見ることができる。また周城からほどないところにある蝴蝶泉碼頭にあるユースホステルは今は使われなくなった廃材を利用して内装をしており、例えば中庭に設置されている特別な風格のある部屋は、昔に洱海で使用されていた漁船をそのまま利用して部屋に改造しているなど、数あるユースホステルのなかでもユニーク

    古い家並の残る喜洲に行ってきた - huixingの日記
    Ctrans
    Ctrans 2009/11/26
    古い家並の残る喜洲に行ってきた - huixingの日記
  • 西昌に行ってきた - huixingの日記

    西昌の邛海と瀘山は1日でまとめて観光できる(22番バス)。邛海では青龍寺が周辺の景色も美しく落ち着ける。(106番バス)瀘山では光福寺と涼山彝族奴隸社會博物館が見どころだが、瀘山自体は大したことがない。山頂へのやたら長い石段を登り切っても素晴らしい景色が一望できるわけではない。西昌から沙壩行きのバスで行ける礼州では古い町並みが見れる。しかし規模はわずかなものだ。

    西昌に行ってきた - huixingの日記
    Ctrans
    Ctrans 2009/11/20
    西昌に行ってきた - huixingの日記
  • グルカがグルカランド建国を準備 - huixingの日記

    グルカがインドからの独立を標榜しダージリン丘陵にグルカランドを建国する。茶葉と観光で成り立つ地元経済も,実際には人々に恩恵をもたらしておらず,収入を州政府に取り上げられることに不満が高まっていた。1988年には西ベンガル州の政府がダージリンに住むグルカ人に一定の自治権を与えているが実効性はない。このまま改善がなければグルカ政党であるグルカ・ジャンムクティ・モルチャがインド連邦からの分離独立を宣言せざるをえないとしている。同時に,2010年1月1日までを期限に,ガンジー式の無抵抗運動で税金を支払いを拒否し自分たちで税金を集めることを始めインドに国として認めることを迫る。 They claim they have been forced to take the step by decades of misrule which has siphoned away millions of poun

    グルカがグルカランド建国を準備 - huixingの日記
    Ctrans
    Ctrans 2009/09/19
  • 中国ポータル百度がピンイン入力法開発 - huixingの日記

    中国のポータルサイトである百度が関連技術エンジニアを募集中であることから,ピンイン入力法を開発していることが明らかとなった。一方,阿里巴巴による阿里ピンイン入力法も開発がすすんでおり,年内にはリリースされる予定で,中国サイトにおける自前のピンイン入力法開発の動きが活発になってきている。中国語検索サイト第一位の百度からすれば技術面からいって他のピンイン入力法を追い越すようなアプリを開発することもそれほど難しいことではないだろう。また,騰訊がQQ音楽、QQピンイン入力法で,googleがピンイン入力法、デスクトップ検索といったアプリケーションでユーザーを引き止めることに成功しているのに対し,百度にはこれといったデスクトップアプリがない。こうした点からすればピンイン入力法の開発は自然の成り行きといえる。 昨天某科技爆出消息说百度准备推出自己的输入法和手机浏览器,作出这个判断的理由是百度正在招聘

    中国ポータル百度がピンイン入力法開発 - huixingの日記
    Ctrans
    Ctrans 2009/09/15
  • 伝統的な辞書の欠点を補うウェブ辞書wordnik - huixingの日記

    いままでの伝統的な辞書の欠点を補う,辞書学者Erin McKeanによるウェブ辞書であるwordnik。wordnikはユーザーにただ意味を登録してもらうばかりでなく,言葉の変化を記録して,センテンス中での使われ方や意味上関連する隣り合う言葉やイメージや使用頻度統計をひとつの場所にまとめて示してくれる。 A couple of years ago, lexicographer Erin McKean gave a TED talk about the evolution of language and the shortcomings of traditional dictionaries (an hour long, well worth your while). Since then she has been working on an entirely new sort of onl

    伝統的な辞書の欠点を補うウェブ辞書wordnik - huixingの日記
  • フィルタリング・ソフト緑壩の擬人化である緑壩娘 - huixingの日記

    中国のフィルタリング・ソフトであるグリーンダム緑壩の強制的なプリインストールに抗議して,緑壩を擬人化したものが緑壩娘。緑壩娘の特徴と言えば,たいてい首に鍵をかけ,腕には風紀取締りの腕ワッペンをつけ,手には醤油桶を持っている。また頭には紅い星の代わりにフィルタリングされたことを意味する「和諧」と同音の「河蟹」の徽章をつけた帽子をかぶっている。また草泥馬のときと同様に歌も「緑壩娘之歌」の名で作られている。 反感了、反彈了、反抗了,面對綠壩長堤的築起,中國網民繼草泥馬後又反高潮的為綠壩軟件創造了吉祥物綠壩娘,在百度綠壩娘吧裡各路繪畫高手便紛紛貼上綠壩娘的造型,總括來說風格很萌很動漫,大多「胸前掛鑰匙、臂掛風紀袖、手提醬油桶」,一身解放軍的綠,帽上的大紅星則換成了河蟹徽章。 http://www.littleoslo.com/cnt/home/?p=1898 http://www.hecaitou

    フィルタリング・ソフト緑壩の擬人化である緑壩娘 - huixingの日記
  • googleの翻訳補助システムtranslator toolkit - huixingの日記

    googleが翻訳補助システムであるtranslator toolkitをリリースした。英語ソースから50カ国語以上の外国語への翻訳に使える翻訳プラットフォームとしての機能をもち、ローカルファイルの翻訳、ウェブページの翻訳、wikipediaの項目の翻訳、Knolの項目の翻訳が出来る。一般のグローバルな翻訳メモリを利用できるほか、自分で作っていたTMXフォーマットの翻訳メモリファイルをアップロードすることで他の翻訳メモリより優先して使うことが出来るようになる。またグローサリーについても、translator toolkit用のグローサリー・ファーマットに適合した、UTF-8でエンコードのCSVファイルをアップロードすることで選択できるようになる。ただ英語から一方向の翻訳しかできないのが残念だ。中国語から日語へなどといった多言語間での翻訳に使えるようになれば有用なツールになるにちがいない。

    googleの翻訳補助システムtranslator toolkit - huixingの日記
    Ctrans
    Ctrans 2009/06/09
    今後が気になる。忘れずにチェックしていこう。
  • 広東の知られざるピンイン文字「道字」 - huixingの日記

    広東には普通語にも広東語にも適用できる、漢字の発音の頭と終わりを取った一種の切音字である「道字」がある。清末に新会出身の香港米商人である陳澄波が中国教育の遅れと漢字の繁雑さを解決するために文字を創造し、人が道を歩くように簡単に理解できることから「道漢字体」と名付けた。アヘン戦争後、中国は半植民地と化し愛国的知識人による漢字の改良運動である切音字運動が巻き起こり相当な数にのぼる切音字案が提案された。しかし広東珠江デルタ地帯で唯一残ったのは陳澄波の創った道漢字体だった。 民国時期に至ると陳瑞祺が父の「道漢字体」文字を基礎にして1933年に一種のピンイン文字である「道字」の発明に成功し貧乏な人々に無料で教えた。道字は普通語に当たる国音と広東語の粵音に分かつことができ、漢字発音の頭音と尾音を組み合わせて形作られた。陳瑞祺は「道漢字」などの字典を出版したほか、道字に5個の声調を追加して広州音にも応用

    広東の知られざるピンイン文字「道字」 - huixingの日記
    Ctrans
    Ctrans 2009/05/25
  • 中国ブランドの再生 - huixingの日記

    香港の老舗である鶏仔唛が老人だけが着るような野暮ったい服装という印象から抜け出して若者に受けたり、上海ブランドの腕時計が復活したりとこのところ伝統的な中国ブランドの再生が相次いでいる。そしてスニーカーでは飛躍ブランドと回力ブランドがホットアイテムとして若者の支持を受けている。長い間飛躍と回力は40年間ずっと変わらないデザインで20元から60元でガラスウィンドウの中にうず高く積まれて売らて農民工などが履くようなものだった。しかし今では老舗百貨店やショップでの人気アイテムとなり、飛躍シューズのオフィシャル・ストアである上海の遵義路585号のリテールアウトレットはスタイリッシュな若者のメッカとなっている。こうした現象の要因は二人の外国人に帰せられる。ひとりはフランス人のPatrice Bastianでもう一人はロード・オブ・リングの俳優Orlando Bloomだ。上海に長く住むPatrice

    中国ブランドの再生 - huixingの日記
  • 中国が簡体字の新規範漢字表をまもなく発表 - huixingの日記

    現在、中国では漢字の繁体字と簡体字をめぐっての論議がにぎやかだが、中国中国社会科学院が簡体字の規範漢字表をまもなく発表する予定だ。簡体字で問題となっている主に3つの事項について調整が入るもの。一つ目はまず同音代替の問題で、干犯、干净、干部、主干などの干はすべて同じ「干」であり簡素化しすぎているのでこれを調整する。2つ目は、符号代替の問題で、邓(鄧)の又部分と灯(燈)の丁部分と澄(澄)の登部分は繁体字では同じ登なのに簡体字でちがう部分に変わってしまっていることを調整する。3つ目は草書体の楷書化で、簡体字に応用されている草書体部分は楷書体とバランスがあわないのでこれを解消する。全体的に言えば今回の規範漢字表の発表では問題改正は除々に行われるもので、大規模な改正はないとのこと。この動きが当に実現すればいい方向に動いているといえる。まあ、個人的には广や贮のようなどう見てもバランスの悪い簡体字が

    中国が簡体字の新規範漢字表をまもなく発表 - huixingの日記
  • マイクロソフトがgoogleに続いて機械翻訳APIをリリース - huixingの日記

    マイクロソフトがgoogleのAJAX Language APIに続いて機械翻訳APIとウィジェットをリリースした。簡単なコードをウェブページに貼り込むだけでプログラムの細かい点まで知らずとも、どうやってjavascriptAPIを呼び出すか知らなくとも、ウェブ上にウィジェットを表示させてページ丸ごとか一部分を自動翻訳できる。また機械翻訳APIはウィジェット以外にもAJAXやHTTPやSOAPなどのプロトコルを通じてもアクセスできる。 If you've ever wanted to programmatically translate text from one language to another directly from code, there's a new web service from Microsoft Research you might want to try. I

    マイクロソフトがgoogleに続いて機械翻訳APIをリリース - huixingの日記
    Ctrans
    Ctrans 2009/03/23