タグ

日本語に関するYINGUOのブックマーク (5)

  • 自然言語処理を使って日本語の歴史を研究する - 武蔵野日記

    午後打ち合わせで立川の国立国語研究所に。「統計と機械学習による日語史研究」研究発表会に参加するためである。この研究プロジェクトは去年の年末からスタートの3年間のプロジェクトで、自分は機械学習や統計的自然言語処理方面からの研究分担者として参加している。 研究発表会は公開研究会で、プロジェクトのメンバーでない人もいらしたので、まずプロジェクトの概要を @togiso さんが説明してくださって、あと teruaki-o くんが最近取り組んでくれている明治時代の文書に対して濁点を自動付与する研究の報告をしてくれる。実際は最後人手でチェックするのだが、人手チェックしてくださった方も今回発表会に参加してくださり、いろいろフィードバックをいただけてありがたい。なにもないところから濁点を付与するより、こういうツールで前処理的につけてあると助かる、ということが直接聞けるのも、自然言語処理が日語史研究の役

    自然言語処理を使って日本語の歴史を研究する - 武蔵野日記
    YINGUO
    YINGUO 2011/03/13
    "網羅性であり、どれだけがんばってもどうしても漏れてしまう事例があったりする"
  • てにをは辞典 - 情報考学 Passion For The Future

    ・てにをは辞典 コラムやエッセイ、創作など、自己表現する文章を書く人を支援する。「逆引き頭引き日語辞典」の小内一氏編纂。 「空が晴れる」なら「空」と「晴れる」。 「を」「が」「に」「の」を介して結びつく言葉の辞書。 近現代の大衆小説・時代小説・純文学・評論など250名の作家の作品から、編者が20年かけて採集した語例が60万語。主に文庫になったから選んでいる。 「言葉は単独でもつかわれますが、多くの場合、二つ以上の言葉が結びついて使われます。この結びついた形を、書では、「結合語」と呼ぶことにします。国語辞書は言葉の意味と文法的な解説を主とするので、紙面の制約上、わずかしか結合語の例を載せられません。 書には、言葉の意味と文法的な解説はありませんが、のべ六十万語の結合例を載せています。書は、国語辞書を補完する一冊として使っていただくと、より力を発揮すると思います。」 実際、ちょっと

  • Google IME の次は Google 日本語スペル訂正が来そう - 武蔵野日記

    Google IME がリリースされたそうで、Twitter でも #googleime というハッシュタグで祭りになっているようである。リリース文を見ると @taku910 さんと @komatsuh さんが主に関わっているようである。 以前Google サジェストのローマ字検索機能 = Google IME でも書いたことがあるのだが、これが出る予兆はいろいろあって、 2007年秋に Google語 N グラムが出る(もっと言えば2007年3月に言語処理学会で「N グラムデータを出すならどういう形がいいか、どういう用途で使うか」という特別セッションがあった)ときから想像できたことであり、taku さんや komatsuh さんくらいのエンジニアであればエンジンを作るのには数日もかからないであろう。 Social IME 開発者の nokuno さんもGoogle IMEという可能

    Google IME の次は Google 日本語スペル訂正が来そう - 武蔵野日記
  • 自己中心的世界・絶!! : 敬語はコミュニケーション円滑化ツール足り得るか

    2009年06月30日22:32 カテゴリ 敬語はコミュニケーション円滑化ツール足り得るか Twitterで面白き押し問答した故、せっかくなのでまとめてみる。 別に押してたわけじゃないけど。 発端は自分の発言。 「ここんところ、敬語の存在があんまり好きじゃなくなってきた。だって自動的に距離ができちゃうじゃん。腹割れないじゃん。他の形で表現できれば、敬意を払いつつ腹割って話せるんじゃね?日語じゃもう無理か。」 敬語を使うと、比較的安全に相手との心理的な距離を縮めることができる。 けど、それ以上先になかなか進めない。 距離が固定化されちゃう感じなんだよな。 だから完全に自分をさらけ出すことができない。 言葉の使い方で敬意を表してるわけだから、意識がどうしても注がれちゃうんだよな。 だからもっと意識されないレベル、例えばボディランゲージとか、そういうので敬意を表現する習慣になれば距離も縮めやす

  • 和文組版,その来し方行く末

    和文組版,その来し方行く末 ~いまだからこそ「こだわり」とその背景を知ろう~ プロとして組版に関わっていく第一歩は、「ルール」や「方法論」を丸暗記することではなく、その背景を知ることである。このルールや方法論は試行錯誤の結果であり,機器の制約や経済情勢の妥協点の産物でもあります。その理由を知ることが将来の日語文字組版の発展につながるのだろう。 編集者で日エディタースクールの講師も務める大西哲彦氏に話を聞いた。 Q: 現在、印刷博物館(東京)の企画展として「ヴァチカン教皇庁図書館展」(書物の誕生~写から印刷へ)が開催されていますが、改めてこれらを眺めてみますと、複製術としての印刷技術以前(グーテンベルグ)に、高度な表現技術がすでに確立されており、書物の原型ができあがっていることに驚かされます。日ではやっと組版についてのルール(JISX4051)ができた状態ですが、このギャ

  • 1