タグ

日本語に関するmitsugusakamotoのブックマーク (9)

  • 258億語の日本語コーパスをウェブで公開~国立国語研究所 言語研究や自然言語処理技術開発での基礎資料

    258億語の日本語コーパスをウェブで公開~国立国語研究所 言語研究や自然言語処理技術開発での基礎資料
    mitsugusakamoto
    mitsugusakamoto 2017/03/06
    こういうのを自動点訳の補正には使えないだろうか?
  • ニューラルかな漢字変換 - Qiita

    3行まとめ Recurrent Neural Networkによるかな漢字変換をTensorFlowを使って実装しました。 既存手法のN-gramと比べて高い精度(文正解率2.7ポイント向上・予測変換3.8ポイント向上)を実現しました。 RNNの特性により離れた単語の共起関係と低頻度語の扱いが改善されました。 かな漢字変換とN-gramモデルの限界 パソコンやスマートフォンで日語を入力するためのかな漢字変換には、同音異義語や単語区切りに曖昧さがあります。この問題に対処するため、現在は大規模な訓練データに基づく統計的言語モデルが主流になりました。その中でも代表的な単語のN-gramモデル1では、連続する単語列の頻度を使って言語モデルを構成し、変換候補の確率が高いほど順位が高いと考えます。 しかし、N-gramモデルには離れた単語の共起関係を考慮できないという問題点(マルコフ性)と、低頻度語

    ニューラルかな漢字変換 - Qiita
    mitsugusakamoto
    mitsugusakamoto 2016/12/01
    興味深。こう言うの、自動点訳なんかに応用できない物かなあ。こういうのをこれから勉強しないといけないのかな。
  • 「形容詞 + です」という日本語の用法について - 蟹亭奇譚

    「形容詞 + です」 は誤用ではない 変な日語(1) 「危ないですから」-九十九式 電車に乗っていると、ホームでこんなアナウンスがよく流れてくる。 「3番線に電車がまいります。危ないですから、黄色い線の内側にお下がりください」 僕はこれを聞くたびに、強烈な違和感を覚える。電車には毎日乗るので、この襲い来る違和感と戦うだけで会社に着く頃にはヘトヘトになってしまう。 言うまでもなく、「危ない」という形容詞に直接「です」を付けるのは誤用だ。 変な日語(1) 「危ないですから」-九十九式 「危ないです」 のように、「形容詞 + です」 という表現は、文法的に間違った用法ではない。上記リンク先の主張の根拠として、以下の MSN 相談箱の回答欄が引用されているが、これに至ってははっきり 《間違い》 といって良いだろう。 昭和27年の国語審議会で「形容詞+です」表現を「許容する」としたときから、日

    「形容詞 + です」という日本語の用法について - 蟹亭奇譚
  • 日本語は論理的である - 池田信夫 blog

    学校文法では、「文は主語と述語によって成り立つ」と教わる・・・という文には主語がない。こういう場合、学校では「生徒は」という主語が「省略されている」と教わるが、この基準で日語の日常会話を分析すると、90%以上の文で主語は「省略」されている。世界の他の言語をみても同じで、主語が不可欠なのはインド=ヨーロッパ語族の一部に限られる。主語・述語モデルにもとづく生成文法も、「普遍文法」どころか「ヨーロッパ語文法」でしかない。 こうした英語をモデルとする文法に対する批判も古くからあり、時枝文法や三上章など、「日語の論理は英語とは違う」とする議論も多い。書は、学校文法や生成文法を否定する点ではこうした理論と同じだが、「日語特殊論」も批判し、日語も英語も基的には同じ論理の変種だと論じる。著者の理論的根拠とする認知言語学は第2章に要約されているが、くわしいことは著者の前著を読んだほうがいいだろ

  • Requirements for Japanese Text Layout 日本語組版処理の要件(日本語版)

    To make it easier to track comments, please raise separate issues or emails for each comment, and point to the section you are commenting on. 指摘を追跡しやすくするため,それぞれの指摘点について対象となるセクションを明記のうえ,個別の issue もしくはメールを送ってください. 日語 English All この文書は国際化ワーキンググループによりワーキンググループノートとして公開されています. この文書に関する議論には GitHub Issues の利用が望まれます. ワーキンググループノートとしての公開は W3C 会員による支持を意味しません.この文書は草案であり,更新やほかの文書により置き換えられる可能性が常にあります.作業版以外としての参

    Requirements for Japanese Text Layout 日本語組版処理の要件(日本語版)
    mitsugusakamoto
    mitsugusakamoto 2008/04/15
    日本語組版処理の要件の英文バージョン
  • 日本語組版処理の要件(日本語版)

    0.1 このドキュメントの目的 書記システムは,言語,文字と並び,文化を構成する重要な要素である.それぞれの文化集団には独自の言語,文字,書記システムがある.個々の書記システムをサイバースペースに移転することは,文化的資産の継承という意味で,情報通信技術にとって非常に重要な責務といえよう. この責務を実現するための基礎的な作業として,このドキュメントでは,日語という書記システムにおける組版上の問題点をまとめた.具体的な解決策を提示することではなく要望事項の説明をすることにした.それは,実装レベルの問題を考える前提条件をまず明確にすることが重要であると考えたからある. 0.2 このドキュメントの作成方法 このドキュメントの作成は,W3C Japanese Layout Task Forceが行った.このタスクフォースは,次のようなメンバーで構成され,ユーザーコミュニティーからの要望と専門家

    日本語組版処理の要件(日本語版)
  • Google Japan Blog: 大規模日本語 n-gram データの公開

    メディア関係者向けお問い合わせ先 メールでのお問い合わせ: pr-jp@google.com メディア関係者以外からのお問い合わせにはお答えいたしかねます。 その他すべてのお問い合わせにつきましては、ヘルプセンターをご覧ください。

    Google Japan Blog: 大規模日本語 n-gram データの公開
  • Passion For The Future: 日本語は天才である

    語は天才である スポンサード リンク ・日語は天才である 天才翻訳者、柳瀬尚紀が書いた日語の蘊蓄。 柳瀬尚紀といえば難解さで知られる世界文学ジェイムス・ジョイスの「フィネガンズ・ウェイク」「ユリシーズ」や、知的構築の極みダグラス・ホフスタッターの「ゲーデル・エッシャー・バッハ」、幻想文学の古典ルイス・キャロルの「不思議の国のアリス」、映画になったロアルド・ダール 『チョコレート工場の秘密』 など、歴史的名作に名訳をつけてきた。 学生時代にフィネガンズ・ウェイクを柳瀬の翻訳で読んだ。この作品はジョイスが作った人工言語で書かれている上に、文体が章ごとにめまぐるしく変わる。アナグラムや回文などの言葉遊びが何万も続く。辞書を使って単語を置き換えても意味は通らない文ばかりだ。そもそも英語としても意味が確定できない。普通に考えれば訳出は不可能な作品だが、柳瀬は創造性を発揮して、原作の面白さを

    mitsugusakamoto
    mitsugusakamoto 2007/05/25
    読んでみたい
  • tagnoheya.com

    tagnoheya.com 2024 著作権. 不許複製 プライバシーポリシー

  • 1