タグ

日本語に関するsbg3のブックマーク (8)

  • Gitで日本語長文のdiffをとる方法 - Qiita

    (この記事はここからの転載です) 課題 日語の長文をgitで管理していると、ほんのちょっとの変更でもdiffでは行丸ごと変更されたことになり、変更点がよくわからないことがある。 二泊三日で小説を書く過激なイベントNovelJam 2018参加作品である高橋文樹氏の「オートマティック クリミナル」は、GitHubを使って執筆されている。小説では、git diffの欠点がはっきりでる。高橋氏は参加レポートで、こう書いている。 あと、今回得た重要な知見なのですが、Githubではある程度以上テキストが長くなってくると、数文字の調整で全部差分として判定されたりするので、小説には向いてないかなーと思いました。小説は行の移動とかがよく発生するので、GithubじゃなくてGitとの相性かもしれません。 普通にdiffを取る 確かに、普通にdiffをとるとその通り。コマンドラインで「オートマティック ク

    Gitで日本語長文のdiffをとる方法 - Qiita
  • Google翻訳での日本語の点数の低さについて

    Google翻訳は、なかなかスゴイのだが、他の欧米系の言語での翻訳と比べると、日語の翻訳精度は、かなり低い。 この表は、Google翻訳の「Zero-Shot論文」の、ある意味「目玉」の結果の一つである。 機械翻訳のシステムを、ドイツ語 -> 英語、フランス語 -> 英語 というように、一対一の言語の組み合わせで別々のシステムで訓練させるより、{ ドイツ語、フランス語} -> 英語 のように、一つのシステムで同時に複数の言語(この場合は二つの言語)の一つの言語(この場合は、英語)への翻訳を訓練した方が翻訳精度が上がるという、驚くべきものである。 人間で言えば、日語の英語への翻訳をもっとうまくやりたいなら、韓国語から英語への翻訳も、同時に学習する方がいいということ。 このメリットを説明する可能性のある仮説の1つは、モデルがより多くの英語データをターゲット側に持ち、ソース言語が同じ言語ファ

    Google翻訳での日本語の点数の低さについて
  • Gimei·日本人の名前、住所をダミーで生成 MOONGIFT

    ダミーデータを作るのは意外と面倒で、つい“ああああ”などとしてしまったり、同じ文字を繰り返してしまったりします。しかしそれでは実際にありそうな文字数が分かりづらかったり、雰囲気として物っぽさが感じられません。 そこで使いたいのがGimeiです。偽名、偽の住所などを生成してくれるライブラリです。 Gimeiの使い方 GimeiはRubygemでインストールできます。 gem install gimei 例えば男性を作る場合は以下のようにします。 gimei = Gimei.male gimei.male? #=> true gimei.female? #=> false gimei.kanji #=> "小林 顕士" もちろん実行する度に結果は変わります。 > gimei = Gimei.male => #< gimei::name:0x007fd2cb35b4c0 @gender=:ma

    Gimei·日本人の名前、住所をダミーで生成 MOONGIFT
  • javascript - hanzenkaku.js で半角全角処理 : 404 Blog Not Found

    2012年08月13日06:00 カテゴリLightweight LanguagesTips javascript - hanzenkaku.js で半角全角処理 まあ車輪の再発明もいいところなのですが、車軸に合う車輪が見つからなかったということで。 dankogai/js-hanzenkaku DEMO まずは実際にお試しを。 全角: 半角: 全methodは以下のとおり。textarea内でいろいろと書き換えてみてください。 /* Functinal */ p( HanZenKaku.h2z('コガイダン') ); p( HanZenKaku.z2h('コガイダン') ); p( HanZenKaku.hw2fw('dankogai') ); p( HanZenKaku.fw2hw('dankogai') ); p( HanZenKaku.fs2hs('a space') ); p

    javascript - hanzenkaku.js で半角全角処理 : 404 Blog Not Found
  • 縦書き表記をサポートするテキストレイアウトエンジン·Nehan MOONGIFT

    NehanはJavaScript製のオープンソース・ソフトウェア。コンピュータはアメリカ発とあって、左から右に表記されるのが基だ。アラビア語のように右から左に表記される場合もあるが、それでも横に流れるのは変わらない。日語のように縦に書かれることは考慮されていない。 だが日人である以上、慣れはあるとは言え縦書きの方が分かりやすい。それは今後電子書籍が流行っていく中で必ずネックになるはずだ。とは言え出力自体縦書きにするのは難しい。そこで表示だけを切り替えるのがNehanだ。 NehanはHTMLでは通常通り横向きに書かれている文章をJavaScriptを使って縦書きに変換する。カギ括弧など単純に縦に並べると問題のある文字は画像を使って置き換えてくれる。これによってぐんと見やすい状態になる。 実際の使い方としてはclassの中に幅、高さ、フォントサイズを指定する程度で良い。特に何も考えずに

    縦書き表記をサポートするテキストレイアウトエンジン·Nehan MOONGIFT
  • 日本語文章の校正ができるサイト | ライフハッカー・ジャパン

    仕事でかしこまった文章を書くときに、誤字・脱字の確認を行うのは当然ですが、文中に言葉の間違いや不適切な表現などが簡単にチェックできないか?と考えことはありませんか? 一太郎やWordなどのワープロソフトには、校正機能があるので、それでチェックできますが、その為に買い揃えるなれば、意外に高価で尻込みしてしまいます。ここはひとつ、自己啓発の為と奮発する前に、無料で日語文章の校正ができるサイトがあるので、1度試してみてください。 続きは、以下で。 日語文章校正ツールは、その名のごとく日語文章の校正が行えるサイトです。 使い方は簡単で、サイトにアクセスして、テキストボックスへ文章を入力して[上記の内容でチェック]をクリックするだけです。しばらくすると、チェック結果が表示されます。チェック結果は、修正を検討すべき可能性ある部分が指摘されます。 試しに、以前私(傍島)がライフハッカーに投稿したエ

    日本語文章の校正ができるサイト | ライフハッカー・ジャパン
  • ブログやメールの文章力をアップ! 執筆に役立つページ3つ - はてなブックマークニュース

    ブログやメールなどで文章を書く機会が増えている昨今、「もっと上手な文章を書きたい!」と願う人が多くいるようです。そこで、はてなブックマークで話題になった文章術に関する記事を「執筆」「推敲」「校正」に分けてご紹介します。 1.執筆 How to write Japanese precisely この記事では、「伝えたいこと」があることを「文章を書くための最低条件」とし、文章にとって最も大切なことは「正確さ」であると書かれています。そして、「1.伝えたいこと/あふれる思い」「2.正確さ/曖昧さの排除」「3.豊かさ/軽やかさ」「4.バランス感覚/素直さ」「5.内容の構成」「6.思いきり/吟味する」が順に解説されます。技術者の方によって書かれているためか、非常に論理的に解説されていて、分かりやすくまとまっています。 2.推敲 あなたの文章を(ほんの少し)綺麗に見せる九つのテクニック。 - Some

    ブログやメールの文章力をアップ! 執筆に役立つページ3つ - はてなブックマークニュース
  • 漢字の『辛い(からい)』と『辛い(つらい)』の区別がつきません…:アルファルファモザイク

    文化祭でカセットコンロ4台の上に鉄板2枚載せて焼きそばを作っていたらガスボンベが爆発、生徒15人負傷…私立豊南高校

  • 1