タグ

ブックマーク / takeda25.hatenablog.jp (33)

  • 簡潔データ構造 LOUDS の解説(全12回、練習問題付き)

    日本語入力を支える技術」(通称「徳永」)や「高速文字列解析の世界」(通称「岡野原」)で紹介されている LOUDS というデータ構造を、12回に分けて解説しました。 友達に教える時に使ったもので、練習問題付きです。 実際に紙に書いてやってみるとわかりやすいと思います。 詳解 LOUDS (1) LOUDS とは 詳解 LOUDS (2) ビット列を作ってみる 詳解 LOUDS (3) 0番ノード 詳解 LOUDS (4) ビットの意味 詳解 LOUDS (5) 木構造の復元 詳解 LOUDS (6) インデックスでノードを表す 詳解 LOUDS (7) ノード番号からインデックスを得る 詳解 LOUDS (8) インデックスからノード番号を得る 詳解 LOUDS (9) 子ノードから親ノード 詳解 LOUDS (10) 親ノードから子ノード 詳解 LOUDS (11) 木の検索 詳解

    簡潔データ構造 LOUDS の解説(全12回、練習問題付き)
  • ドヌーヴ「女性を口説く権利」誤訳指摘 - アスペ日記

    (2018/01/12 15:44 追記)「カトリーヌ・ドヌーヴを含め100人の女性が主張したこと」というよりよい翻訳が出ていて、そちらにはここで指摘したような問題はありません。そちらを読むことをお勧めします。 ドヌーヴ「女性を口説く権利」 全訳ですが、ブコメにもあるように誤訳があり、中には大きなものもあるので、限られたフランス語力ではありますが、指摘しておきます。指摘に間違いがあれば再指摘をお願いします。 性暴力は重大犯罪だ。(Le viol est un crime.) "viol"は「レイプ」です。 ナンパはしつこかったり不器用だったりしても犯罪ではないが、そのことがマッチョの侵害行為を保証することにはならない。(Mais la drague insistante ou maladroite n’est pas un délit, ni la galanterie une agres

    ドヌーヴ「女性を口説く権利」誤訳指摘 - アスペ日記
  • ちょまど氏をめぐる異常事態 - アスペ日記

    最近、Xamarinという製品についての勉強会で炎上騒動がありました。 初期の記事としては、以下のものがあります。 xamarinコミュニティの炎上について思うこと その後、主催者側や批判側からいろいろな記事が出て、泥沼の様相を呈していました。 以下はその例です。 JXUG 名古屋ハンズオンでの事実について 続ちょまど問題 これらの記事を見てもわかるように、ちょまど氏をめぐっては、アンチとファンが非常にはっきりと分かれています。 (アンチ・ファンというのは語弊がありますが、あえてこう書きます) どちらにも著名な人・技術的に優れた人がいるので、お互いに「あの人は技術的には尊敬できるのに、なんでこの問題ではあんななんだろう」と思うようなことも多いんじゃないでしょうか。 これは、はっきり言って異常事態だと思います。 一人の人間をめぐって、アンチとファンの間で分断が起こるということ自体、異常事態で

    ちょまど氏をめぐる異常事態 - アスペ日記
  • 機械翻訳と意味 - アスペ日記

    ここ最近、Google翻訳がリニューアルされ、性能が向上したという話が流れてきたので、さっそく試してみた。 ぼくが真っ先に試したのは、「母は、父が誕生日を忘れたので、怒っている。」だ。 なぜこの文が気にかかっていたかは後述する。 結果は次の通り。 "My mother is angry because my father forgot her birthday." すばらしい。 では、「母は、父が鞄を忘れたので、怒っている。」はどうだろうか。 "My mother is angry because my father forgot his bag." 完璧だ! 「誕生日を忘れた」の場合は「母の誕生日」と解釈し、「鞄を忘れた」の場合は「父の鞄」と解釈する。 これこそ、利用者が翻訳に求めるものじゃないだろうか。 しかし、ここまでだった。 次にぼくは、「父」と「母」を入れ替え、「父は、母が誕生日

    機械翻訳と意味 - アスペ日記
  • N-gram 漢字<=>かな変換 - アスペ日記

    @gologo13さんの言語モデル配布ページのデータを利用して簡単な漢字->かな/かな->漢字変換ができないかなーと思って作ってみた。 言語モデルの作成には SRILMを使用。 配布中のデータを SRILM で扱うには多少加工しないといけないので、その変換スクリプトも作った。 GitHub リポジトリは https://github.com/hiroshi-manabe/ngram-converter 。 [追記]最新のバージョンでは、4-gram のかな漢字変換用辞書をあらかじめリポジトリに入れてある。 marisa-trie モジュールさえ入れてあれば、 ./converter_sample.py --dicname-prefix=dics/bccwj4_rev_dic --order=4 --interactiveですぐにかな漢字変換が実行できる。 まず、@gologo13さんの言語

    N-gram 漢字<=>かな変換 - アスペ日記
  • 可変次数 N-gram デコードのアルゴリズム - アスペ日記

    前に書いた N-gram 漢字-かな変換 - アスペ日記 のアルゴリズムについて。 かなり縦に長いエントリになると思う。途中までは一般的な日語自然言語処理にかかわること。 例として、「かれがくるまでまつ」というひらがなの文をデコードして、対応する漢字かな混じり文にすることを考える。 こういう時に使われるのが「ラティス構造」。こういうやつ↓ (この図は一回しか出てきません。ちなみにこのために Keynote 買ったようなもの) それぞれのノードで、そこに入ってくるエッジの中で一番確率が高いものとその確率を覚えていくことで、動的計画法によって最適なパスを導くことができる。 これをプログラム上でどう実現するか。 まず、共通接頭辞検索というものを使う。 これは、あるキーを渡すと、そのキーに前から一致するようなキーを持つ候補を列挙してくれるというもの。 例えば、「くるまで」をキーとして使うと、「く

    可変次数 N-gram デコードのアルゴリズム - アスペ日記
  • N-gram かな漢字・漢字かな変換(C++版) - アスペ日記

    作った。 リポジトリはこちら。 https://github.com/hiroshi-manabe/ngram-converter-cpp 以前、N-gram 漢字-かな変換という記事で、N-gram を使ったかな漢字・漢字かな変換を公開した。 内部で使用しているアルゴリズムについては、可変次数 N-gram デコードのアルゴリズムの記事や、N-gram かな漢字変換 (スライド)で紹介した通り。 精度は、http://d.hatena.ne.jp/nokuno/20111103/1320317225で検証していただいた通り、それなりに出ていたと思うが、いかんせん速度が遅いのが問題だった。ちょっと長い文章を変換すると数秒間も時間がかかってしまう。これでは実用にならない。 それで、仕事を辞めて時間があるので、それを C++ で書き直してみた。N-gram の保存には、Faster and S

    N-gram かな漢字・漢字かな変換(C++版) - アスペ日記
  • 翻訳の退場勧告 - アスペ日記

    SICPを訳し直したと、一年前の記事の善意のひどい訳についてに関して、はてな匿名ダイアリーのほうで言及していただきました。 翻訳は/誰がやっても/間違える (前編) 翻訳は/誰がやっても/間違える (後編) 誤訳の指摘ありがとうございます。 差し支えなければ追って反映したいと思いますが(反映について明示的に許可をいただければと思います)、まずはお礼を兼ねてお返事から。 また、タイトル575ありがとうございます。 77でお返しするのが礼儀かと思ったのですが、どうも思い浮かばず… 申し訳ありません。 ところで、匿名の方でお呼びしにくいので、増田*1という意味でMさんとお呼びしますね。 前もって申し上げますが、元記事にはごちゃごちゃした人間的な感情の絡む雑音的な部分も多いので、お返事できそうなところを自分でピックアップして回答しています。 「いや、ここも答えられるだろ」というところがあればご提示

    翻訳の退場勧告 - アスペ日記
  • 腐った翻訳に対する態度について - アスペ日記

    今回、SICPの翻訳改訂版を公開するにあたって、minghai氏の非公式日語版(以下、minghai氏版)については「惨憺たる翻訳」「そびえ立つクソの山」などと書きました。これらの言葉は、もちろん心からのものです。しかし、それを表に出すかどうかについては、冷静に考えた結果として意図的に選択したことも確かです。ここでは、その背景について書こうと思います。 約一年前、私が善意のひどい訳についてという記事を書いたとき、しぶかわよしき様から以下のコメントをいただきました。 趣味お金にならない翻訳だとだいたい最初の下訳で出しちゃいますね。だからといってそれが悪いことだとは思いません。英語を読まない人は言うまでもなく、英語を読める人でも「下訳」があれば原文を読む時にの速度は上がりますからね。クオリティに対して個人でできることといえば、指摘などで黙々と時間コストを代わりに負担するか、takeda2

    腐った翻訳に対する態度について - アスペ日記
  • 非公式PDF版SICP・新訳 - アスペ日記

    計算機プログラムの構造と解釈、通称SICPを一から翻訳し直しました。 ファイル: SICP非公式日語版 翻訳改訂版 リポジトリ: https://github.com/hiroshi-manabe/sicp-pdf また、今回の翻訳をするにあたって考えたことを別記事にまとめました。 腐った翻訳に対する態度について SICPはMITの有名なプログラミングの教科書です。詳しくはminghai氏の記事をご参照ください。 この翻訳改訂版は、minghai氏の非公式日語版(以降、minghai氏版)のあまりにも惨憺たる翻訳を見かねて、原著から翻訳をし直したものです。この翻訳を進めるにあたっては、minghai氏版の訳を置き換えていくというやり方で進めていきました。しかし、差分を取ればわかっていただけると思いますが、minghai氏版のテキストは痕跡をとどめていないはずです。この方式を採ったのは、

    非公式PDF版SICP・新訳 - アスペ日記
  • 「許す」と「赦す」の件(みんな間違っている) - アスペ日記

    「シャルリー・エブド」誌の翻訳の問題がホットなようです。 銃撃の政治紙「すべては許される」と預言者風刺 「許す」と「赦す」 ―― 「シャルリー・エブド」誌が示す文化翻訳の問題 「許す」と「赦す」は同じ意味ですよ 私から見ると、みんな三者三様に間違っています。 (最初に書いておきますが、ここでは主に日語表記について述べ、シャルリー・エブド誌の表紙という題にはあまり触れません) 関口涼子氏の間違い まず、関口涼子氏の間違いから。 Tout est pardonnéを、「すべては許される」とすることで、この読みの多様性が全て消えてしまう。 もうすでにあちこちで指摘されていますが、「許す」は「赦す」を含んでいます。 現代日語で「許す」と「赦す」が排他的に使い分けられているなんていうことはありません。 で、こういうときには必ず、常用漢字(当用漢字)云々という人が出てきますが、それも誤解です。

    「許す」と「赦す」の件(みんな間違っている) - アスペ日記
  • なぜ誤訳指摘をしたか - アスペ日記

    善意のひどい訳についてについての補足を書く。 まず、「なぜ指摘を公開でやったのか」ということから。 「アスペ日記」というタイトルで日記を書いてはいるけれど、「こんなふうに誤訳指摘したら気ぃ悪い(感じ悪い)*1よなぁ」ぐらいの感覚はぼくにもあった。 じゃあ、なぜそうしたか。 その理由を箇条書きしてみる。 この記事を書くことで、id:ymotongpoo さんの傷口に塩を塗るようなことになるかもしれないけれど、許してもらえればと思う。 1. 翻訳記事の読み方について考えるきっかけになると思った。 元記事は、ぼくが最初に見たときは100ブクマも行っていなかったと思うけれど、みるみるうちに伸びて、300ブクマを超えた。 あれだけ誤訳の多い記事が、ただ漫然と消費される様子に疑問を持った。 日語だけ読んでもおかしなところがある(指摘箇所を見てもらえばわかると思う)翻訳なのに、みんな適当に目を滑らせて

    なぜ誤訳指摘をしたか - アスペ日記
  • 善意のひどい訳について - アスペ日記

    2014/10/14 追記: 補足記事を書きました。なぜ誤訳指摘をしたか ぼくは、ずっと昔から「ひどい翻訳」というものに憤りを感じてきた。 以前、別の記事に書いたこともある。 統計学を拓いた異才たちのようなひどい翻訳を見るたびに、どうして世の中からはこの手の悲劇がなくならないのかとため息が出る。 この前、またひどい翻訳を目にする機会があった。 C言語でプログラミングする際の覚書 ちょっと原文と比較すると致命的な誤訳がいくつも見つかる、最低クラスの翻訳だ。 やれやれと思いながら、翻訳のひどさを嘆くコメントをはてブに残して、ツイッターに流した。 pretty printers を優秀なプリンターと訳しているのを見て、これはちょっと手のつけようのない何かだと悟った / “C言語でプログラミングする際の覚書(Notes on Programming in C) - YAMAG…” URL 2014

    善意のひどい訳について - アスペ日記
  • 片付けを始めるコツ - アスペ日記

    個人的にうまくいった、「片付けを始めるコツ」について書いてみます。 ぼくと同じタイプの人間向けです。 概要を箇条書きにすると、次のようになります。 限られた回数の「片付け動作」をする。 リラックスする。 以上の繰り返しです。 「片付け動作」とは何か。 これは、片付けを進める動作であれば何でもOKです。 例えば、AをBの上に重ねるとか、重ねたを動かすとか、紙くずAを拾うとか、その紙くずAを別の紙くずBとまとめるとか、まとめた紙くずA・Bをゴミ箱に捨てるとか。 ここでのコツは、「できるだけ細かく分解する」ということです。 重ねるのと動かすの、まとめるのと捨てるのは別動作です。 で、この片付け動作を3回やる。 例えば、手元のAの上にBを置いて、その上にCを置いて、その3冊の棚の近くに移動する、とか。 ここで、3回も片付け動作をすると当然精神的に疲労困憊しているころなので、敷きっ

    片付けを始めるコツ - アスペ日記
  • 「履く」と「穿く」が面倒なことになったいきさつ - アスペ日記

    ズボンやを「はく」というのは、どう書くか。*1 ご存じの方は多いと思いますが、これはけっこうやっかいな問題なんですよね。 もっとも、「あ、これ正解知ってる」という人もいるでしょう。 ズボン・スカートは「穿く」で、は「履く」でしょ、と。 ここで、「じゃあ、下は?」となると、問題が急に面倒になります。 というのは、下を「はく」をどう書くかについては、辞書によって主張が分かれているからです。 国語辞典 調べてみたところ、下を「履く」派と「穿く」派の辞書は、以下のようになっていました。 「履く」派: 広辞苑、大辞泉、大辞林、新明解*2 「穿く」派: 三省堂国語辞典、明鏡、旺文社国語辞典、角川国語辞典、集英社国語辞典 かなり拮抗していますね。 でも、この問題が複雑になったのはどうしてなんだろうというのが、私にとっては前から疑問でした。 というのは、漢字の意味、つまり中国語での意味を考えると

  • プログラマの生産性と報酬 - アスペ日記

    追記: 続編を書きました。マッチョとの戦い 最近、プログラマの生産性が話題です。 いろんな意見があるものの、個人的には 10〜100倍の生産性の違いはあると思います。 いや、それは違う、生産性の高いエンジニアは生産性の低いエンジニアに作れないものが作れるのだからそういう話ではない、という意見もあります。 しかし、実際には生産性の低いエンジニアができもしないことをしようとして結局できないで終わるということがあったりしつつも、何らかの貢献をするというのが普通だと思いますので*1、最終的には 10〜100倍の違いといった形に落とし込めると思います。 で、この生産性の違いはどこから来るのか。 個人的には才能だと思っています。 ぼく自身は、自分のことを中間レベルのエンジニアだと認識しています。 平均の 3〜10 倍できて、トップより 3〜10 倍できないくらい。 でも、自分が平均から抜け出るために何

    プログラマの生産性と報酬 - アスペ日記
  • 「了解」は失礼か? - アスペ日記

    最近、「了解」は失礼だという説が出てきているようです。 どこの誰が言い出したのか知りませんが、ごく最近であることは確かです。 少し前のマナーには、そんなことは書いてありません。 たとえば、2003年のこれだけは知っておきたい! 改訂版 ビジネス・マナーハンドブックには、次のようにあります。 しかしそうしたルールができていない社外の人からのメールを受信したときには、「メール、受けとりました」「その件、了解しました」など、簡単でよいからすぐに返信し、… また、2005年の「こんなことも知らないの? 大人のマナー常識513」というマナーには、次のような記述があります。 内容に疑問のあるときにはその点を記して送信しますが、そうでなければ「メール拝見しました。○○の件は了解しました」などと簡単な返信でかまいません。 しかし、2008年の「信頼される社会人へのパスポート敬語検定」*1には、次のよう

    「了解」は失礼か? - アスペ日記
    nabinno
    nabinno 2014/02/09
    「お疲れ様です」も失礼という流れになってる。
  • 「障害」書き換え説,あるいは戦前の雑さ - アスペ日記

    いつごろから広まったのか知りませんが、“「障害」は来「障碍」と書くのに、戦後になって「障害」と書くようになった”という俗説があります。 結論から書きます。 「障害」は戦前からある書き方です。 今はGoogle ブックスという便利なものがあるので、画像を貼っておきます。 法律年鑑 第十三巻(昭和十二年) 別表ニ掲グル身體障害二以上存スルトキハ重キ身體障害ノ該當スル等級ニ依リ障害扶助料ヲ支給スベシ 百聞は一見にしかず、ですよね。 この話はここでおしまいです。 …なのですが、どうしてこの手の俗説が絶えないのか、少し考えてみます。 この考え方の背景には、「社会は間違っている、自分は正しいことを知っている」という中二病的心理があるように思います。 典型的なのが、コラムニストの小田嶋隆さんに絡んでいる次のツイートのようなものです。 @tako_ashi 障がい者を障害者となぜ書くのかというと 来は

    「障害」書き換え説,あるいは戦前の雑さ - アスペ日記
  • 「間髪をいれず」が殺された日 - アスペ日記

    最近、マイナビウーマンが「日語を貧しくしようキャンペーン」を展開しているようです。 じつは読み間違ったことのある漢字1位「貼付」 間違っている読み方が定着していると知らずに使っていた日語1位「輸入(ゆにゅう)【正】しゅにゅう」 「正しい日語」ネタはPVが稼げるのでしかたないのでしょうが、日語が金儲けのネタにされるのを見ると悲しくてなりません。 この中で、見逃せないのは次の部分です。 ■番外編:これは明らかな間違いです ・間髪を容れず(かんぱつをいれず)【正】かん、はつをいれず「これだけは知っていた」(26歳男性/学校・教育関連/事務系専門職) ■間髪をいれず(×かんぱつをいれず→○かんはつをいれず) こういうのは、いい大人が見たらあきれてしまうところです。 「何をバカなことを言っているんだ、『かん、はつをいれず』なんて聞いたことないよ」と。 もちろん、中国語や漢文をやっている人であ

    「間髪をいれず」が殺された日 - アスペ日記
  • Googleのヒット件数について(続き) - アスペ日記

    Googleのヒット件数は当てにならないの続きです。 はてブで id:blueboy さんという方が 文中の「ページを進めると数が急減したのは、すべての結果を取得して件数が判明した」は誤りです。正しくは「途中で表示をやめるから」です。 と書いていたので、フォローアップ記事を書くことにしました。 フォローアップ記事なんてPV取れないし、そのコメントを見た人が読むことも少ないでしょうし、書いてもむなしい気もしますが。 むなしさを紛らすためにアフィリエイトを貼るので踏んでください。 Coders at Work プログラミングの技をめぐる探求posted with amazlet at 13.11.07Peter Seibel オーム社 売り上げランキング: 242,965 Amazon.co.jpで詳細を見る さて、ブコメのリンク先の記事◆ Google の検索ヒット件数の謎について。 「安倍

    Googleのヒット件数について(続き) - アスペ日記