About 南の島のプログラマ。 たまに役者。 Practical Schemeの主。 WiLiKi:Shiro 最近のエントリ 無限cxr高校受験Defense振り返ってみると2019年は色々学んで楽...覚えるより忘れる方が難しい(こともある)眼鏡のつると3DプリンタIris Klein Acting ClassSAG-AFTRA conservatory: Voice Acting創作活動って自分を晒け出さねばならないと...ループを使わずに1から100までMore... 最近のコメント shiro on 歳を取ると時間が速く過ぎるのは、新しいことに挑戦しないから? (2023/03/14)1357 on 歳を取ると時間が速く過ぎるのは、新しいことに挑戦しないから? (2023/03/01)ベアトリーチェ on ハイポハイポハイポのシューリンガン (2022/04/02)ベアトリーチ
社内の機械学習勉強会で最近話題になった機械学習関連のエントリを取り上げているのですが、ここ一ヶ月ではGoogle Neural Machine Translation(GNMT)がとても話題になっていました。GNMTで使われているEncoder-Decoderやattentionのような仕組みを直近で使う予定は特にはないですが、機械学習を使うエンジニアとして知っておいて損はないし、技術的に何が変わったことにより何ができるようになって、何はまだできないのかを知ろう、というのが目的です。技術的な項目は興味ない人も多そうなので、最後に持っていきました。 Google Neural Machine Translation(GNMT)の最近の進化について できるようになったこと 定量的な評価 まだまだ難しいこと 技術的な詳細 Encoder-decoder Attention based encod
メディア関係者向けお問い合わせ先 メールでのお問い合わせ: pr-jp@google.com メディア関係者以外からのお問い合わせにはお答えいたしかねます。 その他すべてのお問い合わせにつきましては、ヘルプセンターをご覧ください。
ここ最近、Google翻訳がリニューアルされ、性能が向上したという話が流れてきたので、さっそく試してみた。 ぼくが真っ先に試したのは、「母は、父が誕生日を忘れたので、怒っている。」だ。 なぜこの文が気にかかっていたかは後述する。 結果は次の通り。 "My mother is angry because my father forgot her birthday." すばらしい。 では、「母は、父が鞄を忘れたので、怒っている。」はどうだろうか。 "My mother is angry because my father forgot his bag." 完璧だ! 「誕生日を忘れた」の場合は「母の誕生日」と解釈し、「鞄を忘れた」の場合は「父の鞄」と解釈する。 これこそ、利用者が翻訳に求めるものじゃないだろうか。 しかし、ここまでだった。 次にぼくは、「父」と「母」を入れ替え、「父は、母が誕生日
もう英語を勉強する必要がなくなる…?? 英語嫌いの私にとっては素晴らしく嬉しいニュースです. Google翻訳の精度が大幅上昇です!!! translate.google.com Swiftドキュメントを翻訳してみる プログラミングする時にネックになるもの… そう,英語で書かれたドキュメントの翻訳です. ちょっとドキュメントを翻訳してみましょう. まずは,Railsのドキュメント. Ruby on Rails API を翻訳してみたいと思います!! Rails is a web-application framework that includes everything needed to create database-backed web applications according to the Model-View-Controller (MVC) pattern. これを翻訳する
Hiroyuki Takenaga @nynuts 米国NJ州に住んでる元専業育児主夫。家族は息子ふたりとアメ人のかみさん。沖縄海潜り業→アジア放浪→帰国→渡米→メディア→ブロンクスで貧困ビジネス→専業育児主夫→働き始めました。海外日本人のためのインフラ屋。ポッドキャスト「コミュニティラジオnynuts」やってます。https://t.co/o5HrIeqaxm nynuts.hatenablog.com Hiroyuki Takenaga @nynuts 「アメリカに住む日本人シニアがボケて日本語しか喋らなくなり、英語しか分からない自分の子供とコミュニケーションが取れなくなる」 という話、皆さん聞いたことありますか?最近私、よく聞くんですよ。年取ってから起こる言語の原点回帰というか、英語を失くして日本語しか喋らなくなるんですね。 2016-11-03 21:39:20 Hiroyuki
こんなつぶやきを見た。 宮台真司先生がピコ太郎を見て、「これまで自分はあらゆるサブカル現象は瞬時に理解できたし、社会学的に説明することできたが、これだけは理解できない。何がおもしろいのか分からない」と敗北感に打ちひしがれていた。— 竹熊健太郎《一直線》 (@kentaro666) 2016年10月31日 このご発言がほんとか嘘か、誇張なのかそのままなのか、真偽は不明だけれど、そこは宮台先生に甘えさせていただいて、「社会学の視点でわからない」というわかりやすいボールをみんなに投げてくださったのだととらえよう。そして、その知的なキャッチボールの球をおそれおおくも受け止めさせていただいて、「言語学の視点から」、「PPAP」がどういうふうにおもしろいのかを説明してみるよ。 あ、言語学研究室に所属してたけど、ほとんど授業出てないからそんなに言語学プロパーではないよ。 ・音韻論音声学的視点 まず、PP
JUMAN++は最近黒橋・河原研究室から発表された、JUMANの後継となる形態素解析器です。 これまでの形態素解析器と比べて違うのは、RNN言語モデルを用いて意味的自然さを考慮する、ニューラルネットワークを利用した形態素解析器となっている点です。 速度や語彙等の課題はあるものの、解析能力自体はMeCab以上なので、導入方法と共に触ってみた所感を述べてみます。 導入方法 前提 OS X Yosemite 10.10.5 VirtualBox 5.1.6 Vagrant 1.8.6 インストール vagrant boxは bento/ubuntu-16.04を使用します。 推奨はCentOSですが、自分の環境ではCentOSではビルドに失敗しました。 また、OSはubuntu16.04でもboxによっては上手くインストールすることができないため、bentoのboxがおすすめです。 $ vagr
原作者のトールキンはオックスフォードの言語学者でしたが、 他国の言葉に翻訳する時は、 英語の単語はその国の言葉に翻訳するように、と言いました。 『指輪物語』はかつての地球の神話時代の本で、それを自分が発見し、 英語に訳して出版した、という設定にしたからです。 そういうわけで「Sting」は英語なので、 当然日本語に訳さねばならないんです。「スティング」じゃダメなんです。 かといって直訳すると「毒針」とか「とげ」とか「刺すような痛み」とかなので、 短剣の名前としては不自然です。 「Sting」を日本語で、しかも一語で表現しろと言われて、 訳者の瀬田貞二さんはかなり苦労したんじゃないかと思います。 「つらぬき丸」という訳はそうして生まれたものです。 以上を全く考えずに「メッチャ変な感じ」と言うのはおかしいと思います。 一方ガンダルフの剣「グラムドリング」は トールキンが文法から何から全部完成さ
MySQL を UTF-8 で使おうと思ってハマりがちなのは charset utf8 を指定してしまうことです。 MySQL の UTF-8 には歴史的事情により utf8 と utf8mb4 の二つあります。 UTF-8 は1バイト〜4バイトで1文字が構成される文字コードですが、MySQL の utf8 は4バイト文字を扱うことができません。ハマりたくなければ utf8mb4 を使いましょう。 utf8 を使ってしまった場合に4バイト文字がどのように扱われるか、自分でもうろ覚えだったのでメモしておきます。 登録 接続が utf8mb4 でカラムが utf8mb4 あたりまえですが、そのまま登録されます。 mysql> insert into utf8mb4 (c) values ('美味しい🍣と🍺'); mysql> select * from utf8mb4; +--------
世の中がほぼUnicode前提になってめでたしめでたし。とはいかなかった現実の話。 String型でできる文字列処理とか、ソースコード自体、特に識別子で使える文字とか。 軽くおさらい: Unicode まあいろんなところでいろんな人が書いてると思うのでさらっと概要だけ。 Unicodeは、元々、「65,536文字あれば十分だろ」とかいう幻想の元、2バイト固定長の文字コードとして作られていました。 もちろん足りなくて、ビット数を拡張。基本が2バイトのままでこの拡張した分を取り扱えるようにしたのが今のUTF-16で、拡張分は2文字分(4バイト)を使って表現。 この、2文字分使って1文字を表すやつのことをサロゲートペア(surrogate pair: 代理対)と呼びます。 あと、ASCII文字も2バイトになるのを欧米人が嫌って、ASCII文字はASCIIコードのまま、逆に漢字・ひらがな・カタカナ
▶ Japan Style Sheet (Society of Writers, Editors and Translators, 1998) ISO 3602 si shi zi ji ti chi tu tsu hu fu sya sha zya ja tya cha syu shu zyu ju tyu chu syo sho zyo jo tyo cho ta, ti, tu, te, to t ta, chi, tsu, te, to tikatetu t t chikatetsu J-U-U-Y-O-U zyūyō, jūyō juuyou N-N Keihinn ▶ a i u e o ka ki ku ke ko ga gi gu ge go sa shi su se so za ji zu ze zo ta chi tsu te to da ji zu de do na
2016.08.08 ビョークの「女ことば」への翻訳の違和感と、男尊女卑の歴史を持つ日本語を巧みに使い分ける宇多田ヒカル わたしはかねてより、映画、テレビドラマ、小説などフィクションにおける「女ことば」に関心を持っている。それは自身が、解剖学的には男性として生まれながら身体を女性化していくMtF(Male to Female)トランスジェンダーであることも大きい。同性に性欲や恋愛感情を抱く男性であるゲイと、性別違和を抱くMtFらをひっくるめて「オネエ」や「オカマ」と呼び、「女ことばを話す」とする固定観念がはびこっており、そのちがいや、ゲイやトランスジェンダーのあいだでも多様な人々がいるという当たり前の事実が、なかなか一般には語られないことに対するいきどおりもある。オネエことばを話すゲイの男性もいれば、わたしのようにショートカットを好むMtFもいるのに。 2000年に渋谷のシネマライズで、F
社内向けの教育資料を、ど素人でもわかるようにと思いながら作っていて、じゃあ「わかりやすい」って何だろうって考えてた。今まで読んできたいろんなわかりやすかった本とそうでない本を思い浮かべながら、一般的にここを注意すればわかりやすさを確保できるだろうっていうポイントを一旦まとめておこうと思った。そうしてまとめてみると、本に限らず人に何かを伝えること一般に適用される話だなと思った。 読む側の負担を減らす わからない=理解をはばむ障害物がある。この障害物を取り除く/回避する作業が「わかる」ために必要になる。その作業を、作者ではなく読者が負担するとき「わかりにくい」本になる。 日本社会だと情報の受け手の側がこの「わかる」ための作業を負うことでコミュニケーションを成立させる傾向にある。空気を読むというようなことだ。そのため発信者側が事前に手を尽くしてわかりやすく発信するというのが苦手で、相手が汲み取っ
C# 7にはどんな新機能が含まれるのかが見えてきた。これまでと比べて、C# 7はかなり速いペースでのリリースとなる。その背景にはどんな事情があるのだろうか。 ← 前回 連載 INDEX 次回 → 次期C#として提案されている機能のうち、どこまでをC# 7としてリリースするかが決まってきた。リリース時期は明示していないものの、今このタイミングで機能を決めたということは、今年中のリリースもあり得るだろう。 これまでのC#のリリースサイクルからすると、少し短くなっている。また、新規追加する機能を小さめに区切っている。今回はこのリリースサイクルの短縮についての話をしていこう。 C# 7 C# 7/VB 15(Visual Basic 15)に実装される予定の機能は以下のページにまとまっている。 Language Feature Status これで確定というわけではないが、変更は細々としたものにと
こんにちは、買物情報事業部の荒引 (@a_bicky) です。 前回、「検索結果の疑問を解消するための検索の基礎」で単語単位でインデキシングする前提で説明しましたが、今回は文などを単語単位で分割するために使う技術である形態素解析について触れます。 形態素解析器には色々ありますが、中でもメジャーと思われる MeCab の仕組みについて説明します。 MeCab の解析精度を上げるために辞書に単語を追加したことのある方もいると思いますが、動作原理を理解することで単語を追加する際に適切な生起コストを設定できるようになったり、学習の際に適切なパラメータを設定できるようになったりするはずです。 なお、MeCab は汎用テキスト変換ツールとしても使用できます が、簡単のため MeCab + IPA 辞書のデフォルト設定前提で説明します。 アジェンダ 形態素解析とは MeCab における最適な解析結果の推
何言ってんのお前 Unicode コンソーシアムには里親( Adoptation )制度があり、スポンサーになると文字を一つ選択することで里親になることができる。選択した文字は Unicode コンソーシアムのサイト上 に自分の名前とセットで掲載してもらえるのだ。そこで僕は🍣を選び、1年間の期限付きではあるが🍣の里親、ブロンズスポンサーとなったのである。 どうして "はじめに言葉ありき"というように、人間はそれを指し示す言葉がなければそれを認識できない。ただそれを認識したときに人がどうそれを受け入れるかというのはかなり怪しいもので、Unicode という統一を目指す文字コード体系は最終的に言語以上に文化の壁に当たるのではないかと思っている。実際、人アイコンの肌色で揉めたりとかは事実それなりに起きているし、今「犬を食べる」という絵文字や「鯨を捕まえて食べる」みたいな絵文字が入るとしたら、
ちょろっとメモ。の割には長くなったけど、最後の方にいいことが書いてある。 ※技術英語や翻訳 Advent Calendar 2015に参加してみました。スレ違いだったらすみません。 追記: taka-oyamaさんの記事「多国対応ウェブアプリを開発する前に知っておきたかったこと」も参考になります。 追記: 「17ヶ国の多言語対応Tips」で当記事を紹介いただきました。素晴らしいスライドです。 追記: 「本当にあった怖い誤訳」によると、今でも機械翻訳をそのままウェブページで使っている自治体があるそうです。怖す。 追記: ぼくたちのかんがえたさいきょうのi18n国家 - Qiitaもどうぞ。 概要 Web アプリやモバイルアプリを問わず、アプリで当てたらそれ英語化だ多言語化だ国際化だ、となることは多い。しかしアプリの作りなどさまざまな原因によって、他所の国の言葉に翻訳してもらっても実は現地の人
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く