タグ

ブックマーク / shiumachi.hatenablog.com (4)

  • 新Google翻訳を使って3700ワードの技術文書を1時間で翻訳した - 科学と非科学の迷宮

    新しいGoogle翻訳がニューラルネットワークに基づく機械翻訳に移行して品質が向上した、というので早速使ってみました。 翻訳対象はHadoopのFair Schedulerに関するドキュメントです。 Fair Schedulerは、Capacity Schedulerと並ぶHadoopの2つのスケジューラの一つですが、挙動が少し複雑で、理解するのに苦労します。ドキュメント自体も長く、英語に不慣れな人には読むのがなかなか大変な文書で、前々から訳したいとは思っていました。しかし、3700ワード(A4に文字ぎっしりで7ページ近く)の技術文書を訳すとなると、かなりの労力が必要になります。少なくとも一日仕事になるのは間違いありません。私も仕事が忙しく、なかなか翻訳の時間がとれなかったため、翻訳作業はタスクキューの底に埋もれてしまっていました。 そこで、今回新しい翻訳がどれほどのものか試すのも兼ねて、

    新Google翻訳を使って3700ワードの技術文書を1時間で翻訳した - 科学と非科学の迷宮
    kimutansk
    kimutansk 2016/11/25
    実際新版になってから、技術系記事を張り付けてほぼ違和感なく読めてしまう。ただ、結果の日本語補正できても元の英文修正するまでは知識が至らないので、英語学習はまだまだ必要ですが
  • HBase 0.96 で導入される新しいコンパクション「Exploring Compaction」 - 科学と非科学の迷宮

    Hadoopアドベントカレンダー2013、3日目を担当する @shiumachi です。 今回は HBase 0.96 の新機能を一つ紹介します。 要約 HBase 0.96 は賢くなったのでみんな使おう。 コンパクションのおさらい HBase では、Log Structured-Merge tree (LSM-tree) というデータ構造を使っています。 LSM-tree を簡単に説明すると、入力されたデータをログとメモリ上のデータストア(Memstore、メモリストア) に書き込みます。 メモリストアがいっぱいになると、まとめてディスクにフラッシュし、新しいストアファイルを生成します。 このストアファイルがたまってきたときに、少しづつ一まとめにしてなるべくファイル数を少なくするようにします。これがコンパクションです。 コンパクションを実行することにより、ファイルは一つにまとまります。こ

    HBase 0.96 で導入される新しいコンパクション「Exploring Compaction」 - 科学と非科学の迷宮
    kimutansk
    kimutansk 2013/12/04
    cdh4.4にはバックポートされているので新コンパクションポリシーも使用可能、と。
  • Hadoopのディスクあふれ対策(補足) - 科学と非科学の迷宮

    最近流行りのディスク容量があふれたときの挙動、Hadoop編を書こうと思ったらwyukawaさんが既に書いてくださったのでやめました。 ……と思ったのですが、せっかくなので id:wyukawa さんが書いてない箇所を補足してみようと思います。 ( この記事は @kernel023 にレビューしてもらっています。ありがとうございます ) wyukawaさんの記事へのコメント まずHBaseを使っている場合はcompactionがある関係上Disk使用率は50%以内に抑えておくのが無難だと思います。この辺はCassandraと同じですね。 全データを同時にコンパクションするケースはまずないので無理に50%以下に抑えなくていいとは思いますが、意識はしておいた方がいいですね。 私は60%での警告を推奨しますが、この辺はケースバイケースです。 MapReduce の出力結果など、いきなり容量増える

    Hadoopのディスクあふれ対策(補足) - 科学と非科学の迷宮
    kimutansk
    kimutansk 2013/08/05
    Hadoop補足版。ログのローテーション方式ってCDH4からこう変わっていたんですね。
  • 技術系メーリングリスト上で使える英語の習得法 - 科学と非科学の迷宮

    前回バグレポートの提出方法というテーマで記事を書きましたが、今回は英語にフォーカスして少し書いてみることにします。 英語の学習法は数多くありますが、もし英語を学ぶ目的が「IT技術系メーリングリストに投稿し、議論する」ことが目的でしたら少しだけ楽な方法があります。 それは、技術系メーリングリストを片っ端から登録し、辞書を引くたびに検索をかけ、自分独自の例文集を作成することです。 ある特定のクラスタ内で他人とのコミュニケーションをとるとき、そのクラスタ固有の用法が生まれることがあります。例えば日語においても、IT技術系クラスタで使う英語と他のクラスタ、例えば家族、大学の友人などの集団に属しているときに使う言葉は異なります。「割り当てる」という単語は、IT 系のクラスタでは頻繁に見かけますが、この単語を家族間で使うことはあまりないでしょう。方言なども、あるクラスタでは多用するが他のクラス

    技術系メーリングリスト上で使える英語の習得法 - 科学と非科学の迷宮
    kimutansk
    kimutansk 2012/05/27
    この辺り、3つ目位まではやってますが最後やって無かったので手落ちですねぇ。やろう。
  • 1