amatukaのブックマーク - はてなブックマーク

機械が私たちの偏見を継承する仕組み | POSTD

機械は言語の処理を学習する際、人が書いた文章のサンプルから性別や人種的な偏見を継承します。トルコ語では、”彼（he）”、”彼女（she）”、”それ（it）”を表すための代名詞が、”o”の1つしかありません。”o”の代名詞が含まれるトルコ語の文章をGoogle翻訳で英語に翻訳する場合、翻訳アルゴリズムは英語のどの代名詞が”o”に相当するのかを推測することになります（性別が不明な場合、大抵は”彼”）。そして、アルゴリズムはジェンダーバイアス（性差に基づく偏見）を反映しながら、”彼は医者です”、”彼女は看護師です”、”彼は勤勉です”、”彼女は怠け者です”のような形で文章を翻訳するのです。言語処理の学習に際して、多くのアルゴリズムは人が書いたニュース記事やWikipediaなどの文章を参考にしており、こうした言語モデルから単語間の関連付けを行っています。しかしそうすることで、例えば” 「彼」

amatuka 2018/11/16

リンク

コーディング面接とSnakeゲームに唯一共通すること | POSTD

80年代か90年代に生まれた方ならおそらく、「Snake」というゲームのことをご存じでしょう。「ご存じ」とはつまり、Nokia 3310のちっぽけな画面上でたわいもない巨大ヘビを育てるのに膨大な時間を費やしていたのではないかということです。Nokiaの携帯電話について、皆さんは他にどんな特徴を覚えていますか？バッテリーが長持ちしたことではないでしょうか。 Nokiaはとても”原始的な”携帯電話であったにもかかわらず、バッテリーを使い果たすことなくSnakeゲームで何時間も遊べたのは、どういう訳だったのでしょう？理由の大部分は、優れた強固なコンポーネントのおかげでした。しかし、貢献度はそれより低く、あまり語られることもありませんが、スライディングウィンドウと呼ばれる手法も長時間のプレイに役立っていたのです。 Snakeだけを扱った記事を1本書きたいのは山々ですが、実は本記事では後者の、魅

amatuka 2018/08/13

リンク

Dockerコンテナが遅くなるもう一つの原因 | POSTD

前回のブログ記事では、Kubernetesの話と、 ThoughtSpot がKubernetesを開発インフラのニーズに合わせてどのように取り入れたかをご紹介しました。今回はその続報として、最近の興味深いデバッグ経験について少々駆け足になりますがお話ししていきます。本記事も「コンテナ化と仮想化はノットイコールである」という事実に基づいており、たとえcgroupの上限がどれも高くない値に設定されホストマシンで十分な演算能力が利用できるとしても、コンテナ化されたプロセス同士がリソースの競合を起こす場合があることを示したいと思います。 ThoughtSpotでは内部のKubernetesクラスタで多数のCI/CDや開発関連のワークフローを稼働させており、ある1点を除いては全てが順調でした。唯一問題だったのは、ドッカー化された製品コピーを起動すると、パフォーマンスが期待を極端に下回るレベ

amatuka 2018/04/27

リンク

カオステストでHTTP/2の問題を見つけ出す | POSTD

(注：2017/04/20、いただいたフィードバックを元に翻訳を修正いたしました。修正内容については、こちらを参照ください。) 要約 HTTP/2 にはHTTP/1.xに比べて多数の改良点がありますが、カオステストを行ったところ、HTTP/2のパフォーマンスがHTTP/1より劣る状況があることが分かりました。ネットワーク上にパケット損失がある場合、TCP層での輻輳制御によって、少数のTCPコネクションの中に多重化されているHTTP/2ストリームがスロットリングされます。さらに、TCPリトライのロジックにより、リトライが行われている間、1つのTCPコネクションに影響しているパケット損失が、いくつかのHTTP/2ストリームに同時に強い影響を与えます。言い換えれば、ヘッドオブラインブロッキングが事実上、ネットワーク階層のレイヤ7 からレイヤ4 へ移動したということです。背景とサー

amatuka 2018/04/22

リンク

15年目のVim | POSTD

(注：2017/04/19、いただいたフィードバックを元に翻訳を修正いたしました。修正内容については、こちらを参照ください。) Vim使用について述べた先の投稿（ 1 、 2 ）は好評だったこともあり、そろそろ更新が必要になりました。Vim 8には非常に要望の多かった機能がたくさん追加され、 VimAwesome のような新しいコミュニティサイトができたことでプラグイン探しと評価が容易になりました。最近では私もVimで仕事をする機会がとみに増え、ピーク効率に向け自分のワークフローの設定に時間を費やしたりもしています。ですから、この記事は私の現在の状況を写し取ったものです。大まかには次の内容です。ファイル特定にはfzfとfzf.vim *ファイル検索にはack.vimと ag Vim + tmuxが勝利への鍵 ALEは新Syntastic。理由はその非同期性 …などなど多数。ぜひ

amatuka 2018/04/13

リンク

ディープラーニングの限界 | POSTD

(注：2017/04/08、いただいたフィードバックを元に翻訳を修正いたしました。 @liaoyuanw ) この記事は、私の著書『Deep Learning with Python（Pythonを使ったディープラーニング）』（Manning Publications刊)の第9章2部を編集したものです。現状のディープラーニングの限界とその将来に関する2つのシリーズ記事の一部です。既にディープラーニングに深く親しんでいる人を対象にしています（例：著書の1章から8章を読んだ人）。読者に相当の予備知識があるものと想定して書かれたものです。ディープラーニング：　幾何学的観察ディープラーニングに関して何より驚かされるのは、そのシンプルさです。10年前は、機械認識の問題において、勾配降下法で訓練したシンプルなパラメトリックモデルを使い、これほど見事な結果に到達するなど誰も想像しませんでした。

amatuka 2018/04/06

リンク

PythonとKerasを使ってAlphaZero AIを自作する | POSTD

自己対戦と深層学習でマシンにコネクトフォー（Connect4：四目並べ）の戦略を学習させましょう。この記事では次の3つの話をします。 AlphaZeroが人工知能（AI）への大きなステップである2つの理由 AlphaZeroの方法論のレプリカを作ってコネクト4のゲームをプレイさせる方法そのレプリカを改良して他のゲームをプラグインする方法 Alpha Go→Alpha Go Zero→AlphaZero 2016年3月、DeepmindのAlpha Go（アルファ碁）が、囲碁の18回の世界王者、李世乭（イー・セドル）との五番勝負で、2億人の見守る中、4-1で勝利しました。機械が超人的な囲碁の技を学習したのです。不可能だとか、少なくとも10年間は達成できないと思われていた偉業です。 Alpha Go　対　李世乭の第3局このことだけでも驚くべき功績ですが、DeepMindは、2017年10月、

amatuka 2018/03/30

リンク

100万回のWebSocket接続とGo | POSTD

こんにちは。私はSergey Kamardin（セルゲイ・カマルディン）です。Mail.Ru（ロシアの電子メールサービス会社）で開発者をしています。この記事では、どのように私がGoを使って高負荷対応のWebSocketサーバを開発したかについて説明したいと思っています。パフォーマンス最適化のアイデアやテクニックを通じて、WebSocketの知識はあるもののGoについてはほとんど知らないという方のお役に立てれば幸いです。 1. はじめにまずは開発に至った経緯について、どうして私たちがこのサーバを必要としたのかを説明しておきましょう。 Mail.Ruには多くのステートフルなシステムがあります。ユーザのeメール保存もその1つです。システム内、およびシステムイベントの状態変更を追跡する方法にはいくつかの種類がありますが、それらは主に状態変更に関するシステム通知、または周期的なシステムのポーリ

amatuka 2017/11/30

リンク

機械学習のための仮説検定 | POSTD

統計学者は、さまざまな機械学習のモデルに関して、複雑な推論を行うべく多くの時間を費やしてきましたが、実は、これを完全に一般化できる非常に簡単で単純な方法があります。テストセットにある2つのモデルのパフォーマンスを、対応のあるt検定を使って比較するのです。以下に詳細を記載します。ある真の分散 $ (X,Y) $ から独立同分布で導かれた $n$ 対の $ (x,y) $ があるとしましょう。 “機械学習” は、 $ (x,y) $ の例が与えられた時、 $ x $ を使って $ y $ を推定しようとする問題です。最終的に、 $ y $ の妥当な推定と思われる関数 $ f(x) $ を生成します。典型的には損失関数 $ L(y,f(x)) $ を有していますが、この損失関数とは、推定がどれほど良好かを表すものです。推定量は、期待損失 $ L(f)=E[L(Y,f(X))] $ によ

amatuka 2017/05/08

リンク

私はC言語を知らない | POSTD

(注：2017/04/27、いただいたフィードバックを元に翻訳を修正いたしました。) この記事では、皆さん（特にC言語のプログラマ）に「自分はCを分かっていなかった」と気付いてもらうことを目標にしています。 Cの落とし穴は、思っているよりもずっと身近なところにあります。ちょっとしたコードにも未定義の動作が潜んでいることを以下で示しましょう。この記事はQ&A形式になっており、それぞれの例題は独立したソースコードとして扱ってください。 1. Q: これは正しいコードでしょうか？　（変数の二重定義エラーが発生するでしょうか。上述の通り、これは独立したソースファイルであり、関数本体や複合ステートメントの一部ではありません）解答 A: 正しいコードです。1行目は仮定義であり、2行目でコンパイラが処理した後に “定義” になります。 2. extern void bar(void); void

amatuka 2017/04/26

リンク

Dockerの本番運用 | POSTD

以前に私が書いた「 Dockerの本番運用：失敗の歴史) 」という記事は、非常に多くの反響を呼びました。その後、長い議論を交わして、何百件ものフィードバックや何千件ものコメントを読み、さまざまな人々や主要事業者とも顔を合わせました。Dockerでの試みが増えるほど、その失敗談は増えていきます。そうした現状を、今回アップデートしておきたいと思います。この記事では、最近の交流や記事から得た教訓を紹介しますが、その前に簡単におさらいをして軽く背景を説明しましょう。免責事項：対象読者たくさんのコメントから、世の中には10種類の人々が存在するということが明らかになりました。 1) アマチュア実際のユーザがいない試用版のプロジェクトやサイドプロジェクトを実行している人々です。Ubuntuのベータ版を使用するのが当然だと考えており、「安定したもの」は古いものと見なすようなタイプです。注釈：書

amatuka 2017/04/20

リンク

何でもSSHでやってしまいませんか？ | POSTD

私はかつて、 ssh-chat というプログラムを書きました。 ssh http://t.co/E7Ilc0B0BC pic.twitter.com/CqYBR1WYO4 — Andrey ???? Petrov (@shazow) December 13, 2014 アイデアは単純なもので、ターミナルを開いてこのようにタイプするだけのことです。 $ ssh chat.shazow.net たいていの人はこの後に続けてlsコマンドをタイプするのでしょうが、ちょっと待って。よく見てください。そこにあるのはシェルではなく、なんとチャットルームですよ！詳しいことはわからないけど、何かすごいことが起こっているようですね。 SSHはユーザー名を認識する sshでサーバーに接続するときに、sshクライアントはいくつかの環境変数をサーバーへの入力として渡します。その中のひとつが環境変数$USERです。

amatuka 2016/11/13

リンク

機械学習に挑んだ一年間 – 機械学習について一から学び、仕事に活用するまでの道のり | POSTD

この記事は、去年私が書いた「Machine Learning in a Week（機械学習に挑んだ一週間）」という記事の続編です。その記事では、私が5日間集中的に機械学習を学び、のめり込んでいった経緯について説明しています。機械学習に挑んだ一週間一般の人にとって機械学習の分野に足を踏み入れるのは、無謀なことに思えるでしょう。medium.com 私は順調なスタートを切った後も、時間を見つけて勉強を続け、およそ一年後には、仕事で機械学習を活用した初プロジェクトを立ち上げることができました。そのプロジェクトでは、さまざまなタイプの機械学習や自然言語処理（NLP）の技術を駆使して、 Xeneta の潜在顧客の特定を行っています。趣味でやっていたことが仕事になって、とても嬉しかったです。同時に、仕事として機械学習を利用するのは博士号を持つ限られた人だけだ、という思い込みも払拭されました

amatuka 2016/10/09

リンク

Pythonに咬まれるな : 注意すべきセキュリティリスクのリスト | POSTD

Pythonは、習得が容易で、より大きく複雑なアプリケーションの開発にすぐに適用していけることから、コンピューティング環境に広く普及し、勢いを強めています。ただ、あまりに明瞭で親しみやすい言語なので、ソフトウェアエンジニアやシステムアドミニストレータが警戒を解いてしまい、セキュリティに重大な影響を及ぼすコーディングミスを誘発する可能性はあるかもしれません。主に、初めてPythonを使う人を対象とするこの記事では、この言語のセキュリティ関連のクセに触れます。ベテラン開発者にとってもその特異性を意識するきっかけになればと思います。入力関数 Python 2に多数存在するビルトイン関数の中で、 input はセキュリティの面で完全に難点です。この関数をひとたび呼び出すと、標準入力から読み込んだものが即座にPythonコードとして評価されます。 $ python2 >>> input() dir

amatuka 2016/10/05

リンク

GitHubのコード検索 : プログラマにとっての宝の山 | POSTD

新しい言語やフレームワークを学ぶことは、時には苦闘になることがあります。従来のアプローチは、概念を説明し簡単な例を提供するドキュメントを読むことです。それで十分な場合もありますが、ドキュメントに高度な例や実際のプロジェクトでの使い方が書かれていない場合も多々あります。ドキュメントに記載されていない問題に出くわすと、大抵の人はStack Overflowで解決策を探します（またはソースコードを丹念に調べます）。しかし、「使っているフレームワークが登場してから十分に期間が経っておらず、思い浮かぶ質問全てにStack Overflowが答えてくれない」ということもありえます。今まで問題にはまって、こう考えたことはありませんか？「誰かが既にこの問題を解決しているはずだ！では、なぜこの問題に対する答えがStack Overflowにないのだろうか？」そのとおりです。恐らく誰かは既にそれを解決

amatuka 2016/09/30

リンク

Pythonコードを使用して、Pythonコードを書く方法を人工知能に学習させる | POSTD

ここでは少しの間、自律走行車のことは忘れてください。物事は深刻になってきています。この記事では、独自のコードを書くマシンを作ることに的を絞って話を進めていきたいと思います。 GlaDoS Skynet Spynetを使用します。具体的に言うと、Pythonのソースコードを入力することで、自分でコードを書くように、文字レベルでのLong Short Term Memoryニューラルネットワークを訓練していきます。この学習は、TheanoとLasagneを使って、EC2のGPUインスタンス上で起動させます。説明が曖昧かもしれませんが、分かりやすく説明できるように頑張ってみます。この試みは、こちらの素晴らしいブログ記事に触発され行うに至りました。皆さんもぜひ読んでみてください。私はディープラーニングのエキスパートではありませんし、TheanoやGPUコンピューティングを扱うのも初めてで

amatuka 2016/08/23

リンク

Linuxシステムコール徹底ガイド | POSTD

要約この記事では、LinuxカーネルにてLinuxプログラムがどのように関数を呼び出すのかについて紹介していきます。システムコールを行う様々な方法、システムコールを行うための独自のアセンブリの作成方法（例あり）、システムコールへのカーネルエントリポイント、システムコールからのカーネルイグジットポイント、glibcのラッパ関数、バグなど多くの点について説明します。要約システムコールとは？必要条件に関する情報ハードウェアとソフトウェアユーザプログラム、カーネル、CPUの特権レベル割り込みモデル固有レジスタ（MSR）アセンブリコードでシステムコールを呼び出すことの問題点レガシーシステムコール独自のアセンブリを用いたレガシーシステムコールの使用カーネル側での int $0x80 エントリポイント iret を使用したレガシーシステムコールからの復帰高速システムコール 3

amatuka 2016/07/29

リンク

ソフトウェアのための統計学 – 前編 | POSTD

ソフトウェア開発の原点は可能性の追求であり、不可能を可能にすることです。ひとたびソフトウェアが開発されると、エンジニアは次に程度という課題に向き合うことになります。企業向けのソフトウェアであれば、「速度はどれくらいか」と頻繁に問われ、「信頼性はどの程度か」という点が重視されます。ソフトウェアのパフォーマンスに関する質問に答え、さらには正しい内容を語る上で欠かせないのが統計学です。とはいえ、統計学について多くを語れる開発者はそうはいません。まさに数学と同じで、一般的なプロジェクトで統計学が話題に上ることなどないのです。では、新規にコーディングをしたり、古いコードのメンテナンスをしたりする合間に、手が空くのは誰でしょうか？エンジニアの方は、ぜひ時間を作ってください。近頃は、15分でも貴重な時間と言えるでしょうから、こちらの記事をブックマークに追加しておいてもいいでしょう。とに

amatuka 2016/06/02

リンク

DDoS攻撃の対処法 : FastMailがDDoS攻撃にとった対策と事後分析 | POSTD

このブログは、 FastMail 2015年アドベントカレンダーに掲載している8つ目の記事です。リンクをクリックすると全ての記事がご覧いただけます。先月、私たちはDDoS攻撃を受けました。その週、私たちはこの手の攻撃スタイル、そしてその防御法に関して多くを学びました。この記事では、私たちが学んだことや、あなたのサービスがDDoSの攻撃にあった時に何ができるかを説明したいと思います。私たちはどうしても皆さんにこのことを伝えたいのです。急いでいる時にこのような情報をまとめて探しだすのは簡単ではありません。あなたが既に攻撃にあっている場合は特に難しくなります。ここに掲載されていることが少しでも皆さんのお役に立てるようであれば、うれしい限りです。 DDoSとは？ “DDoS”とは”Distributed Denial-of-Service（分散型サービス妨害）”の略なのですが、これを理解す

amatuka 2016/01/17

リンク

C言語パズル集：Cにまつわる興味深い問題あれこれ | POSTD

ビジターの皆さんへ C言語に関心を寄せていただきありがとうございます。このページは、C言語の面白い問題、パズルのリストです。これまでに友人たちからeメールで送ってもらったり、本で読んだり、インターネットで見つけたり、あるいは自分でC言語でコーディングしていて気づいたりしたプログラムを集めました。多くのプログラムは、コンパイル、実行され、その振る舞いを示すものです。問題は大まかに次のカテゴリに分けられます。一般的なタイポエラー。C言語プログラマが頻繁に犯すミスであり、かつ追跡が困難。初見では非常に理解しがたい小さなプログラム。これらの問題は、他人が書いた優れたコードを読み解く良い訓練になります。また、全てにGnu/Linux/gccを使っています。掲載順は、それぞれの難易度とは関係ありません。問題解決の助けが必要な場合は、気軽に私に問い合わせてください。連絡先はこちらです。また、

amatuka 2015/07/24

リンク

はてなブックマーク

タグ

ブックマーク / postd.cc (21)

お知らせ

月間はてなブックマーク数ランキング（2024年9月）

今週のはてなブックマーク数ランキング（2024年9月第5週）

今週のはてなブックマーク数ランキング（2024年9月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス