muziyoshizのブックマーク (52)

  • Word2Vec で見つけられなかった自分らしさに fastText で速攻出会えた話 - GMOインターネットグループ グループ研究開発本部

    D. M. です。昨今はテキスト解析が非常にやりやすい時代になりました。チーム内でも活発に検証・活用されており、私も流れに乗って Word2Vec や Doc2Vec を触りだしましたが、参考になる日語の記事多いですね。よくあるのはニュース記事・青空文庫Wikipedia の解析ですが、各社の独自の文字列データ、しかも結構なサイズのデータをわせて関連語を出す記事などもあったりして、実利用可能かどうかは関係無しに楽しそうです。 やりたいこと 類語判定について、ウェブ上では既に相当いろんな種類の記事を上げられていて凄いなあと思いつつ、結構簡単に見えたので私も何か検証しようと思いました。ただ同じことをやってもあまり面白みが無いですし小規模でも始められるようなことを考えて、ひとまず自分の Twitter のつぶやきをわせて類語を見てみることにしました。今日はそんな初歩的な試みの紹介です。

    Word2Vec で見つけられなかった自分らしさに fastText で速攻出会えた話 - GMOインターネットグループ グループ研究開発本部
  • ロードバランサーとしてのnginx - GMOインターネットグループ グループ研究開発本部

    こんにちは、次世代システム研究室のN.O.です。 先日部内でnginxのproxy_next_upstreamの挙動についての共有があり、ロードバランサーとして設定する際に気をつけるポイントがあることを知りました。現在のプロジェクトでもちょうど環境を整備しているところでしたので、調べた結果を共有します。nginxを既に運用されている方にとっては何を今更、という内容ですがご了承ください。 ブログ時点でのnginxのバージョンは1.10.3です。 proxy_next_upstream ロードバランサーの設定を見る前にproxy_next_upstreamについて解説します。proxy_next_upstreamはロードバランス先となるupstreamのサーバがトラブルなどで応答出来ない時などに、別のサーバにリクエストを再送します。なお再送されるのはGETなどのメソッドとなっており、POST

    ロードバランサーとしてのnginx - GMOインターネットグループ グループ研究開発本部
    muziyoshiz
    muziyoshiz 2017/02/24
    個人的に最近 Nginx の upstream 設定でひどい落とし穴にはまったのでメモ
  • Nginx で POST データのログをフィルタする - GMOインターネットグループ グループ研究開発本部

    レガシープラットフォームの改善を担当している D. M. です。ログの重要性が高まる昨今皆さんはいかがお過ごしでしょうか。 モチベーション 私の担当するシステムでは、エンドユーザが画面を操作するリクエストや外部システムからの API リクエストを前段の Web サーバが一元的に受け付けています。この状況下でお問い合わせや不具合が発生した場合の調査をしやすくするために GET なり POST なりで受け取ったデータを全てログに出したいというニーズが出てきました。ですが、リクエストにはメアドやパスワードなどあまりログに残したくない情報も流れてきます。今回はそれらを Web サーバがフィルタする仕組みについて取り扱いたいと思います。 対象者 ・ Nginx を普通に使っているがそんなに凝ったことはしていない。 ・ Nginx ログをいじり倒したい。 やりたいこと 目的は以下の2つです。 ・Ngi

    Nginx で POST データのログをフィルタする - GMOインターネットグループ グループ研究開発本部
    muziyoshiz
    muziyoshiz 2017/01/17
    簡単にできそうだけど、実際やろうとするとなかなか大変なんだなあ……。
  • HDP 2.5.0 の Hive LLAP を試してみる - GMOインターネットグループ グループ研究開発本部

    こんにちは。次世代システム研究室で Hadoop 周辺をよく触っている T.O. です。 Hadoop 周辺をよく触っているので、最近 Hadoop 周辺を触ってきて得た話などを書いていきます。 少し前に HDP 2.5.0 が正式にリリースされました。 HDP 2.5.0 では、 Hive LLAP が Technical Preview 扱いではありますが、用意されています。ということで、今回はその Hive LLAP を試してみました。 Hive LLAP の紹介 Hive LLAP については、下記のページやスライドを読むと、敢えてこのエントリでまとめなおすまでもなく、理解が進むと思います。 https://cwiki.apache.org/confluence/display/Hive/LLAP LLAP: long-lived execution in Hive LLAP: S

    HDP 2.5.0 の Hive LLAP を試してみる - GMOインターネットグループ グループ研究開発本部
    muziyoshiz
    muziyoshiz 2016/10/03
    Impala とかに慣れると Hive はやっぱり遅いので、はやく LLAP 使えるようになってほしい……。
  • 文系データサイエンティストが実践している機械学習の勉強法 - GMOインターネットグループ グループ研究開発本部

    次世代システム研究室アーキテクト兼データサイエンティストのT.Nです。 私は文系卒ながらもデータサイエンティストという役割を頂いている、いわゆる「文系データサイエンティスト」です 「文系でもデータサイエンティストにはなれる」と言われていますし、私もそうだと思っています ただ「機械学習や統計の理論を知らなくてもいい」というわけではありません 程度の差はあれ理論学習なくてして、分析を実施することはやはり難しいかなと しかし数学知識や理論、統計学の裏付けが無いためどうやったらいいか途方に暮れることもあるかと思います そんな環境に直面した私が機械学習関連の理論を勉強した際の方法を記載しようかと思います 同じ悩みを抱えている方の参考にでもなれば幸いです 目的 私と同じように文系卒でデータサイエンティスト職に就いている方、もしくはこれから機械学習関連の勉強をしていこうとしている方に対して 私の勉強法

    文系データサイエンティストが実践している機械学習の勉強法 - GMOインターネットグループ グループ研究開発本部
  • ブロックチェーン技術の幕開け - GMOインターネットグループ グループ研究開発本部

    こんにちは、次世代システム研究室のN.O.です。 先日部内の研究発表会でブロックチェーンについての発表を行いましたので内容を共有したいと思います。 私の受け持ちとしてブロックチェーンの概要、またブロックチェーンを語るには欠かせないその発祥となったBitcoinについての説明を行いました。スライドのタイトルには「その未来」とありますが、未来の部分は今回は省略させていただきます。今後、別の機会で発表したいと思います。 イメージしやすいようにブロックチェーンを簡単な図にしたものです。 ブロックの中にトランザクションがこのように複数入ってます。 そこにブロックのヘッダとして前のブロックのヘッダのhashやnonce、マークルルートといったものが入ってます。 これらが一つになってブロックを成し、それらが鎖のように連なっていきます。 おおよそこのような形です。 ブロックのヘッダにはマークル木によって全

    ブロックチェーン技術の幕開け - GMOインターネットグループ グループ研究開発本部
    muziyoshiz
    muziyoshiz 2016/03/31
    記事中で Mastering Bitcoin の書評を紹介してもらいました
  • Java on Linux でのトラブルシューティング - GMOインターネットグループ グループ研究開発本部

    こんにちは。次世代システム研究室のY.I.です。 最近参画した歴史あるプロジェクトで行ったトラブルシューティングの話題です。 アプリケーションの概要は CentOS 上の Tomcat で動作するサーバサイド Java アプリケーションとなっています。 今回は 「メモリ不足によるトラブルの対処」と「Java スレッドがデッドロックしてしまった件」をどのように調べて解決したかをお伝えします。 ◆メモリ不足によるトラブルの対処について 連携先との兼ね合いで Tomcat サーバから Apache サーバへ ssh して連携媒体と通信する機能がありました。こちらが2日に1回程度エラーになり Tomcat を再起動するまで失敗し続けるという状況になっていました。 エラーログ ERROR [InitAction.postProcess:132] ssh error web server ip=192

    Java on Linux でのトラブルシューティング - GMOインターネットグループ グループ研究開発本部
    muziyoshiz
    muziyoshiz 2016/03/16
    トラブルシュート事例集。JVMのメモリ割り当てを減らしたら問題解決した、というのは珍しい事例ですね。
  • 実サービスで利用中のAnsible 1系をAnsible 2.0にアップグレードすると、何が起こるか? - GMOインターネットグループ グループ研究開発本部

    2016.03.11 実サービスで利用中のAnsible 1系をAnsible 2.0にアップグレードすると、何が起こるか? 次世代システム研究室の DevOps ネタ担当の M. Y. です。 今年の1月に、構成管理ツール Ansible のメジャーバージョンアップ版である Ansible 2.0 がリリースされました。 この Ansible 2.0 では今後の機能追加を容易にするために、内部構造がほぼ一から書き直されています。その成果として、複数のタスクをまとめる block 構文や、200個を超える新規モジュールなど、多数の機能が追加されました。その一方、既存の playbook(処理内容が書かれた YAML ファイル)との後方互換性を維持することも、Ansible 2.0 の大きなゴールとして謳われています。 私たちも、いくつかのサービスで Ansible を実際に使用しており、そ

    実サービスで利用中のAnsible 1系をAnsible 2.0にアップグレードすると、何が起こるか? - GMOインターネットグループ グループ研究開発本部
  • データベースのタイムゾーン付型について調べてみた - 今日もプログラミング

    embulk-input-jdbcでこんな問題が上がっていたので、データベースのタイムゾーン付の型について調べてみた。 MySQL (5.6) ドキュメントを見ると、TIMESTAMP型はタイムゾーンに対応しているらしい。 DB内ではUTC、クライアント側ではtime_zoneシステム変数で指定されたタイムゾーンになるようだ。 実際に試してみる。 mysql> show variables like '%time_zone%'; +------------------+-------+ | Variable_name | Value | +------------------+-------+ | system_time_zone | UTC | | time_zone | UTC | +------------------+-------+ 2 rows in set (0.19 sec

    データベースのタイムゾーン付型について調べてみた - 今日もプログラミング
  • 表現の自由を売り渡すくらいなら軽減税率なんぞ叩っ返せ | p2ptk[.]org

    実にふざけた話である。 軽減税率:有害図書、出版業界で線引きを 菅官房長官 – 毎日新聞 要するに、出版物に軽減税率を適用させるなら、「有害図書」を対象から外すということである。ただし、政府が「有害図書」を決めると検閲にあたるから、出版業界自らが生け贄を差し出せと。 菅義偉官房長官は、「出版界が自主規制し、例えば議員立法という形で、国民から見てなるほどという線引きが必要だ」と発言しているが、立法に反映することを前提として求められる「自主」規制とは何なのか。そんなものはただの責任のアウトソーシングであって、来追うべき責任を回避せんとする目眩ましにすぎない。 そもそも「有害図書」などという言葉自体、実にレッテルに満ちたものなのだ。あくまでも「青少年の健全な育成に有害な(影響があるという社会共通の認識がある)図書」である。世間では天動説を信じられているからそうなのだというレベルの脆弱な根拠にも

    表現の自由を売り渡すくらいなら軽減税率なんぞ叩っ返せ | p2ptk[.]org
  • 16年間うごいているWebアプリケーションが抱えていた技術的負い目を考察する | GMOメディア エンジニアブログ

    技術推進室の浅井です。 技術的負い目とは、世に言う技術的負債のことです。 社内で技術的負債の定義、ことばの表現を考える中で、「『負債』は優れた比喩表現であるものの、第三者への返済義務がない点で会計上の負債とは異なり、言葉としての問題も多く、不必要な議論を生み出しやすい」などの指摘があり、代わりの表現として社内の一部で使われている言い回しです。 最近社内のたいへん古いシステム(16年の歴史があります)の技術推進を行う機会があり、たくさんの技術的負い目と向き合いました。 そのような古いシステムの技術的負い目と向き合ったとき、エンジニアはストレスを感じ、ネガティブな感情を抱いてしまいがちです。負い目に苦しめられることで過去のコードや技術的判断に対して不満を言いたくなる気持ちはとてもよくわかりますし、実際に私もたくさん苦しんでたくさん不満を言いました。 ですが技術的負債の文脈でよく言われるとおり、

  • otto devで使用されるVagrantのboxファイルを変更する - demiglacesource’s diary

    先日HashiCorp社の新プロダクト、ottoがリリースされました。 Vagrant の後継ツールという位置付けであるということで、Vagrant 好きの自分はすぐに飛びついてみます。 otto のインストール まずは otto をインストールしましょう。 とはいえ otto もワンバイナリのツールであるため、ダウンロードしてきたモジュールをパスの通った場所に保存すれば全て完了です。 $ sudo mv otto /usr/local/bin/ $ otto usage: otto [--version] [--help] <command> [<args>] Available commands are: build Build the deployable artifact for the app compile Prepares your project for being run

    otto devで使用されるVagrantのboxファイルを変更する - demiglacesource’s diary