Cybozu Meetup #6 大規模サービスを支える名脇役たちでの発表 https://cybozu.connpass.com/event/61329/
青野慶久氏がサイボウズの社長に就任した2005年の直後、同社社員の離職率は28%に急上昇した。危機感を覚えた青野氏が人事制度の見直しを図った結果、離職率は毎年下がり続け、10年には5%に低下、この3年間は5%弱で推移している。 なにが、サイボウズの離職率を下げる原動力になったのだろうか。去る6月25日、PwCあらた監査法人が都内で開いたセミナーで、青野氏は実情を明かした。 青野氏は、自らを「ITベンチャーを立ち上げたぐらいなので、ワーカホリックの類いの人間です。職場で死ねたら本望という感じで、夜も布団の中でパソコンの画面を見ながらまぶたが落ちる瞬間が、私にとってはエクスタシー」と自嘲気味に語る。 1997年の創業以降、同社の年間離職率は15~20%で推移してきた。この水準は、ITベンチャーでは決して珍しくない。 「ITベンチャーの平均離職率は20%ぐらいなので、『こんなもんだろう』と、さほ
多数のユーザーの行動記録からアテンション情報(注目されているデータが何か)をデータマイニングしたいというのは、大量のデータを扱っているウェブサイトにおいては自然と出てくる要求です。そこで、先月末にサービスを終了したサービス「パストラック」において使用していた、アクセスログから注目度(人気度)の高いウェブページや人名等のキーワードを抽出するためのアルゴリズムを紹介しておきたいと思います。 たとえばはてなブックマークのような、ユーザーの能動的な行為(「ブックマークする」という作業)から注目情報を抽出するのは決して難しいことではありません。それは、直近の一定期間内のブックマーク数=注目度、という前提が上手に機能するからです。現に、はてなブックマークの人気エントリーは、最近24時間程度の期間内にブックマークしたユーザー数の多い URL を降順で並べているように見受けられます。 しかし、アクセスログ
第2回自然言語処理勉強会@東京が 9/25 に行われます。 前回よりキャパの大きい会場&週末に参加募集が始まったばかりですが、早くもほぼ定員。 自然言語処理に興味のある人はぜひ。でも、計画的なドタキャンは運営の方にご迷惑がかかるのでやめてね。 今度の第2回でも出しゃばって発表させてもらう予定だが、第1回も「Web本文抽出 using CRF」という話をさせてもらった。 CRF(Conditional Randam Fields) を Web ページからの本文抽出に用いるという手法の提案という内容で、実際に動作する Python スクリプトもあわせて公開している。 資料: http://www.slideshare.net/shuyo/web-using-crf 実装: http://github.com/shuyo/iir/blob/master/sequence/crf.py http:
第2回自然言語処理勉強会@東京 にのこのこ行ってきました。 ありがとうございました&お疲れ様でした>各位。 今回も全然専門じゃあないのに「ナイーブベイズで言語判定」というタイトルで発表してきた。 ナイーブベイズによる言語判定 from Shuyo Nakatani 内容は、仕事で作った(←ここ重要)言語判定ライブラリの紹介。 前回の「本文抽出 using CRF」は検証プロトタイプであったわけだが、今回はオープンソースとして公開&最終的に製品に組み込むことを目標とした代物なので、「なんか良さげな感じ〜」だと駄目。目指すのは 50言語、99.うん%。 精度を上げるためにやれることならなんでもやる、というのがミッションなので、限りなく泥臭いことの積み重ねになる。 というわけでここ2ヶ月の積み重ねを資料にしてみたら、なんか膨大になってきて、また今回もしゃべりすぎてしまった(汗 楽しんでいただけた
どーもみなさま。こんにちは。 amachang と申します。 さて、ようやく ScaleBench というプロダクトが発表されましたね! ScaleBench のご紹介 で、僕もこれの開発に携わっていたのでちょっと技術的なことについて書いてみたいと思います。 ScaleBench とは ScaleBench とは、サイボウズ製品向けの負荷テストツールで Grinder というオープンソースの負荷テストツールをベースにしています。 Grinder とは Java を使った Web の負荷テストツールです。 Jython でシナリオ(ユーザがどう行動するか)を書いてそれを実行します。 またブラウザの操作を記録して、シナリオを自動で生成することもできたりします。 で、僕がこのプロジェクトで担当していたのが Grinder の改良、改造 シナリオ(バーチャルユーザがどのような順で負荷をかけていくか
■ サイボウズが再び「闇改修」をしたので電話で抗議したが無駄骨だった 結果を先に言うと、サイボウズ社はセキュリティポリシーによって、(アカウントを持つユーザからしか攻撃され得ないなどの)危険な状況が少ない脆弱性については告知するが、第三者から攻撃され得る脆弱性については告知しない(更新履歴やFAQには書いておくが積極的に知らせることをしない)という方針で、今回も、過去もそうしてきたし、今後もそうしていくつもりなのだという。 複数のサイボウズ製品にセキュリティ・ホール,情報漏洩などの恐れ, 日経IT Pro, 2006年8月28日 (1)は,細工が施されたリクエストを送信されると,公開を意図していないファイル(公開用フォルダに置いていないファイル)を表示してしまうセキュリティ・ホール(略) (2)は,Office 6に関するセキュリティ・ホール(略)。細工が施されたリクエストを送信されると,
Webページの自動カテゴライズ の続き。 前回書いたとおり、パストラックで行っている Web ページのカテゴライズでは、Web ページの本文抽出がひとつの鍵になっています。今回はその本文抽出モジュールを公開しつつ、使っている技法をざっくり解説などしてみます。 本モジュールの利用は至極簡単。require して analyse メソッドに解析したい html を与えるだけ。文字コードは UTF-8 です。 【追記】大事なこと書き忘れ。本モジュールは Ruby1.8.5 で動作確認していますが、特別なことはしていないので、1.8.x なら動くと思います。 $KCODE="u" # 文字コードは utf-8 require 'extractcontent.rb' # オプション値の指定 opt = {:waste_expressions => /お問い合わせ|会社概要/} ExtractCont
Hunchz は、クリエイティブ・コモンズのライセンスの付与された Flickr 内の写真を探索するためのサービスです。写真とタグ(日本語タグ翻訳機能付き)を辿りながら連想的な画像検索をすることが可能です。Hunchz は、クリエイティブ・コモンズのライセンスのもとで利用可能な Flickr 内の写真を探索するためのサービスです。あるときはスライドショーを楽しむようにして、あるときは言葉と写真を連想的にたどりながら、素敵な写真にめぐりあえるよう支援します。好きな食べ物、行ってみたい国、今のあなたの気分など、ぱっと頭に浮かんだ単語(日本語タグ翻訳機能つき)を入力して、画像の世界を探検してみてください。このサービス内の検索機能は Flickr API を、サービス内で表示されるテキストと写真画像は Flickr のコンテントを利用させて頂いております。また、検索時の和英翻訳辞書として、 Jim
Mylingual is an automatic translation service for web-based application user interfaces. Known as Japanize, it is already used by more than 25,000 users to browse websites like YouTube or del.icio.us in Japanese. All you need is a User JavaScript installed onto your PC (firefox extension is now under development), and the Web UI will be automatically translated. Download & Install To start using M
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く