[B! cybozu] manboubirdのブックマーク

manboubird id:manboubird

cybozuに関するmanboubirdのブックマーク (12)

サイボウズのサービスを支えるログ基盤
Cybozu Meetup #6 大規模サービスを支える名脇役たちでの発表 https://cybozu.connpass.com/event/61329/
manboubird 2017/07/26
Kafka

cybozu

slide
リンク
GitHub - walb-linux/walb-driver: Linux block device driver with write-ahead logging functionality for backup and replication.
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
manboubird 2017/01/30
linux

backup

walb

cybozu
リンク
職場環境劣悪だったITベンチャー、なぜ離職率激減？再入社可、副業自由、社長も育休…
青野慶久氏がサイボウズの社長に就任した2005年の直後、同社社員の離職率は28％に急上昇した。危機感を覚えた青野氏が人事制度の見直しを図った結果、離職率は毎年下がり続け、10年には5％に低下、この3年間は5％弱で推移している。なにが、サイボウズの離職率を下げる原動力になったのだろうか。去る6月25日、PwCあらた監査法人が都内で開いたセミナーで、青野氏は実情を明かした。青野氏は、自らを「ITベンチャーを立ち上げたぐらいなので、ワーカホリックの類いの人間です。職場で死ねたら本望という感じで、夜も布団の中でパソコンの画面を見ながらまぶたが落ちる瞬間が、私にとってはエクスタシー」と自嘲気味に語る。 1997年の創業以降、同社の年間離職率は15～20％で推移してきた。この水準は、ITベンチャーでは決して珍しくない。「ITベンチャーの平均離職率は20％ぐらいなので、『こんなもんだろう』と、さほ
manboubird 2015/07/14
humanResource

cybozu
リンク
Kazuho@Cybozu Labs: アクセスログからアテンション（注目情報）をデータマイニングする手法について
多数のユーザーの行動記録からアテンション情報（注目されているデータが何か）をデータマイニングしたいというのは、大量のデータを扱っているウェブサイトにおいては自然と出てくる要求です。そこで、先月末にサービスを終了したサービス「パストラック」において使用していた、アクセスログから注目度（人気度）の高いウェブページや人名等のキーワードを抽出するためのアルゴリズムを紹介しておきたいと思います。たとえばはてなブックマークのような、ユーザーの能動的な行為（「ブックマークする」という作業）から注目情報を抽出するのは決して難しいことではありません。それは、直近の一定期間内のブックマーク数＝注目度、という前提が上手に機能するからです。現に、はてなブックマークの人気エントリーは、最近24時間程度の期間内にブックマークしたユーザー数の多い URL を降順で並べているように見受けられます。しかし、アクセスログ
manboubird 2010/12/04
algorithm

ranking

cybozu
リンク
「Web本文抽出 using CRF」の学習用データの作り方 - 木曜不足
第２回自然言語処理勉強会＠東京が 9/25 に行われます。前回よりキャパの大きい会場＆週末に参加募集が始まったばかりですが、早くもほぼ定員。自然言語処理に興味のある人はぜひ。でも、計画的なドタキャンは運営の方にご迷惑がかかるのでやめてね。今度の第２回でも出しゃばって発表させてもらう予定だが、第１回も「Web本文抽出 using CRF」という話をさせてもらった。 CRF(Conditional Randam Fields) を Web ページからの本文抽出に用いるという手法の提案という内容で、実際に動作する Python スクリプトもあわせて公開している。資料: http://www.slideshare.net/shuyo/web-using-crf 実装: http://github.com/shuyo/iir/blob/master/sequence/crf.py http:
manboubird 2010/10/01
informationExtraction

CRF

algorithm

implementation

python

cybozu
リンク
自然言語処理勉強会で「ナイーブベイズによる言語判定」を発表してきました - 木曜不足
第2回自然言語処理勉強会＠東京にのこのこ行ってきました。ありがとうございました＆お疲れ様でした＞各位。今回も全然専門じゃあないのに「ナイーブベイズで言語判定」というタイトルで発表してきた。ナイーブベイズによる言語判定 from Shuyo Nakatani 内容は、仕事で作った(←ここ重要)言語判定ライブラリの紹介。前回の「本文抽出 using CRF」は検証プロトタイプであったわけだが、今回はオープンソースとして公開＆最終的に製品に組み込むことを目標とした代物なので、「なんか良さげな感じ〜」だと駄目。目指すのは 50言語、99.うん%。精度を上げるためにやれることならなんでもやる、というのがミッションなので、限りなく泥臭いことの積み重ねになる。というわけでここ2ヶ月の積み重ねを資料にしてみたら、なんか膨大になってきて、また今回もしゃべりすぎてしまった(汗楽しんでいただけた
manboubird 2010/10/01
cybozu

languageDetection

slide

java

lib
リンク
Google Code Archive - Long-term storage for Google Code Project Hosting.
Code Archive Skip to content Google About Google Privacy Terms
manboubird 2010/10/01
java

languageDetection

lib

cybozu
リンク
Cybozu Inside Out: ScaleBench 公開
どーもみなさま。こんにちは。 amachang と申します。さて、ようやく ScaleBench というプロダクトが発表されましたね！ ScaleBench のご紹介で、僕もこれの開発に携わっていたのでちょっと技術的なことについて書いてみたいと思います。 ScaleBench とは ScaleBench とは、サイボウズ製品向けの負荷テストツールで Grinder というオープンソースの負荷テストツールをベースにしています。 Grinder とは Java を使った Web の負荷テストツールです。 Jython でシナリオ（ユーザがどう行動するか）を書いてそれを実行します。またブラウザの操作を記録して、シナリオを自動で生成することもできたりします。で、僕がこのプロジェクトで担当していたのが Grinder の改良、改造シナリオ（バーチャルユーザがどのような順で負荷をかけていくか
manboubird 2010/05/20
loadTesting

java

tool

oss

grinder

scaleBench

cybozu
リンク
高木浩光＠自宅の日記 - サイボウズが再び「闇改修」をしたので電話で抗議したが無駄骨だった
■ サイボウズが再び「闇改修」をしたので電話で抗議したが無駄骨だった結果を先に言うと、サイボウズ社はセキュリティポリシーによって、（アカウントを持つユーザからしか攻撃され得ないなどの）危険な状況が少ない脆弱性については告知するが、第三者から攻撃され得る脆弱性については告知しない（更新履歴やFAQには書いておくが積極的に知らせることをしない）という方針で、今回も、過去もそうしてきたし、今後もそうしていくつもりなのだという。複数のサイボウズ製品にセキュリティ・ホール，情報漏洩などの恐れ, 日経IT Pro, 2006年8月28日（1）は，細工が施されたリクエストを送信されると，公開を意図していないファイル（公開用フォルダに置いていないファイル）を表示してしまうセキュリティ・ホール（略）（2）は，Office 6に関するセキュリティ・ホール（略）。細工が施されたリクエストを送信されると，
manboubird 2007/12/18
cybozu

security
リンク
Webページの本文抽出 (nakatani @ cybozu labs)
Webページの自動カテゴライズの続き。前回書いたとおり、パストラックで行っている Web ページのカテゴライズでは、Web ページの本文抽出がひとつの鍵になっています。今回はその本文抽出モジュールを公開しつつ、使っている技法をざっくり解説などしてみます。本モジュールの利用は至極簡単。require して analyse メソッドに解析したい html を与えるだけ。文字コードは UTF-8 です。【追記】大事なこと書き忘れ。本モジュールは Ruby1.8.5 で動作確認していますが、特別なことはしていないので、1.8.x なら動くと思います。 $KCODE="u" # 文字コードは utf-8 require 'extractcontent.rb' # オプション値の指定 opt = {:waste_expressions => /お問い合わせ|会社概要/} ExtractCont
manboubird 2007/10/31
Extract body

lib

textMining

cybozu

crf

ruby
リンク
Hunchz - Explore tags and images
Hunchz は、クリエイティブ・コモンズのライセンスの付与された Flickr 内の写真を探索するためのサービスです。写真とタグ（日本語タグ翻訳機能付き）を辿りながら連想的な画像検索をすることが可能です。Hunchz は、クリエイティブ・コモンズのライセンスのもとで利用可能な Flickr 内の写真を探索するためのサービスです。あるときはスライドショーを楽しむようにして、あるときは言葉と写真を連想的にたどりながら、素敵な写真にめぐりあえるよう支援します。好きな食べ物、行ってみたい国、今のあなたの気分など、ぱっと頭に浮かんだ単語（日本語タグ翻訳機能つき）を入力して、画像の世界を探検してみてください。このサービス内の検索機能は Flickr API を、サービス内で表示されるテキストと写真画像は Flickr のコンテントを利用させて頂いております。また、検索時の和英翻訳辞書として、 Jim
manboubird 2007/09/30
image

search

flickr

mashup

cybozu
リンク
Mylingual
Mylingual is an automatic translation service for web-based application user interfaces. Known as Japanize, it is already used by more than 25,000 users to browse websites like YouTube or del.icio.us in Japanese. All you need is a User JavaScript installed onto your PC (firefox extension is now under development), and the Web UI will be automatically translated. Download & Install To start using M
manboubird 2007/09/30
internationalization

tool

web

cybozu
リンク
1