タグ

ブックマーク / d.hatena.ne.jp/nokuno (12)

  • 評判辞書の中身を覗いてみた - nokunoの日記

    先日のにこにこテキストマイニング勉強会で、東工大の高村大也先生の「単語感情極性対応表」が話題になりました。PN Tableそこでこの辞書(仮に評判辞書と呼びます)を覗いてみます。wget http://www.lr.pi.titech.ac.jp/~takamura/pubs/pn_en.dicwget http://www.lr.pi.titech.ac.jp/~takamura/pubs/pn_ja.dicwc pn_ja.dic 55125 59133 1723987 pn_ja.dicwc pn_en.dic 88015 88015 1931411 pn_en.dicnkf -w pn_ja.dic > utf8.dicまず、辞書の上位を見てみると「優れる」を筆頭にポジティブな単語が並んでいます。less pn_ja.dic優れる:すぐれる:動詞:1良い:よい:形容詞:0.9999

  • 簡潔データ構造つくってみた - nokunoの日記

    id:echizen_tmさんの記事がわかりやすかったので作って(というかコピペして)みました.簡潔データ構造超入門 〜つくって学ぶ簡潔ビットベクトル〜 - EchizenBlog-Zwei PopCountの計算方法については,先日サイボウズ・ラボで行われたx86最適化勉強会で@takesakoさんが発表した資料がおすすめです.SSE4.2はええーx86x64 SSE4.2 POPCNT succinct_bit_vector.h unsigned long long PopCount64(unsigned long long x) { x = ((x & 0xaaaaaaaaaaaaaaaaULL) >> 1) + (x & 0x5555555555555555ULL); x = ((x & 0xccccccccccccccccULL) >> 2) + (x & 0x33333333

  • アクセスログ解析の実験にはNASAのデータセットが便利 - nokunoの日記

    アクセスログ解析の実験をしています.以前にも見かけた気がするのですが,ACMのSIGCOMMというコミュニティのサイトでWebのアクセスログやトラフィックのログが公開されています. Traces In The Internet Traffic Archive この中でデータサイズが大きいのはWorldCup98やUBCのログなのですが,フォーマットがバイナリだったりURLが匿名化されていて何がなんだか分からなかったりで微妙に実データと違っていて使いづらかったりしました.1998 World Cup Web Site Access LogsUC Berkeley Home IP Web Traces - 18 daysそんなわけで,生のApacheログ形式で比較的サイズの大きい実験データとしては,NASAのデータセットが便利そうです. NASA-HTTP - Two Months of HT

  • 大規模データを無料で手に入れることのできるサイトまとめ - nokunoの日記

    大規模データが公開されているサイトについて以下のQuoraでid:makimotoさんが質問していました。Data: Where can I get large datasets open to the public? - Quora以下、紹介されているサイトの一覧です。一部有料のものもあるようです。UCI Machine Learning RepositoryPublic Data Sets : Amazon Web ServicesCRAWDADno titleCity of Chicago | Data PortalGovLoop | Social Data Network for Governmentdata.gov.uk | Opening up governmentData.Medicare.GovData.Seattle.Gov | Seattle’s Data SiteOp

  • Evernoteのアーキテクチャ概要 - nokunoの日記

    みなさん、Evernoteは使っていますか? Evernoteは「全てを記憶する」が合言葉のメモアプリで、クラウド上にデータを保存してWin/Mac/iPhone/Webから共通のデータにアクセスしたり同期したりできるのが特徴の便利なサービスです。開発元はシリコンバレーの会社ですが、日人のユーザも非常に多いそうで、Evernoteの使い方についての記事は日語でも星の数ほどありますのでここでは触れません。 今回は、そのEvernoteの裏側のシステム概要を解説する記事が今月開設されたばかりの技術ブログに公開されていましたので、翻訳してみました。Architectural Digest | Evernote Tech Blog はじめにこのブログの手始めとして、Evernoteの構築について大雑把な概要を述べる。ここではそれぞれのコンポーネントの詳細に踏み込むことはしない。それらについての

  • 【これはすごい】Twitter検索を3倍高速化した記事の翻訳 - nokunoの日記

    これはすごい! というわけでTwitter検索を3倍高速化したという記事を翻訳してみました。Twitter Engineering: Twitter Search is Now 3x Faster2010年春。Twitterの検索チームは、我々の増え続けるトラフィックに対応し、エンドユーザにとっての遅延を減らし、我々のサービスの可用性を向上させ、新しい検索の機能を素早く開発できるようにするため、検索エンジンを書きなおす作業を始めた。 その努力の一部として、我々は新しいリアルタイム検索をリリースし、検索のバックエンドをMySQLからLuceneのリアルタイム版に変更した。そして先週、我々はRuby-on-Railsに取って代わるフロントエンドをローンチした。我々がBlenderと呼ぶJavaサーバーである。我々はこの変更によって検索のレイテンシが3分の1になり、検索機能の開発を促進できるよう

  • Facebookの新しいリアルタイム解析システムとは? - nokunoの日記

    Facebookの新しいリアルタイム解析のシステムでは、HBaseで1日200億件のイベントを処理しているそうです。以下の記事の翻訳です。High Scalability - High Scalability - Facebook’s New Realtime Analytics System: HBase to Process 20 Billion Events Per DayFacebookがまたやってくれた。彼らは巨大なリアルタイムデータのストリームを処理するもう1つのシステムを構築したのだ。以前にもFacebookはリアルタイムなメッセージシステムをHBaseで構築している(http://highscalability.com/blog/2010/11/16/facebooks-new-real-time-messaging-system-hbase-to-store-135.ht

  • 動的計画法再入門(1) - nokunoの日記

    プログラミングコンテストチャレンジブックを読みながら、動的計画法の復習をしています。プログラミングコンテストチャレンジブックこのはコンテストの紹介とか環境構築の説明はほとんどなく、普通にアルゴリズムの教科書として優れているのでタイトルに騙されないようにしましょう(笑)。それはさておき、この記事ではp.52のナップサック問題を例に、動的計画法の考え方と実装方法について検討してみます。 ナップサック問題重さと価値がそれぞれw_i, v_iであるようなn個の品物があります。これらの品物から、重さの総和がWを超えないように選んだ時の、価値の総和の最大値を求めなさい。制約:1 1 1 <例>入力:n = 4(w, v) = {(2,3), (1,2), (3,4), (2,2)}出力:7 (0,1,3番の品物を選ぶ) 方法1最初に書いたコードがこれです。再帰による全探索で、荷物を左から順番に選んで

  • 第9回 データマイニング+WEB 勉強会@東京に参加してきた - nokunoの日記

    というわけで行ってきました。第9回 データマイニング+WEB 勉強会@東京 ( TokyoWebmining 9)?1st Week? 大規模解析・機械学習・クオンツ 祭り? : ATNDFirst Weekって。■大規模解析:1. Mahout Canopy Clustering (講師:@hamadakoichi)(発表30分+議論60分) Canopy Clusteringは通常の多くの手法と異なり、クラスタ数指定を必要とせず、指定距離 離れたクラスタ算出を実現する。 Hadoop上で動作する大規模データマイニング・機械学習ライブラリ Mahoutでの実行法も含めお話しします2. 機械学習=機械の代わりに人間が学習 (講師:@shuyo))(発表20分+議論40分) Gihyo.jp でも機械学習の連載し裾野を広げる活動をされている @shuyo さん。 今回、機械学習歴史や専門外

  • 目標の立て方 - nokunoの日記

    Rubyで有名なまつもとゆきひろによると、目標には短期的な目標と長期的な目標があるそうです。そこで、ここでは主に数ヶ月の短期的な目標を立てる時に気をつけることや書き方について考えてみたいと思います。 やりたい事と必要な事をまとめるまず基は自分がやりたい事と、必要な事をまとめることから始めます。やりたい事とは、自分の長期的な目標に向けて歩みを進めるための作業です。必要なこととは、事務的な作業や周囲に必要とされる作業です。やりたい事と必要な事は一致していることもありますし、一致していないこともあります。個人的には、それらが一致している状態が好ましく思えるため、その状態を実現できるように、またはその状態を維持できるように振る舞います。 スケジュールを立てるその期間で目標を達成するために、その期間をいくつかに分けてその間に実行することのスケジュールを立てると良いと思います。締切りが決まっている作

  • 統計的自然言語処理エンジンStaKK - nokunoの日記

    統計的自然言語処理エンジンStaKK を開発しました。nokuno’s stakk at master - GitHub 以下、READMEからの引用です。 現在の機能 かな漢字変換 予測変換 または サジェスト スペル訂正 形態素解析 HTTPによるAPIサーバ Trieの直接操作現在は、StaKK は辞書として Mozc (Google日本語入力のOSS版)のデータを使っています。 リバースモードについてStaKK はノーマルモードとリバースモードの2つのモードを持っています。 ノーマルモードでは、かなを入力し、単語(主に漢字)を出力します。 リバースモードでは、単語を入力し、読みや品詞を出力します。これらの2つのモードの応用例をまとめると、次の表のようになります。 機能 ノーマルモード リバースモード Convert かな漢字変換 形態素解析 Predict 予測変換 検索ワードのサ

  • ウェブ系エンジニアがおさえておきたい技術ブログまとめ(海外編) - nokunoの日記

    こんな記事を見かけたので、海外編を考えてみました。ウェブ系エンジニアがおさえておきたい技術ブログまとめ - Meltdown Countdown例によって特定の分野に趣味嗜好が偏っている可能性があります。あと企業ブログに限りません。あとウェブ系に限りません。っておいおい。 企業系 Official Google BlogOfficial Google Research BlogThe Twitter Engineering BlogFacebook Engineeringさんのノート | FacebookYahoo! Hadoop BlogBlog « Cloudera » Apache Hadoop for the Enterprise クラウド・データマイニング系 myNoSQLRevolutionsmloss | Page not foundData Center Knowledge

  • 1