タグ

ブックマーク / d.hatena.ne.jp (99)

  • Evernoteのアーキテクチャ概要 - nokunoの日記

    みなさん、Evernoteは使っていますか? Evernoteは「全てを記憶する」が合言葉のメモアプリで、クラウド上にデータを保存してWin/Mac/iPhone/Webから共通のデータにアクセスしたり同期したりできるのが特徴の便利なサービスです。開発元はシリコンバレーの会社ですが、日人のユーザも非常に多いそうで、Evernoteの使い方についての記事は日語でも星の数ほどありますのでここでは触れません。 今回は、そのEvernoteの裏側のシステム概要を解説する記事が今月開設されたばかりの技術ブログに公開されていましたので、翻訳してみました。Architectural Digest | Evernote Tech Blog はじめにこのブログの手始めとして、Evernoteの構築について大雑把な概要を述べる。ここではそれぞれのコンポーネントの詳細に踏み込むことはしない。それらについての

  • ヤコビアンについて調べた - nokunoの日記

    社内でPRML勉強会が始まり、1.2.1節の確率密度の変数変換のところで多変数の変換が説明されていないのに不満を持ちました。連続値をとる確率変数を変数変換すると、領域を引き伸ばしたり縮めたりするので確率密度が変化します。領域をa倍拡大すれば、密度は1/aに薄まり、逆に縮めれば密度は上がります。このときの拡大率は変数が1次元か多次元か、射影が線形か一般かで次のような表にまとめられます。 射影 1次元 多次元 線形 傾き 行列式 一般 微分 ヤコビアン ヤコビアンが一番一般的なケースとなります。ヤコビ行列 - Wikipedia ツイートする

  • C++を鍛え直す - nokunoの日記

    関数全体をtryで囲む int main() try { // 関数内のすべての例外をキャッチできる ... } catch () { ... } 無名名前空間C言語ではグローバル変数にstaticを付けるとファイル内変数になりましたが、C++では無名名前空間を使うことで同じ事を明示的に書くことができます。 namespace { // この中の変数は他のファイルから参照できない int i; } newのバリエーションデフォルトのnew演算子はメモリ確保に失敗するとstd::bad_alloc型の例外を投げるようになっていますが、std::nothrowを使うとNULLを返すようにできます。これは便利! int* p = new(std::nothrow) int; delete p; ※Effective C++によると、nothrow型のnewはメモリ確保に失敗しても例外を投げないも

    overlast
    overlast 2011/05/13
  • 転職・就職エントリまとめ - nokunoの日記

    4月です。変化の季節ですね。というわけで4月に身辺が変化した人のエントリの個人的なまとめです(順不同)。参考:大学か企業か? →求められるところならどこでも - 生駒日記 @unnonounoさん:IBM基礎研からPFIへ。 @smlyさん:はてなとNAISTの社会人ドクターへ。 @shiumachiさん: Clouderaへ。 @doryokujinさん:アルバイトからそのまま中途採用で芸者東京へ。 @issei_satoさん:東大の助教に着任。 @chokkanorgさん:東北大の准教授に着任。 @murawakiさん:特定助教に着任。 持橋さん:統計数理研究所 准教授 (モデリング研究系)に着任。 @caesar_wanyaさん:博士課程へ。 @just_do_neetさん:3月からNAVERへ。 @yanbeさん:はてなに就職。自分はしばらく企業でエンジニアとしてやっていくつもりで

    overlast
    overlast 2011/04/19
  • 高頻度な事象は人間が見れば良い、技術者や研究者は低頻度な事象を扱うべき - nokunoの日記

    タイトルの言葉のようなことがNLP blogに書かれていました。natural language processing blog: Seeding, transduction, out-of-sample error and the Microsoft approach...適当な翻訳MicrosoftでインターンをしていたときにEric Brillが言っていたことを思い出す。ウェブ検索の仕事をしていたときだったが、彼は最も頻度の高い1000個のクエリはほとんど気にしないというのだ。Microsoftはいつでもこれらのクエリを人手でうまく処理できるだけのアノテータを雇うことができる。それに実際に行われていることだ。だから我々が気にするべきなのは大部分の低頻度なクエリで、人間のアノテータが処理しきれないほどの種類があるからだ。これは今回と同じ状況だ。我々は新しい言語のために1000個のシード

  • 第2回さくさくテキストマイニング勉強会に参加しました #sakuTextMining - nokunoの日記

    というわけで、第2回さくさくテキストマイニング勉強会にさくさく参加してきました。会場は前回に引き続きオラクルさん、の大会議室。200人入るらしい。節電中にも関わらず変わらずに無償のドリンクをご提供頂きありがとうございます(そこか。 言語処理学会へ遊びに行ったよ! 〜不自然言語処理へのお誘い〜 by @AntiBayesianさん 自己紹介 発表の目的 学会で得た実務に使えそうな内容を紹介 不自然言語処理へのお誘い 学会へ遊びに行こう! 学会に行けば、最新の情報がわんさか手に入る! 仕事してもらったり仕事もらったり 必ずチェックすべき10のブログ(易しい順) id:langstat, id:a_bicky, id:sleepy_yoshi, id:echizen_tm, id:overlast, id:isseing333, id:phosphor_m, id:nokuno, id:mick

    overlast
    overlast 2011/04/19
  • 第5回自然言語処理勉強会を開催します! #TokyoNLP - nokunoの日記

    というわけで、第5回自然言語処理勉強会を開催します!第5回 自然言語処理勉強会 #TokyoNLP : ATND参加登録は上記ATNDからお願いします。 概要自然言語処理(Natural Language Processing, NLP)に関する勉強会です。理論と実践の両面から深く学び、発表と議論を通じて共有していくことを目的としています。 発表内容第5回の発表内容です。今回もいつも通り濃い内容となっております。気合を入れて勉強しましょう! 発表者 発表タイトル @machyさん n-gramを小さくする話を調べてみた @tsubosakaさん Infer.NETを使ってLDAを実装してみた @sleepy_yoshiさん パーセプトロンで楽しい仲間がぽぽぽぽーん @shuyoさん はじめての生成文法@nokuno スペル訂正エンジンについてのサーベイ 参加条件連絡のため、Googleグル

    overlast
    overlast 2011/04/19
  • 情報処理学会誌の特集「全国技術系勉強会マップ」に自然言語処理勉強会が掲載されました - nokunoの日記

    というわけで、情報処理学会誌No.4・5の特集「全国技術系勉強会マップ」に自然言語処理勉強会が掲載されました。 もともとはCV勉強会を主催されている@takminさんの紹介で、企画責任者の@hdkworksさんにつないでいただいて、激戦区の東京エリアで1ページ割いていただくことになりました。ページ数の関係で声をかけられなかった@naoya_tさんのPRML読書会や@hamadakoichiさんのデータマイニング+Web勉強会についても最初のところで触れています。近くの中華屋で事。ツイートする

    overlast
    overlast 2011/04/19
  • 就職も進学もあるんだよ - Standard ML of Yukkuri

    株式会社はてなエンジニアとして入社しました. 同時に奈良先端科学技術大学院大学の博士後期課程に進学しました.私はエンジニアリングが大好きで, 大学院で研究がしたいと考えるようになったのも, それが大きく影響しているのだと思います. 小さなエンジニアリングの積み重ねによりサービスの品質を上げ, この便利なサービス(機能)は中でどのような仕組みになっているのだろう, と言わせたいです.また, 大学院で身につけた専門分野の知識をディスカッションなどを通じて役立てることができたら幸いです. そしていずれは社内で「自然言語処理と機械学習のことなら俺に聞け」と言えるようになれたらいいですね....ところで, 入社の前日が論文締切りだったことも手伝って, 初日からさっそく居眠りをしてしまいました. ごめんなさい.

  • テキスト入力のワークショップがあります #IJCNLP2011 - nokunoの日記

    2011/11/8-13にタイのチェンマイで開催される、アジア最大の自然言語処理に関する国際会議「IJCNLP」において、テキスト入力のワークショップが行われます。IJCNLP2011 The 5th International Joint Conference on Natural Language Processing - Front Workshop on Advances in Text Input Methodsというわけでワークショップの情報を翻訳してみました。 論文募集(投稿締切:2011年6月17日)テキスト入力の技術は新しい時代に入りました。母国語の文字を直接タイプして入力できない地域では、コンピュータやモバイルデバイスを利用する人が急増しています。またキーボード以外の方法、例えば音声認識や手書き認識によってテキストを入力することも徐々に一般的になってきました。キーボード

    overlast
    overlast 2011/04/05
  • NHKのラジオ英語番組がすごい - nokunoの日記

    NHKのラジオ英語番組がすごい。2009年から無料でサイト上でのストリーミング配信を行っています。NHK語学番組ストリーミングに対応している番組は以下のようなものがあります。NHK語学番組 | 基礎英語1 |NHK語学番組 | 基礎英語2 |NHK語学番組 | 基礎英語3 |NHK語学番組 | 英語5分間トレーニング |NHK語学番組 | ラジオ英会話 |NHK語学番組 | 入門ビジネス英語 |NHK語学番組 | 実践ビジネス英語 | 検索するといろいろな人がおすすめしていました。NHKラジオ英語講座でTOEICスコアアップ!TOEIC950点突破とその先へ 2011年度NHKラジオ英語講座このサイトのことは知っていたのですが、今までPodcastやradikoのようにiPhoneで聞く手段が分かりませんでした。Twitterで教えてもらったのですが、以下のツールを使うとダウンロードしたm

  • シリコンバレーカンファレンスの感想まとめ - nokunoの日記

    シリコンバレーカンファレンスから約1ヶ月。4月に入って地震による自粛ムードも薄れてきたのか、参加者のブログが一定数たまってきたようなのでまとめてみます。シリコンバレーカンファレンス 2011 感想 - ikeyasukiの日記シリコンバレーからのお便り: JTPA カンファレンス 2011:Overview シリコンバレー企業と人材 〜IDEO、GoogleApple、Facebook、Twitter等を訪問して〜 - ほぼ週刊 MBA留学ノート と シリコンバレー企業に見る企業の成長ステージ 〜TwitterからFacebook、そしてGoogleへ - ほぼ週刊 MBA留学ノートSVC2011いってくるぜ - ユメモヤ7SVC2011 シリコンバレーから その1 - hat-tunの日記 から SVC2011 シリコンバレーから その11 - hat-tunの日記までLike a S

    overlast
    overlast 2011/04/05
  • Luceneの曖昧検索を100倍高速化したアルゴリズム - nokunoの日記

    @nobu_k さんのつぶやきでこのエントリを知りました。Changing Bits: Lucene’s FuzzyQuery is 100 times faster in 4.0Luceneで曖昧検索を効率化した話です。 最初の実装では、転置インデックスを全探索して編集距離がN以下の単語を拾っていたレーベンシュタインオートマトンという、編集距離がN以下の単語のみをアクセプトするオートマトンを利用することにした 単語ごとに構築したレーベンシュタインオートマトンをマージするという操作が必要になるが、なかなかうまくいかなかった 難解な論文を見つけたが、実装は難しかった良いライブラリを見つけたので、PythonからJavaに移植した 最後に1つだけ残ったバグは、移植の失敗ではなく元ライブラリのバグだった。報告すると1日で直ってきた。この前のエントリでは、有限状態トランスデューサを使った辞書の圧縮

  • 第10回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining 10th)−1st Week−広告ネットワーク・グラフ解析・並列機械学習 祭り− - nokunoの日記

    第10回#TokyoWebminingに参加してきました。第10回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining 10th)?1st... - Eventbrite オープニング @hamadakoichihamadaさんの話はHadoopカンファレンスからの抜粋を含んでいたのですが、いつもの双方向の進行により議論が進み、時間が伸びるというパターンで安心しましたw 1. 「エンジニアのためのアドテクノロジー再入門:アドテクの基礎からRealTimeBiddingまで」 (講師: @jazzyslide)(発表:30分 + 議論30分)大規模配信•解析技術によるターゲティング技術、オーディエンス(ユーザー)データによる配信などで近年話題になっているアドテクノロジーの全体観を、アドエクスチェンジやReal-Time-Biddingなどの概念を交えつつ、基礎からエン

  • 自然言語処理・データマイニング系の求人まとめ - nokunoの日記

    最近、いろいろな企業で自然言語処理やデータマイニングに関する求人が出ていますね。とても良いことだと思いますが、多すぎて把握しきれません。というわけで、国内の自然言語処理・データマイニング系の求人情報をまとめてみました。職種詳細(【開発部門】楽天技術研究所 研究者系職種) | 【楽天株式会社】中途採用募集要項 データマイニングエンジニアエンジニア募集職種一覧|エンジニア特集│社員を知る|株式会社ディー・エヌ・エー キャリア採用サイトグリー株式会社 | 採用情報 | キャリア採用 | 募集職種 | データマイニングエンジニア自然言語処理専門家 / Web 開発 セレゴ・ジャパン株式会社|IT・外資系の転職・求人情報なら【121転職】データマイニングエンジニア | クックパッド株式会社採用情報|Fringe81株式会社職種詳細|株式会社ブレインパッドピクシブ株式会社 | 採用情報 参考:htt

    overlast
    overlast 2011/02/28
  • 続けるリスクとやめるリスク - nokunoの日記

    最近のid:mamorukさんとid:syou6162さんのブログを読んでなんとなく考えたことを書いてみます。リスクとは車のアクセルのようなもの。踏み過ぎに注意 - 生駒日記最近よく考えること - Seeking for my unique color.何かを続けることにも、やめることにもそれぞれリスクとリターンがある、ということ。 続けるリスクとリターン何かを続けるリスクとは、たとえばその分野が時代遅れになったりしてその経験が役に立たなくなってしまったりするリスクがあります。逆に続けるメリットは競合が少なくなることと、経験が生かせることがあります。当たり前すぎて忘れがちになるので、個人的に気をつけたいところです。 やめるリスクとリターンやめるリスクとしては、あまりに違う分野に行くとそれまでの経験が役に立たなくなる可能性があります。なにかをやめて新しいことをはじめるリターンには、それによっ

  • 第1回にこにこテキストマイニング勉強会に参加しました #nicotextmining - nokunoの日記

    というわけで参加してきました。第1回 にこにこテキストマイニング勉強会 : ATND 目的テキストマイニングについての学習のスタートアップテキストマイニング技術に関して気軽に参加・議論することができる場の提供 概要テキストマイニングとは、例えば製品の評判をweb上のテキストから抽出したり、大量のアンケートテキストを分析するために用いられる技術であり、特にマーケティングの場で多くの利用例があります。この勉強会ではそうしたテキストマイニングを題材とし、用いられている要素技術とそれに関わる課題の議論、またテキストマイニングを実務に活かす方法について考えていきます。 会場のオラクルセミナールームでは隣でPythonハッカソンが行われており、そちらにも知り合いがいたり飲み物が無料だったりして居心地の良い場所が形成されていました(入るまでが大変でしたが‥)。Python Hack-a-thon 201

    overlast
    overlast 2011/02/21
  • 評判辞書の中身を覗いてみた - nokunoの日記

    先日のにこにこテキストマイニング勉強会で、東工大の高村大也先生の「単語感情極性対応表」が話題になりました。PN Tableそこでこの辞書(仮に評判辞書と呼びます)を覗いてみます。wget http://www.lr.pi.titech.ac.jp/~takamura/pubs/pn_en.dicwget http://www.lr.pi.titech.ac.jp/~takamura/pubs/pn_ja.dicwc pn_ja.dic 55125 59133 1723987 pn_ja.dicwc pn_en.dic 88015 88015 1931411 pn_en.dicnkf -w pn_ja.dic > utf8.dicまず、辞書の上位を見てみると「優れる」を筆頭にポジティブな単語が並んでいます。less pn_ja.dic優れる:すぐれる:動詞:1良い:よい:形容詞:0.9999

  • Google先生が教えてくれた日本におけるFacebookの利用の実態 - もとまか日記

    憶測で物を語るのが3度の飯より好きな、ネットの実名「もとまか」です。でも辛子明太子の方が好きです。 さて、先日Facebookについて以下の記事を書きました。 Facebookが楽々と世界で普及していった当の理由 この記事にはたくさんの方からTwitterで反応を頂きました。ありがとうございますm(_ _)mFacebookのこと書いてるのにTwitterからってのがインターネットは相変わらず面白いなぁと思いました。 でも、実は私にはまだモヤモヤした感が残ってたんです。それが、以下のこと。 そうです、あのFacebookに関するGoogleトレンドの結果。この記事のGoogleトレンドへの言及部分は、来筋から言えば外しても構わなかったんですが、この図に気がついてしまって、その意味するところが理解出来ず、どうしても気になったので入れてみたわけでした。 決して別記事にするのが面倒くさかった

  • データを見たら保存するのがNLPerの本能 - nokunoの日記

    東大の鹿島先生の日記機械学習についての日々の研究 より、Amazon MechanicalTurkで作成された自然言語処理のデータが公開されていることを知る。 nlpannotationsデータはナマモノなので、いつ手に入らなくなるか分かりません。Netflix PrizeやYahoo! Learning to Rank Challengeのデータもいつの間にか消えているみたいだし…Netflix Prize: HomeYahoo! Learning to Rank Challenge というわけで件のnlpannotationsをダウンロードしてみました。データの形式はやや分かりにくいのですが、アノテーションの説明を見ると、 ニュースのヘッドラインを見て受ける印象(感情)7種類についてスコア付けする 単語間の類似度をスコア付けする ある文が別の文の仮説を支持するかどうか判定する 文中の2