タグ

ブックマーク / d.hatena.ne.jp/nokuno (6)

  • そろそろHadoopについてひとこと言っておくか - nokunoの日記

    もうこの手の話題は出尽くした感がありますが、最近Hadoopについて考えることが多いので、エントリにしてみます。なお、ここではベーシックなMapReduce+HDFSのことをHadoopと呼ぶことにします。 HadoopとはHadoopとは言わずと知れたGoogleMapReduce/GFSのオープンソースのクローンです。MapReduceではプログラマはMapとReduceという2つの関数を書くだけで、並列分散処理をすることができます。これは(1) データを実際に持つマシンにプログラムを配布する (2) MapとReduceをつなぐShuffleフェーズでキーをグループ化してソートする、(3) 障害時のフェールオーバーやレプリケーション、といった処理をフレームワーク側が受け持つことによって、プログラマ側の負担を減らすものです。GFSに対応するHDFSにはファイルをクラスタに分散して保存

  • 統計的自然言語処理エンジンStaKK - nokunoの日記

    統計的自然言語処理エンジンStaKK を開発しました。nokuno’s stakk at master - GitHub 以下、READMEからの引用です。 現在の機能 かな漢字変換 予測変換 または サジェスト スペル訂正 形態素解析 HTTPによるAPIサーバ Trieの直接操作現在は、StaKK は辞書として Mozc (Google日本語入力のOSS版)のデータを使っています。 リバースモードについてStaKK はノーマルモードとリバースモードの2つのモードを持っています。 ノーマルモードでは、かなを入力し、単語(主に漢字)を出力します。 リバースモードでは、単語を入力し、読みや品詞を出力します。これらの2つのモードの応用例をまとめると、次の表のようになります。 機能 ノーマルモード リバースモード Convert かな漢字変換 形態素解析 Predict 予測変換 検索ワードのサ

  • nokunoの日記

    nokuno Software Engineer at a Web Company. Interested in Natural Language Processing, Machine Learning, and Data Mining. Skillful in C/C++, Python, and Hadoop.

  • 就職活動を振り返る 後編 - nokunoの日記

    昨日のエントリの続きです。前回は大学4年生のときの就職活動について書きました。今回は昨年大学院のときの就活について書きますが、まだ内定先を公開したくないので、社名は出しません。 研究室に配属になってから、私の興味はWeb業界に移っていきました。単純にWeb業界はゲーム業界よりも10年程若く、まだまだ成長産業であるという認識がありました。コンテンツを職人芸的に作ることの大変さを少しだけ理解して、コンテンツはユーザーが作るものだというWebの流儀に将来性を感じていました。東方関係のWebサイトをやっていたときは、意外と多くのアクセスが集まり、Webが持つ威力について少し体験していました。はてなダイアリーを始めたのもその頃です。そして未踏でSocial IMEをやることになり、1年間集中して開発を行いました。未踏期間中は就職活動をする余裕がなかったので、動き出したのは12月からでした。 就活では

  • 就職活動を振り返る 前編 - nokunoの日記

    最近後輩が就職活動をがんばっているので、自分の就職活動の経験について書いてみて、少しでも役に立てばと思います。まず大学時代の就職活動についてですが、大学院に進学するつもりだったのであまり活動せずに、記念に1社だけ志望しました。 それが任天堂です(時効なので社名入り)。私は大学でゲーム制作をするサークルに入り、ゲーム制作を通してプログラミングを学びました。4年生のころもとびまりさの開発中で、ゲーム会社を受けるのは自然なことのように思われました。ご存知のようにゲーム業界はハイスペック競争が下火になって、任天堂の天下が始まろうとしていたころでした。そこで任天堂を志望したのですが、任天堂のゲームが好きというわけではありませんでした。女性や高齢者にもターゲットを広げたのがDSやWiiの戦略ですから、そのゲーム自体をオールドゲーマーである自分が好きになるのは難しいと思いました。そもそも、任天堂は倍率が

  • 予測変換APIを公開しました! - nokunoの日記

    Social IMEではWeb APIを公開していますが、昨年11月に公開したかな漢字変換APIに続き、予測変換APIを公開しました。 このAPIを使うと、たとえば次のような予測変換ができます。「はてな」で予測変換はてな はてなブックマーク はてなブック はてなダイアリー (以下略) ローマ字入力の途中での予測を行うと、このように展開されます。「わt」で予測変換私 私は 私の 私も 私が(以下略) また、長文を入力したときのかな漢字変換候補との統合にも対応しています。「きょうのてんきはは」で予測変換今日の天気は晴れ予測変換にはWebから抽出された大規模な統計量(Google提供)が用いられています。APIを活用したクライアントを開発されている方は、ぜひご利用ください。

  • 1