タグ

ブックマーク / blog.livedoor.jp/techblog (2)

  • livedoor Techブログ : 第1回NHNテクノロジーカンファレンス開催します

    NHN技術部会、株式会社データホテル所属の伊勢です。 NHN Japanグループ経営統合に伴い、旧ライブドア技術部会はHangame、Naverの技術部門と共に新生NHN技術部会として生まれ変わりました。そこで!従来型の主催者プレゼンテーションを主としたテクニカルセミナーではなく、様々な企業や組織から講演者様をお招きし、参加者様と一緒に情報交換や技術共有して頂けるオープンなカンファレンスとして、「NHNテクノロジーカンファレンス」を開催することにしました。 その第1回目ということで、来る2012年5月19日(土)、第1回NHNテクノロジーカンファレンスを開催致しますので、そのご案内をさせていただきます。 今回のテーマは、ズバリこちら! 「ソーシャルプラットフォーマーのストレージ技術」 〜 俺たちゃ昔からビッグデータだお (仮) 〜 昨今、ビッグデータ、ビッグデータとそこかしこで盛り上がって

    tomity
    tomity 2012/05/06
  • livedoor Techブログ : wikipediaのデータや顔文字辞書からmecabのユーザ辞書を作成するフレームワーク

    突然ですが,mecabの辞書 (mecab-ipadic) をデフォルトのまま使って,mecab意外と使えねぇとか文句言ってる悪い子はおらんかね? mecab-ipadic は比較的お行儀のよい日語をベースに作られているので,そのままでは web上の口語文体のテキストはうまく扱えないことがあります。来は教師データを用意し,学習させるといった手法を使うのが正攻法だと思いますが,とりあえず名詞を充実させるだけでも実用度はだいぶ上がるでしょう。 人間の話す言語には,動詞の語幹や名詞には日々新しく語彙が増えるけど,助詞や活用のルールは簡単には変化しない,という特性があります。特に「いま最もつぶやかれている単語ランキング」といった集計をするような場合は,名詞の範囲の切り出しさえ間違えなければそれなりの結果を出せることも多いのです。 ただ,辞書への単語追加はここにある通り簡単にできるのですが,単語

    tomity
    tomity 2012/05/05
  • 1