タグ

2011年1月24日のブックマーク (7件)

  • Gomoku: 辞書込みの形態素解析器 - sileのブログ

    IgoをベースにしてJARファイルに辞書データを同梱した形態素解析器を作成した。 名前は同系統のGomoku(ver 0.0.1)。 特徴 開発コンセプト(?)は「JARファイルのみで形態素解析」と「サイズを(比較的)小さく」の二点。 このJARファイル一つで形態素解析が行える(外部の辞書データ不要)、という点が最大の特徴。 ただし、その分辞書のカスタマイズ性には乏しい。 ※ 辞書を変更する場合はjarファイルごと取り替える必要がある その他の特徴を列挙: 辞書データサイズがIgoより小さい 辞書込みJARファイルのサイズは4MB程度。解凍時は10MB程度*1。※ Igoは辞書サイズは40MB程度 辞書のデータサイズを節約するために、形態素の素性から品詞以外の情報を除外 そのため原型や読み等の情報を解析結果から得ることは不可能 (デフォルトの)辞書にはIPADIC(mecab-ipadic

    Gomoku: 辞書込みの形態素解析器 - sileのブログ
    mwsoft
    mwsoft 2011/01/24
    辞書込みで配布されるIgoベースのライブラリ。jar1つで利用可能らしい。
  • ヤクザSNS「Badoo」が恐ろしい - Hagex-day info

    2006年にロシアでサービスが開始され、現在ロンドンに社を置き世界展開しているソーシャルネットワークサービス「Badoo」(http://badoo.com/)。2010年12月に9200万人以上のユーザーがいると、Badooは主張している。 さて、あまり馴染みのないSNS Badooだが日人のFacebookユーザーの間で流行っている。 しかし、いったん登録すると「写真をアップしろ!」と頻繁にメールが来たり、Gmailの連絡先のデータを勝手に読み込んで、無断でBadooへの招待メールを送ったり、招待メールのリンクをクリックすると即ユーザー登録されたりと、非常に評判が悪い。 元はロシア出会い系サービスから発展したBadoo。「あなたの地域にいる新しい人と出会うのに最高の場所です。おしゃべりし、交流を深め、みんなで楽しみましょう!」と素敵なキャッチフレーズだが… Badooは写真を登録

    mwsoft
    mwsoft 2011/01/24
    ]
  • 第9回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining #9) −2nd Week−方法論・ソーシャル祭り− を開催しました - hamadakoichi blog

    2011/01/23 "第9回 データマイニング+WEB 勉強会@東京−2nd Week−方法論・ソーシャル祭り−"を開催しました。 第9回 データマイニング+WEB 勉強会@東京 ( TokyoWebmining 9)−2ndW−方法論・ソーシャル祭り−: ATND Google グループ ※会場参加者ID写真(id:bob3 さんに感謝) 1st Week内容まとめ: 第9回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining #9) −1st Week− 大規模解析・機械学習・クオンツ 祭り− を開催しました - hamadakoichi blog 会場提供し運営を手伝って下さった ニフティ株式会社 のみなさん、どうもありがとうございました。素敵なトークを提供してくれた講師メンバーに感謝します。会場参加、USTREAM参加ともに多くの方々の参加を嬉しく思ってい

    第9回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining #9) −2nd Week−方法論・ソーシャル祭り− を開催しました - hamadakoichi blog
  • https://jp.techcrunch.com/2011/01/24/20110121congratulations-crunchies-winners-twitter-takes-best-startup-of-2010/

    https://jp.techcrunch.com/2011/01/24/20110121congratulations-crunchies-winners-twitter-takes-best-startup-of-2010/
  • Linuxでうっかりrm -rfしちゃったけど復活出来たよー\(^o^)/ - y-kawazの日記

    サーバのファイル整理作業をしていたところ…、 間違えてrm -rfしてしまった! ぎゃーバックアップもねー! 長いこと生きてたらこんな経験の1度や2度はありますよね? えぇ、ついさっきやらかしちゃいましたwwオワタwww 速攻「rm 復活」とか「rm 取り消し」とかでググッたねw、したらmcってプログラムのUndelete機能使えばよいって情報が出てくるが、どうやらこれext2じゃないと使えないっぽいぞ…、うちext4だ。 混乱。以下ターミナルのヒストリーより実況。 ## こーいうときはまずあれだ、現場保存! ## まずは今いるパーティションを確認 # df -hT Filesystem Type サイズ 使用 残り 使用% マウント位置 /dev/sdb2 ext4 193G 6.9G 176G 4% / /dev/sdb1 ext3 194M 22M 163M 12% /boot /d

    Linuxでうっかりrm -rfしちゃったけど復活出来たよー\(^o^)/ - y-kawazの日記
    mwsoft
    mwsoft 2011/01/24
    extundeleteを利用
  • CentOS6開発プロジェクトの現状 - 科学と非科学の迷宮

    先週、CentOS 6 はいつ頃出るのかどうか、ふと気になりました。 リリース予定もニュースにならないし、どうしたのだろうと調べていたら、CentOSの開発MLが荒れていることを知りました。 不安を感じた私は調査を続けました。 すると、LWN.net の一つの記事に、CentOS の開発の現状について書かれたものがあることを発見しました。 それを読んでまず知ったのが、CentOS は単純に RHEL のソースをリビルドするだけではなく、かなりの労力を費やして作られるディストリビューションであるということです。 そして、開発コミュニティの運営に苦戦している CentOS 開発チームの姿がそこにはありました。 この記事は是非多くの人に読んでもらいたいと思い、何人かの人にレビューをお願いした上で翻訳してみました。 それでは編をどうぞ。 CentOS 6 の困難、立ち向かう人々 Original

    CentOS6開発プロジェクトの現状 - 科学と非科学の迷宮
    mwsoft
    mwsoft 2011/01/24
  • [機械学習] LDAのコードを書いてみた - tsubosakaの日記

    昔書いたことがあったけど、どこかにいってしまったのでもう一度書いてみた。推論方法にはギブスサンプリングと変分ベイズの2つがあるけど、導出も実装もより楽なcollapsed gibbs sampling(Griffiths and Steyvers, PNAS, 2004)の方を採用。 Token.java package lda; public class Token { public int docId; public int wordId; public Token(int d , int w){ docId = d; wordId = w; } } LDA.java package lda; import java.util.*; public class LDA { int D; // number of document int K; // number of topic int

    [機械学習] LDAのコードを書いてみた - tsubosakaの日記