日本語の単語分割処理は、一般に、単語辞書と単語間連接の規則や学習データに基づいて行われます。オープンソースとして有名なものがいくつもあります。 KAKASI - 漢字→かな(ローマ字)変換プログラム JUMAN - KUROHASHI-KAWAHARA LAB chasen legacy -- an old morphological analyzer http://mecab.sourceforge.net/ これらのツールは主に新聞記事のような一般的なテキストが対象です。単語辞書に登録されていない語は未知語として処理されますが、特定分野のテキストを対象として解析精度を保つためには、専門用語や新語などを適宜登録する必要があります。 他方、文字間に単語境界があるかどうかを機械学習の2値分類問題として解く手法があり、ツールも公開されています。 KyTea (京都テキスト解析ツールキット) 次
Gmailライクにローカル環境からブラウザに ドラッグ&ドロップで画像をアップロード可能 にするHTML5+jQuery製のアップローダー droparea。今後、こうしてキーボードを使う 頻度が減っていくんですかね・・HTML5の 出現で一気に加速した印象ですね。 jQuery HTML5 UploaderやjQuery File Uploadの後発に当たりますね。 イメージアップローダーです。Gmailライクにドラッグ&ドロップでアップロード出来ます。 コードs = { 'init': m.init, 'start': m.start, 'complete': m.complete, 'instructions': 'drop an image file here', 'over' : 'drop file here!', 'nosupport' : 'No support for t
さて、会社を作った。 (元)EC-ONEの最首さんと一緒につくった。 EC-ONE側は、SI事業をウルシステムズへ統合して、分社化する。 僕らのチームがそのままEC-ONEに移動し、そして新しい会社を作る。 分散をやっているEC-ONEの福岡のチームと合流して、 分散技術や次世代の技術を業務に活かすということを いろいろでやっていく会社(というか入れ物だ)を作る。 分散技術にウェイトを置いて起きつつ、ソリューションにしていくための入れ物ですね。 「ノーチラス・テクノロジーズ」 NAUTILUS Hadoopや分散技術をエンタープライズに活かしていくことを 目的にした日本では最初の会社になると思う。 1.まず手始めにHadoopを中心の道具立てにしていく 幸いAsakusaもチームの頑張りで晴れてOSSになったし、 実際に動いている 開発効率の高さは自分でもびっくりしているぐらいだ。 分散技
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く