TAKESAKOのブックマーク - はてなブックマーク

きまぐれ日記: 「読めてしまう」コピペがなぜ読めてしまうのか
http://www.asks.jp/users/hiro/59059.html http://www.itmedia.co.jp/news/articles/0905/08/news021.html 最初読んだとき、違和感なく読めてしまったのですが、よくよく見てみると、そんなトリックがあったのですね。さて、この「読めてしまう」がなぜよめてしまうのでしょうか？人間の言語モデルの単語パープレキシティは、約100ぐらいであると言われています。どういうことかというと、人間が文章を読んでいるときに、次の単語を過去の文章から推測するのは 1/100　程度の確率で正解するということです。件のコピペですが、最初の文字は変わらないので、その正解率は平仮名の数(52)倍になります。すなわち、52/100 =~ 0.5　実際には、最後の文字も変わらないし、単語の長さが変わらないというもの、大きな
TAKESAKO 2009/05/14
自然言語処理

algorithm

nlp
リンク
きまぐれ日記: 肥大化して破綻するオープンソースプロジェクト
一時期オープンソースがはやった時期がありましたが、今はどうなんでしょう? 当時はオープンソースでバラ色の人生みたく過大評価されていたような記憶があります。過大評価は言い過ぎですが、いまこうやってブログをかけるのもオープンソースのおかげであることは間違いありません。しかし、すべてのオープンソースプロジェクトが成功したかというと、簡単に YES といえないような気がします。こういう話を某エンジニアとしたら、彼も同じような視点(というかその方の場合は実経験かもしれませんが)を持ってて、なんか話が盛り上がってしまいました。その問題点とは肥大化です。オープンソースは誰でもプロジェクトに参加できるのですが、ディベロッパーの技術もピンキリなため、時にはどーでもいい拡張がコミットされてしまうことがあります。その最たるものが周辺技術との統合。ホニャララメタデータをMySQLに保存, ○○バッ
TAKESAKO 2008/05/25
oss
リンク
TinySegmenter: Javascriptだけで実装されたコンパクトな分かち書きソフトウェア
TinySegmenterはJavascriptだけ書かれた極めてコンパクトな日本語分かち書きソフトウェアです。わずか25kバイトのソースコードで、日本語の新聞記事であれば文字単位で95%程度の精度で分かち書きが行えます。 Yahoo!の形態素解析のようにサーバーサイドで解析するのではなく、全てクライアントサイドで解析を行うため、セキュリティの観点から見ても安全です。分かち書きの単位はMeCab + ipadicと互換性があります。デモ日本語の文章を入力し、解析ボタンをクリックしてください。ダウンロード TinySegmenterはフリーソフトウェアです. 修正BSDライセンスに従って本ソフトウェアを使用,再配布することができます. Download TinySegmenter version 0.2 使い方 <script type="text/javascript" src
TAKESAKO 2008/02/08
数字が分割されちゃうのは仕様なのかな→「わずか | 2 | 5 | k | バイト | の | ソースコード」

javascript

nlp

形態素解析

自然言語処理
リンク
係り受け分析@きまぐれ日記: cabocha 0.60 pre1
CaboCha0.60pre1を sourceforge.net に置きました。約2年ぶりの更新ですが、機能やアルゴリズムを整理し、フルスクラッチから書き直しました。 1年前から出張の移動時間などを利用してコツコツと書きためていたのですが、この正月休みに一気に整理してみました。変更点: - UTF8対応 (./configure --with-charset=UTF8) - 文節区切りと固有表現抽出に CRF (実装はCRF++)を使用 - ChaSenへの依存を廃止し、MeCab のみのサポートに - 固有表現を行う前に文字列の正規化を行うことで若干の精度向上 - 簡易並列処理の廃止。係り受けのみ - APIの一新、より粒度の細かい制御が可能 - PerlやMakefileに依存していた部分の排除。 - 単一バイナリ cabocha-learn による学習の簡易化 (Windows
TAKESAKO 2008/01/15
mecab

chasen
リンク
1

はてなブックマーク

タグ

ブックマーク / chasen.org/~taku (4)

お知らせ

今週のはてなブックマーク数ランキング（2024年10月第1週）

月間はてなブックマーク数ランキング（2024年9月）

今週のはてなブックマーク数ランキング（2024年9月第5週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

タグ

ブックマーク / chasen.org/~taku (4)

きまぐれ日記: 「読めてしまう」コピペがなぜ読めてしまうのか

きまぐれ日記: 肥大化して破綻するオープンソースプロジェクト

TinySegmenter: Javascriptだけで実装されたコンパクトな分かち書きソフトウェア

係り受け分析@きまぐれ日記: cabocha 0.60 pre1

お知らせ

今週のはてなブックマーク数ランキング（2024年10月第1週）

月間はてなブックマーク数ランキング（2024年9月）

今週のはてなブックマーク数ランキング（2024年9月第5週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス