TwitterやFacebook、ブログなどオンラインにはテキストコンテンツが溢れています。メールも配信数が増すばかりで膨大な情報量を処理するのが困難になってきているのではないでしょうか。 そこで必要になるのがテキストから本当に必要な部分だけを抽出する技術ではないかと思います。そうすることで余計な情報を省き、処理量を減らせるようになります。 英語向けですが、そんなJavaScriptライブラリであるKnwl.jsを紹介します。 実行例。左側のテキストに対して右側に抽出された情報が一覧になっています。 任意のテキストから電話番号、日付、時間、場所、リンク、メールアドレスをはじめ様々な情報が抽出されます。また、スパム判定機能も備わっています。Knwl.jsをベースにすることでカレンダーに自動登録する機能を開発したり、アドレス帳登録の情報を補完する機能などが考えられるようになりそうです。 だらだ