タグ

Programmingとtextに関するHeavyFeatherのブックマーク (4)

  • 「酢鶏」作者が語る「一家に一台、人工無脳」の未来像 (1/5)

    人工無脳(もしくは人工無能)とは、自動で言葉を選び、人間とのコミュニケーションをするプログラムの俗称だ。言語解析の正確さよりも場の楽しさを重視したものが多く、ブログやSNS、チャットなど、様々なサービス上で彼らが発信した情報を目にすることがある。 数回程度のやりとりでは人間と間違えるほどに高度なプログラムも多く、怒りっぽかったり、ヘンな疑問を投げかけたりと、独自の性格を持った人工無脳が人気を集めている。 その中でもトップクラスの知名度を誇る人工無脳が、shohoji氏作の「酢鶏」だ。酢鶏は2004年5月頃に誕生し、ブログやチャット、mixiやTwitterなど、いくつものコミュニティで活躍してきた。今年4月1日には「酢鶏容疑者を逮捕」というエイプリルフール記事のネタにされるなど、マスコットとしての存在感を発揮し続けている。 作者であるshohoji氏は、どんな意図で酢鶏を開発したのか。そし

    「酢鶏」作者が語る「一家に一台、人工無脳」の未来像 (1/5)
  • Aho Corasick 法 - naoyaのはてなダイアリー

    適当な単語群を含む辞書があったとします。「京都の高倉二条に美味しいつけ麺のお店がある」*1という文章が入力として与えられたとき、この文章中に含まれる辞書中のキーワードを抽出したい、ということがあります。例えば辞書に「京都」「高倉二条」「つけ麺」「店」という単語が含まれていた場合には、これらの単語(と出現位置)が入力に対しての出力になります。 この類の処理は、任意の開始位置から部分一致する辞書中のキーワードをすべて取り出す処理、ということで「共通接頭辞検索 (Common Prefix Search)」などと呼ばれるそうです。形態素解析Wikipediaはてなキーワードのキーワードリンク処理などが代表的な応用例です。 Aho Corasick 法 任意のテキストから辞書に含まれるキーワードをすべて抽出するという処理の実現方法は色々とあります。Aho Corasick 法はその方法のひと

    Aho Corasick 法 - naoyaのはてなダイアリー
  • CSVファイルフォーマットの解説:CodeZine

    はじめに CSVファイルは最も普及したデータ交換用フォーマットですが、さまざまな方言があります。 稿ではCSVファイルフォーマットの仕様とデータ交換時のポイントを説明します。 対象読者 CSVファイルを扱うDB管理者、開発者。 CSVとは? CSVとはComma-Separated Valuesの略で、カンマ区切りで並べた値という意味です。 CSVファイルの例として、一般的なアドレス帳データを示します。 "姓","名","生年月日","郵便番号","住所","電話番号" "山田","太郎","2001/1/1","100-0002","東京都千代田区皇居外苑","03-1234-5678" "山田","次郎","2001/1/2","251-0036","神奈川県藤沢市江の島1丁目","03-9999-9999" カンマで区切られたデータの横一列を"行"(英:Row)

  • livedoor Developers Blog:String::Trigram でテキストの類似度を測る - livedoor Blog(ブログ)

    こんにちは。検索グループ解析チームの nabokov7 です。 今回は、livedoor キーワードでの事例より、テキストの類似度を測るのに便利な手法を紹介します。 livedoor キーワードは、livedoor ブログでその日その日で話題になった語をランキング表示するサービスです。 当初、はてなキーワードやWikipediaを足して2で割ったようなサービスを作れといった開き直った指示のもとで開発が開始されたともいう、分社化前の芸風の名残で、キーワードの検索結果にはユーザが自由に解説を書き込める Wikipedia 的スペースもついています。 で、この解説部分に、さまざまなサイトから文章をまる写ししちゃう人がとても多いのですね。 特に多いウィキペディア日語版からの剽窃を防止するために、livedoor キーワードでは以下のような対策を講じることにしました。 ウィキペディア日語版の解説

  • 1