タグ

nlpに関するxmmmのブックマーク (28)

  • 形態素解析エンジンMeCabにて文章中から短歌を抽出 - inaniwa3's blog

    概要 偶然57577になっている文章を短歌としてつぶやく Twitter の bot を作りました。 フクロウが鳴くと明日は晴れるので洗濯物を干せという意味 #tanka ウィキペディア日語版「フクロウ」より http://t.co/Dm1uHcQdzR— 偶然短歌bot (@g57577) 2014, 12月 31 再帰的アルゴリズムが有効な問題として有名であり #tanka ウィキペディア日語版「ハノイの塔」より http://t.co/vm2ZqwImKi— 偶然短歌bot (@g57577) 2014, 12月 31 文章はウィキペディア日語版を対象としました。 作り方 jawiki-latest-pages-articles.xml.bz2 をダウンロード。 WP2TXT で上記を扱いやすい形式に変換。 このスクリプト で57577になっている文を抽出。数時間かけて(遅い)

    形態素解析エンジンMeCabにて文章中から短歌を抽出 - inaniwa3's blog
    xmmm
    xmmm 2015/01/20
  • 株式会社アイタス: 初心者にもわかる機械翻訳入門

    前々回と前回の2回にわたり、近年、急速に発展してきた統計的機械翻訳についてお話しました。 最終回の機械翻訳を使うにはでは、機械翻訳を使う際に必要な環境についてお話します。(話がわかりやすいように、以下、英語から日語への機械翻訳に限定して説明します。)

    xmmm
    xmmm 2013/09/06
  • ようこそ統計的機械翻訳の世界へ

    かつて勤めていた会社で、2010年3月に統計的機械翻訳というものと出会いました。実は、Google翻訳が統計的機械翻訳そのものなので、日常的に利用している方はそれなりに多いはずです。 しかし、統計的機械翻訳を提供する人にとっての情報は、まだまだ少ないのが現状です。当時の悪戦苦闘した様子を綴った回顧録が、少しでも世の中のお役に立てば幸いです。 出会い編 第1回 Moses? (2010年3月) 第2回 夜明け前の出来事 (2010年4月頃) 第3回 機械翻訳で行くぞ (2010年8月頃) 第4回 異動 (2010年9月頃) 手探り編 第5回 Linuxの壁 (2010年10月) 第6回 最初の疑問 (2010年11月) 第7回 日語との格闘 (2010年11月) 第8回 BLEUスコア導入 (2010年11月) 第9回 おかしなセンテンスを取り除くと (2010年11月) 第10回 ユーザ

    xmmm
    xmmm 2013/09/06
  • gr.jp

    This domain may be for sale!

    xmmm
    xmmm 2012/11/15
  • 自然言語処理こそが今世紀最後の錬金術 - やねうらおブログ(移転しました)

    日本語入力を支える技術 ~変わり続けるコンピュータと言葉の世界』(asin:4774149934)が発売された。PFI(株式会社Preferred Infrastructure)のなかの人が書いただ。 日本語入力を支える技術というを書きました http://d.hatena.ne.jp/tkng/20120203/1328248554 以下、どうでもいいことをつらつらと。 最近、ソーシャルゲーム界隈が賑わっているのでIT系の優秀な人材がそっちに大量に流れてしまっていて、IT業界自体の空洞化が起きようとしていて当に嘆かわしい限りである。私は自然言語処理こそが今世紀最後の錬金術だと思っているのだが、この分野はなかなか大きな進歩がないのが実状だ。 例えば、2chのまとめサイトが収益を生み出すのだから、機械によって自動的にどこかの記事のまとめ(要約etc..)を生成できれば、これが自動的に

    自然言語処理こそが今世紀最後の錬金術 - やねうらおブログ(移転しました)
    xmmm
    xmmm 2012/02/11
  • ゲームのための人工知能研究 - 武蔵野日記

    @myuiくんの紹介で「安藤ケンサク」というゲームを知る。 安藤ケンサク - Wii 出版社/メーカー: 任天堂発売日: 2010/04/29メディア: Video Game購入: 2人 クリック: 79回この商品を含むブログ (18件) を見るGoogle 検索を用いて検索単語のヒット数を競ったりするゲームらしい。ちなみに名前は「AND 検索」から来ているらしい。べ、別にオヤジギャグ好きだから取り上げるんじゃないんだからね! 内容はおいておいて、開発者へのインタビューがおもしろい。少し引用。(「岩田」というのは任天堂現社長である) 岩田 ふつう、ゲームをつくるときは、自分たち自身ですごく汗をかきながら設定をつくり、技を決め、みたいなことをするのですが、今回のソフトのデータは全部Googleさんのサーバのなかにありますので、そこから好きなデータを選んで、それをゲームに活用するだけでいいとい

    ゲームのための人工知能研究 - 武蔵野日記
    xmmm
    xmmm 2010/05/06
  • 潜在意味解析 - Wikipedia

    潜在意味解析(せんざいいみかいせき、英: Latent Semantic Analysis、略称: LSA)は、ベクトル空間モデルを利用した自然言語処理の技法の1つで、文書群とそこに含まれる用語群について、それらに関連した概念の集合を生成することで、その関係を分析する技術である。潜在的意味解析とも。 1988年、アメリカ合衆国でLSAの特許が取得されている[1]。情報検索の分野では、潜在的意味索引または潜在意味インデックス(英: Latent Semantic Indexing, LSI)とも呼ばれている。 LSA では、各文書における用語の出現を表した文書-単語マトリクスが使われる。これは各行が各単語に対応し、各列が各文書に対応した疎行列である。この行列の各成分の重み付けには tf-idf (term frequency–inverse document frequency) が用いられ

  • イベント詳細

  • Google ダジャレサーチβ

    "Google の使命は、世界中の笑いを整理し、世界中の人々がアクセスできて使えるようにすることです。(笑)" Google では "世界中の情報を整理し、世界中の人々がアクセスできて使えるようにする" という使命を果たすために PigeonRank を始めとする技術開発に日夜取り組んでおります。中でも、東京 R&D センターでは、早くから「笑い」特に「ダジャレ」の持つ高度情報伝達機能 に注目し、研究開発をおこなって参りました。 このたび、ついにダジャレ品質を自動的に判定する手法 KudaRank およびダジャレ専用人工知能 BakaUke の開発に成功し、日 2008 年 4 月 1 日、Google ダジャレサーチとして皆様にサービスを開始いたします! Google ダジャレサーチでは、ダジャレ専用超高性能クローラー OyajiBot により全世界から収集されたダジャレの中から Ku

  • えもにゅ - Emotion Everywhere

    感情の変化を管理、それをブログに反映させよう!! 今の気持ちを選んで投稿!ブログパーツでさりげなく公開してみよう!

  • 検索における適合率 (Precision) と再現率 (Recall)

    検索における適合率 (Precision) と再現率 (Recall) 2008-01-17-1 [IIR] 「Introduction to Information Retrieval」[1] の輪講の第一回[2008-01-12-1]でちらっと話しましたが、第一章の 1.1 に Precision と Recall の説明があります(第八章でも出てきます)。 若干混乱しやすくややこしい話なので、ここで改めて解説します。 § Precision (適合率) とは、 全検索結果に対しての、 検索要求 (information need) を満たす検索結果の割合です。 例えば、 「MacBook Air の重量を知りたい」という検索要求を満たすために検索キー「MacBook Air 重さ」でウェブ検索した結果100件のうち、検索要求を満たす(重さが分かる)のが85件だとすると、 Precis

    検索における適合率 (Precision) と再現率 (Recall)
    xmmm
    xmmm 2010/01/19
  • エラー - 言語理解とコミュニケーション研究会

    トップ 一覧 検索 ヘルプ RSS ログイン エラー ページの編集は許可されていません。 Copyright (C) 2008 電子情報通信学会 言語理解とコミュニケーション研究会 山 和英 Powered by FreeStyleWiki3.6.2 with Perl5.026003

  • はてなグループの終了日を2020年1月31日(金)に決定しました - はてなの告知

    はてなグループの終了日を2020年1月31日(金)に決定しました 以下のエントリの通り、今年末を目処にはてなグループを終了予定である旨をお知らせしておりました。 2019年末を目処に、はてなグループの提供を終了する予定です - はてなグループ日記 このたび、正式に終了日を決定いたしましたので、以下の通りご確認ください。 終了日: 2020年1月31日(金) エクスポート希望申請期限:2020年1月31日(金) 終了日以降は、はてなグループの閲覧および投稿は行えません。日記のエクスポートが必要な方は以下の記事にしたがって手続きをしてください。 はてなグループに投稿された日記データのエクスポートについて - はてなグループ日記 ご利用のみなさまにはご迷惑をおかけいたしますが、どうぞよろしくお願いいたします。 2020-06-25 追記 はてなグループ日記のエクスポートデータは2020年2月28

    はてなグループの終了日を2020年1月31日(金)に決定しました - はてなの告知
  • ATOK の辞書をつくる - 武蔵野日記

    @klmquasi さんのお勧めで 電脳日語論 作者: 篠原一出版社/メーカー: 作品社発売日: 2003/03/01メディア: 単行購入: 1人 クリック: 8回この商品を含むブログ (11件) を見るを読んでみる。これはジャストシステムの開発者の人から辞書を作っていた人、そして ATOK 監修委員会のできるまでとできてから、などなどをまとめたであり、日本語入力や計算機上の日語処理に興味のある人が読むと、とてもおもしろいだろう(2003年ので新し目だし、これはお勧め)。後述するが、これはぜひみなさんに買って読んでもらいたい。 Google 日本語入力ができてから、日本語入力は規範的であるべき(たとえば「ら抜き表現」は日語として「間違っている」ので変換できないようにするとか)か記述的であるべき(実際言語は変わりうるものであり、使う人がそう書きたいのであれば、変換できるべき)かと

    ATOK の辞書をつくる - 武蔵野日記
  • 統計ソフトRのブログ 共起性尺度

    共起尺度について説明します。 共起とは、まさに ある一組の「共に起きる」程度を表したものです。 例えば、 amazonを検索するときに、 この商品を買っている人は、このも買っています と紹介されますが、それは、過去の購買データから、 共起が高い商品を勧めているのです。 共起尺度として、 主なものは、 共起頻度、Jaccard係数、Simpson係数、コサイン距離があります。 これらの指標について、「X」と「Y」という一組の共起性がどう測られるか示します 「X」と「Y」の単独での出現数を|X|、|Y|、 どちらか一方が出現した回数を|X∪Y|、 両方が出現した回数を|X∩Y|とします。 A)共起頻度 共起の回数であり、 |X∩Y|で計算される。 B)Jaccard係数 どちらかが出現したうち、何回同時に出現するかで、 |X∩Y|/|X∪Y|で計算される C)Simpson係数 Jacc

  • Wikipedia:データベースダウンロード - Wikipedia

    ウィキペディアのコンテンツなどのデータは、再配布や再利用のために利用できる一元化されたデータベース・ダンプでの提供が行われています。クローラを用いてコンテンツを収集しないでください。このデータベース・ダンプの生成は不定期に行われています。 ウィキペディアのコンテンツは Creative Commons Attribution-ShareAlike 4.0 International License (CC BY-SA 4.0) および GNU Free Documentation License (GFDL) の下にライセンスされています(Wikipedia:著作権と利用規約を参照)。画像などのメディアファイルは異なるライセンスで提供されることもあり、ファイルページで明記されています。 より詳しい解説はmeta:Data dumps(英語)を参照してください。 全プロジェクトのダンプ:du

  • Colorless Green Ideas:Wikipediaのダンプデータを、単なるテキストに変えてくれるソフト

  • Yahoo! ウェブ検索 API で検索ヒット数を取り出す簡単な方法

    Yahoo! ウェブ検索 API で検索ヒット数を取り出す簡単な方法 2009-02-26-1 [Programming][YahooHacks] Yahoo!デベロッパーネットワーク (YDN) のウェブ検索 API を用いて、入力キーのウェブ検索ヒット件数だけを取り出す簡単な方法について。 ウェブサービスを用いて自然言語処理っぽいことをやろうというときの基中の基。 使用している Web API の提供が終了となったため、現在動作しません。ご了承ください。 - Yahoo!デベロッパーネットワーク http://developer.yahoo.co.jp/ - Yahoo!デベロッパーネットワーク - 検索 - ウェブ検索 http://developer.yahoo.co.jp/webapi/search/websearch/v1/websearch.html Y!API に投げる

    Yahoo! ウェブ検索 API で検索ヒット数を取り出す簡単な方法
  • TouchMeKey試用版ダウンロードサイト

    TouchMeKeyは、少数キーによる、自然言語入力システムです。 ここに 入力方法の説明があります。 TouchMeEditor試用版のダウンロード 日語の10キー 日語の4キー 配布内容物は、入力システム、初期化ファイル、基辞書、ユーザ辞書です。 配布内容物は、再配布や改変を禁じます。 また、ソフトウエアの試用により、お手元のパソコンの動作がおかしくなったとしても、 一切責任は負いません。 使い方 辞書は2種類必要です。 基辞書(systemDictionary.bin): 基語彙の辞書。 ユーザ辞書(userCorpus.bin): 個人のテキスト これら二つは、初期的なものが上記配布物に含まれています。 基辞書は、毎日新聞94年の社会面をもとにしたものに、こちらでさらに必 要と思われる単語やフレーズを追加したものです。辞書については、配布の 許諾を毎日新聞社から得て

  • Natural Language Processing with Python – Analyzing Text with the Natural Language Toolkit

    Natural Language Processing with Python – Analyzing Text with the Natural Language Toolkit Steven Bird, Ewan Klein, and Edward Loper This version of the NLTK book is updated for Python 3 and NLTK 3. The first edition of the book, published by O'Reilly, is available at http://nltk.org/book_1ed/. (There are currently no plans for a second edition of the book.) 0. Preface 1. Language Processing and P