タグ

MeCabに関するNagataniのブックマーク (4)

  • 文章をベクトル化して類似文章の検索 - Qiita

    Doc2Vecで類似文章を検索してみたので、実装を紹介します。 Doc2Vecとは コンピュータが自然言語を処理するためには、まず人間の言葉をコンピュータで扱える値にする必要があります。 単語の意味をベクトル化する手法としてWord2Vecが存在します。 詳しくはリンク先がとてもわかりやすいのですが、ざっくり言うと前後n単語のリストでその単語を表現します。 こうすることで、例えば「犬」と「」は同じような文脈で使われるため、似た「意味」であると考えることができます。 Doc2VecはWord2Vecを応用し、文章をベクトル化するものです。 実装サンプル 今回Doc2Vecを用いて実現するのは、以下の2つの機能です。 単語で文章を検索 類似文章の検索 サンプルとして、青空文庫の文章を使用しました。 なお、この記事で使用するコードはGitHubで公開しています。 (学習に使用した文章もzip

    文章をベクトル化して類似文章の検索 - Qiita
  • 文章中から韻を踏んでいるフレーズの組み合わせを検出する gem を作りました - Qiita

    require "rhymer" lyric = <<"LYRIC" 1853年(嘉永6年)、長崎の出島への折衝のみを前提としてきた幕府のこれまでの方針に反して、江戸湾の目と鼻の先である浦賀に黒船で強行上陸したアメリカ合衆国のマシュー・ペリーとやむなく交渉した幕府は、翌年の来航時には江戸湾への強行突入の構えを見せたペリー艦隊の威力に屈し、日米和親条約を締結、その後、米国の例に倣って高圧的に接触してきた西欧諸国ともうやむやのうちに同様の条約を締結、事実上「開国」してしまった>。 同年6月22日、12代将軍家慶が「今後の政治は徳川斉昭と阿部正弘に委ねる」と言い残して61歳で亡くなった。同年7月1日、幕府、国書を諸大名に示し意見を問い、3日にはお目見え以上の幕吏にも意見を問うた。260年間>「知らしむべからず、由らしむべし」を大法則としてきた幕府にとっては大方向転換であった[9]。 開国した後は

    文章中から韻を踏んでいるフレーズの組み合わせを検出する gem を作りました - Qiita
    Nagatani
    Nagatani 2016/05/24
    “業務上どうしても急ぎでライムが必要な場合に”
  • Haskell でマルコフ連鎖を用いたポエムの自動生成 - 書いたもの

    この記事は以下のページに移転しました。 blog.morishin.me

    Haskell でマルコフ連鎖を用いたポエムの自動生成 - 書いたもの
  • MeCab: Yet Another Part-of-Speech and Morphological Analyzer

    MeCab に至るまでの形態素解析器開発の歴史等はこちらをご覧ください メーリングリスト 一般ユーザ向けメーリングリスト 開発者向けメーリングリスト 新着情報 2012-01-27 MeCab 0.993 MeCab::Tagger::formatNode()が正しく動いていなかった問題の修正 スタックの消費を抑えるため、ほとんどのローカル変数(配列)をヒープ上に退避 2012-01-14 MeCab 0.992 ソースコード中のTypoの修正 2012-01-14 MeCab 0.991 空文字列もしくは空白文字列を解析した時に解析エラーとなる問題を修正 ユーザ辞書の作成に失敗する場合がある問題を修正 2011-12-24 MeCab 0.99 MeCab::Model, MeCab::Lattice クラスを追加 マルチスレッド環境でのユーザビリティの向上。複数スレッドが同一

  • 1