タグ

NLPに関するma_koのブックマーク (12)

  • GitHub - naoa/docker-termextract

    You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

    GitHub - naoa/docker-termextract
  • word2vecによる自然言語処理

    Tomas Mikolovらによって提案されたニューラルネットワーク(CBOW, Skip-gram)のオープンソース実装word2vecについて、基的な使い方を体験し、さらにその仕組みを学ぶ書籍です。 基的な使い方から、自分の好きなコーパスの作り方、登場の背景、仕組み、さらには応用例や弱点についてもコンパクトなボリュームで概観できます。付録にはword2vecの出力結果を主成分分析を使って可視化する方法について解説しています。 著者の西尾さんによる書の解題[リンク] はじめに 1章 word2vecを使ってみる 書き換えてみよう 2章 コーパスを変えてみる text8 単語に分割する(MeCab) CSVからのコーパス作成 Facebook EPWING Wikipedia PDFからの抜き出し まとめ 3章 word2vecの生まれた理由 文章の表現 4章 word2vecの仕組

    word2vecによる自然言語処理
    ma_ko
    ma_ko 2014/05/17
  • N-gramで文字列の類似度を測る

    とある2つの文字列がどれぐらい似ているのかを比較するにはどうすればいいのかを調べる必要があったので、ネットで検索してみました。 perlにはString::Trigramというモジュールがあるようです。 String::Trigram でテキストの類似度を測る rubyで同じようなものが見つからなかったので、取り急ぎ作って見ました。 #!/usr/bin/ruby #類似度の比較 class String def ngram(string, part_len = 3) string = string.dup.gsub(/[\s\n ]+/u, "") strlen = string.split(//u).length points = [] source = self.gsub(/[\s\n ]+/u, "") srcarr = source.split(//u) sourcelen =

    N-gramで文字列の類似度を測る
    ma_ko
    ma_ko 2013/06/14
  • SIGIL - R for Corpus Data

    Statistical Analysis of Corpus Data with R A Gentle Introduction for Computational Linguists and Similar Creatures Course Materials – Data Sets – Exercises – SIGIL Main Page Statistical Analysis of Corpus Data with R is an online course by Marco Baroni and Stefan Evert. It is based on a number of previous courses on similar topics taught together by the authors, in particular the course on R Prog

    ma_ko
    ma_ko 2011/04/10
  • AI Ruby Plugins

    AI Related Ruby Extensions This page will maintain list of AI related libraries for the Ruby programming language. Please contact me if you know something I missed. (I plan to migrate this to a wiki soon). While maintaining this list, I have induced* a theory: If a project's first public appearance is documentation without code, code will not appear before the heat death of the universe. * Induc

  • 増井 / 類語をみつける方法

    というか[[[同じカテゴリの単語を複数見つける]]]方法 [[[同位語]]]検索というらしい [[http://IQAuth.com/ 画像なぞなぞ認証]]で偽答を作るのを自動化したい たとえば「大阪」が正解のとき「神戸」とか「京都」とかの偽答を自動生成したい 「的場」から「菊地」を生成するとか [[http://hondana.org/%E5%A2%97%E4%BA%95/4812439914 http://gyazo.com/6c0f4f744676c2a71fc1577ace0557c7.png]] [[[「や」を使う方法]]] "大阪や" でググると「大阪や埼玉」「大阪や鳥取」などが出る [[http://gyazo.com/cc94658d04bc123b1b807db482862488.png]] 京大田中研の研究 by 大島氏 [[http://ci.nii.ac.jp/na

    ma_ko
    ma_ko 2009/09/28
  • TFIDFを使ってwikipediaの各キーワードの特徴量を抽出 - のんびり読書日記

    以前にk-means++をPerlで書いたのですが、実際に試すデータがなかったのでそのまま放置してました。せっかくなので大きなデータで試してみたいので、今回は下準備としてwikipediaの各キーワードに対し、その特徴を表すデータを抽出したいと思います。そして今回作ったデータを使って、k-meansや階層的クラスタリングなど他の手法をいずれ試してみる予定です。 今回は特徴量としてベタにTFIDFを使うこととします。TFIDFについては、下記のページが詳しいためそちらをご参照ください。 形態素解析と検索APIとTF-IDFでキーワード抽出 tf-idf - Wikipedia まずWikipediaのデータをダウンロードしてきます。以下のページから、「jawiki-latest-pages-articles.xml.bz2」をダウンロードしてください。 http://download.wik

    TFIDFを使ってwikipediaの各キーワードの特徴量を抽出 - のんびり読書日記
    ma_ko
    ma_ko 2009/09/18
  • Tutorial Web page

    チュートリアル資料 茶器関連のチュートリアルの資料置場です。 2009-09-30,2009-10-01「自然言語処理技術」講習会 実施内容 2009-09-30 『Mecab/CaboChaを用いた形態素解析・係り受け解析』 『「茶器」によるコーパス管理・検索』 松裕治、岩立将和、工藤拓 講習会資料 2009-09-30.zip zip ファイル 2009-09-30/ ディレクトリ(2009-09-30.zipの個別のファイルが見られます) 2008-09-08,09,10「自然言語処理技術」講習会 実施内容 2008-09-09 『「茶器」によるコーパス管理・検索』 岩立将和 講習会資料 2008-09-09.zip zip ファイル 2008-09-09/ ディレクトリ(個別のファイ ルが見られます) 2007-09-03,04,05「自然言語処理技術」講習会 実施内容 2007

    ma_ko
    ma_ko 2009/09/16
  • 株式会社Yostar

    最新情報 プレスリリース2019.08.01 『アズールレーン』が第3回全国エンタメまつり「ぜんため」に初出展いたします プレスリリース2019.07.12 『コミックマーケット96』企業ブースに出展決定! プレスリリース2019.04.25 対戦型麻雀ゲーム『雀魂』WEB版のサービスを開始いたしました MORE

    ma_ko
    ma_ko 2009/08/30
    naist-jdic以外にも、はてなキーワード、Wikipedia日本語タイトルをいれてる
  • マルコフ連鎖で日本語をもっともらしく要約する - ザリガニが見ていた...。

    そもそも、マルコフ連鎖とは何なのか?全く聞いたこともなかった。そして、文章を要約するのはとっても高度なことだと思っていて、自分のレベルではその方法を、今まで思い付きもしなかった。 しかし、以下のようなシンプルなRubyコードでそれが出来てしまうと知った時、目から鱗である...。一体、何がどうなっているのだ?コードを追いながら、マルコフ連鎖を利用するという発想の素晴らしさを知った! 作業環境 MacBook OSX 10.5.7 ruby 1.8.6 (2008-08-11 patchlevel 287) [universal-darwin9.0] mecab utf8環境でインストール済み マルコフ連鎖に出逢う rssを流し読みしていると、以下の日記に目が止まった。(素晴らしい情報に感謝です!) MeCabを使ってマルコフ連鎖 一体何が出来るコードなのか、日記を読んだだけではピンと来なかっ

    マルコフ連鎖で日本語をもっともらしく要約する - ザリガニが見ていた...。
  • Wolfram|Alpha や Bing のすごくないがゆえにすごいところ - 武蔵野日記

    最近次世代「検索」エンジンが登場しつつあるが、彼らのすごいところは検索結果ではない。たとえば Mathematica を作った会社が Wolfram|Alpha や最近検索に異様に力を入れている Microsoft が Bing を開発中だとアナウンスされたが、彼らが真にすごいのは、現在の自然言語処理(や情報検索などの周辺技術)の精度では恐らく不可能だと思えるようなことをやろうとしている、もしくはやっているところだと思う。 というのも、一番広く使われているであろう自然言語処理技術形態素解析(単語分かち書き、と言ったほうがいいのかもしれない)であろうが、これは現在99%くらいの精度になっていて、すでに人間がやるより遙かに高精度で行えるのだが、これだけ高い精度が出せるのは新聞記事を相手にしたときだけであって、それは新聞記事をコーパスとして用いる機械学習により形態素解析器を作っているので仕方な

    Wolfram|Alpha や Bing のすごくないがゆえにすごいところ - 武蔵野日記
    ma_ko
    ma_ko 2009/06/01
    この人は話し上手だろうなーとか思った。分かりやすくない?
  • 生きあたりまったりブログ

    休学中の過ごし方…うつ状態で何してた?就活やバイトは?大学休学中おすすめの過ごし方、やめたほうがいいことを経験者が解説。

    生きあたりまったりブログ
    ma_ko
    ma_ko 2009/03/15
    言語処理はいろいろと公開データがあるんだな
  • 1