[B! 自然言語処理] nyamappのブックマーク

Wikipediaから作成したN-gramデータを公開しました - nokunoの日記

id:toilet_lunch さんに先を越された感がありますが、Wikipediaから作成したN-gramデータを公開しました。Downloads - nokuno - Project Hosting on Google Code処理方法については先日の日記を御覧下さい。Wikipediaによるテキストマイニング入門 - nokunoの日記

nyamapp 2010/05/24

リンク

京都テキスト解析ツールキットを使ってみた - 射撃しつつ前転改

KyTea(京都テキスト解析ツールキット)は京大のGraham Neubigさんが中心となって開発している単語分割&発音推定ツールである。私はかな漢字変換用の学習データを作るのにこれまではmecabを使っていたのだが、mecab-ipadicのデータには、そもそも読み推定に力が入ってない、という問題があった。形態素解析は文章を単語に区切ることと品詞を推定する事が主目的な感じなのでそこを期待するのはそもそも筋違いなのだが。かといって自分で作ろうにも、こういうものは学習用コーパスが必要なので、コードだけで簡単にどうにかできる問題ではない。コーパス作りはとても手間のかかる作業なので、気軽に週末に作れるようなものでもない。というわけで、根本的な解決は棚上げして、これまではmecabの解析結果を後付けで適当に確率的に揺らしてみたりとかしながら使ってきたのである。そこに新しくKyTeaが現れた。

nyamapp 2010/05/04

リンク

Bayesian Setsによる関連文書検索システムStupa - mixi engineer blog

都会よりも田舎が好きなfujisawaです。Bayesian Setsというアルゴリズムを使って、関連する文書を高速・高精度に検索できるシステムを作成しましたので、そのご紹介をさせていただきます。 Bayesian Setsとは Bayesian Setsはいくつかアイテムを入力すると、それを補完するようなアイテムを返してくれるアルゴリズムです。原著論文の先頭に"Inspired by Google Sets"と書かれているように、Google Setsを参考にして作成されています。実際にどのような出力が得られるか、Google Setsに以下の表のクエリを検索して試してみますと、クエリ出力 apple, banana chocolate, strawberry, vanilla, cherry, ... apple, macintosh software, windows, mac,

nyamapp 2010/02/05

リンク

増井 / 類語をみつける方法

というか[[[同じカテゴリの単語を複数見つける]]]方法 [[[同位語]]]検索というらしい [[http://IQAuth.com/ 画像なぞなぞ認証]]で偽答を作るのを自動化したいたとえば「大阪」が正解のとき「神戸」とか「京都」とかの偽答を自動生成したい「的場」から「菊地」を生成するとか [[http://hondana.org/%E5%A2%97%E4%BA%95/4812439914 http://gyazo.com/6c0f4f744676c2a71fc1577ace0557c7.png]] [[[「や」を使う方法]]] "大阪や" でググると「大阪や埼玉」「大阪や鳥取」などが出る [[http://gyazo.com/cc94658d04bc123b1b807db482862488.png]] 京大田中研の研究 by 大島氏 [[http://ci.nii.ac.jp/na

nyamapp 2009/09/30

リンク

NEC、商品などの評判をブログや掲示板から抽出する技術を開発

NECは4月14日、ブログや掲示板などの文章から、商品やブランドに関する評判を抽出する技術「文特性分布計算方式」を開発したと発表した。ユーザーの主観や感情を表す「意見文」や、特定の話題に関連した「トピック関連文」を的確に抽出できるという。従来の方式では、1つの文に含まれている「良い」「悪い」「高い」「安い」などの単語と、その対象となる製品やサービスなどを特定することで評判を抽出していた。しかし、この方式では、製品やサービス名が省略されている短い文や、単語とその対象が離れて書かれている文では、評判を抽出できないことがあった。このため、文ごとを対象とするのではなく、複数の文章をまとめて扱える技術が必要だったという。文特性分布計算方式では、話題は複数の文章にわたって書かれる傾向がある、という点に着目した。3つの文を1セットとした文の集合の中に、いくつの意見文やトピック関連文が含まれているかを

nyamapp 2009/04/19

自然言語処理

リンク

Google Earth? それともグーグルアース?

先週の Amit の記事では、Dr と Doctor/Drive のような例を使って Google の同義語システムについて説明しました。このシステムはもちろん日本語でも有効です。Google は[ファミマ] と [ファミリーマート] が同じ意味だと知っています。また、[Webサーバ作り方] で検索すると [Webサーバ構築] の結果を含めて表示します。さらに、日本語では重要な「字種違い」にも対応しています。日本語にはひらがな、カタカナ、漢字、アルファベットと、いろいろな字種があります。なので、同じ単語でも「さくら」「サクラ」「桜」、「グーグル」「Google」といろいろな書き方があります。Google はこれらが同じ単語だと知っているので、検索するときに [Google Earth] ? [グーグルアース] ? と悩む必要はありません。この字種違いへの対応は一見簡単そうですが、

nyamapp 2009/04/12

リンク

自然言語処理は Python がいちばん - 武蔵野日記

現在大学1年生の人で3年後には NAIST に (というか松本研に) 来たいという人から「どんなプログラミング言語やっておくといいですか」と質問されたりするのだが、なかなか答えるのは難しい。自分は Perl → Python がメインでときどき C++/C# を使ったりするのだが、どれが一番いいかはなんとも言えないので、自然言語処理以外に転向する可能性も考えると、C とか C++ とか Java とか(授業でそちらをやるのであれば)を最初の武器に選んだ方がいいのでは、と思ってはいる。そんなこんなで最近 Hal Daume III (機械学習を用いた自然言語処理では非常に有名な人) のブログで Language of Choice というタイムリーなエントリーが出ていたので、紹介すると、「それなりに大きな自然言語処理のプロジェクトでどのプログラミング言語を使うのか」というアンケート結果が出

nyamapp 2009/03/30

自然言語処理

リンク

自然言語処理における類似度学習(機械学習における距離学習)について - 武蔵野日記

Twitter でグラフ理論に関する話題が上がっていたので、最近調べている距離学習(distance metric learning)について少しまとめてみる。カーネルとか距離(類似度)とかを学習するという話(カーネルというのは2点間の近さを測る関数だと思ってもらえれば)。この分野では Liu Yang によるA comprehensive survey on distance metric learning (2005) が包括的なサーベイ論文として有名なようだが、それのアップデート(かつ簡略)版として同じ著者によるAn overview of distance metric learning (2007) が出ているので、それをさらに簡略化してお届けする(元論文自体本文は3ページしかないし、引用文献のあとに表が2ページあって、それぞれ相違点と共通点がまとまっているので、これを見ると非

nyamapp 2009/01/27

リンク

はてなブックマーク

タグ

関連タグで絞り込む (9)

自然言語処理に関するnyamappのブックマーク (8)

お知らせ

今週のはてなブックマーク数ランキング（2025年4月第3週）

今週のはてなブックマーク数ランキング（2025年4月第2週）

今週のはてなブックマーク数ランキング（2025年4月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス