[B! nlp] [2ページ] beth321のブックマーク

beth321 id:beth321

nlpに関するbeth321のブックマーク (109)

GitHub - rakuten-nlp/rakutenma: Rakuten MA - morphological analyzer (word segmentor + PoS Tagger) for Chinese and Japanese written purely in JavaScript.
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
beth321 2015/01/08
Node.js

言語

git

javascript

形態素解析

nlp

rakuten

自然言語処理

library

TextMining
リンク
意識高すぎて休日にword2vecをいじるしかやることなかった - 驚異のアニヲタ社会復帰の予備
word2vecという、ニューラルネットワーク的なことを用いて文書集合からコーパスを構築して、単語のベクトル演算ができるようになる手法があるらしい。艦これ加賀さんから乳を引いてみるという話を聞いてスゲー!!ってなったので、Twitterでやってみたとか英辞郎でやってみたとかMagic: The Gatheringとかwikipediaいろいろあるなか、何番煎じだよｿﾚｪ…って思われそうだけれどもやってみる。こちらを参考にword2vecをインストールする。今回はPythonではなくターミナルでカチャカチャやることにする。 demo-word.sh の中にtext8というデータがあるが、これは100MBほどのコーパスで、 anarchism originated as a term of abuse first used against early working class radic
beth321 2015/01/08
!!

Corpus

word2vec

*あとで

自然言語処理

テキストマイニング

NLP

データ

python

分析
リンク
自然言語処理をなにも知らない私がword2vecを走らせるまで - 最尤日記
googleの中の人たちが作ったword2vecというモノがあります。deep learningを自然言語(N-gram?)に適用することにより単語を100次元くらいのベクトル空間にマップする物だと思います。面白さは以下のベージの通りですが、たったこれだけの事で、ほとんど意味理解の一歩手前まで到達していると思います。 Taku Kudo : word2vec で少し遊んでみた。いわゆる deep… 面白いのは、2つのベクトルの差が、2つの単語の関係をよく近似してくれること。（中略） A B C → X (A → Bの関係に対し、 C → X に当てはまるXを探す) グーグルヤフートヨタ → 日産渋谷新宿札幌 → 旭川警察泥棒正義 → くそ平和戦争左 → 右社員会社生徒 → 小学校空海天井 → 床板生きる死ぬ動く → 止まる・・・ Deep-le
beth321 2015/01/08
c

テキストマイニング

word2vec

自然言語処理

TextMining

nlp

google

機械学習

deep learning

programming
リンク
パソコン工房のPCで遊ぼう第2弾！あんちべさんと一緒に Rakuten MA で形態素解析 - はてなニュース
（これまでのあらすじ）前回、パソコン工房から「統計処理用のPCのPR企画をやりたい」と依頼を受けて、はてなエンジニアと一緒にword2vecで遊んでみた編集部。読者の皆さまにも好評だったので、調子に乗って第2弾を実施することにしました。今回は「"word2vec"で艦これ加賀さんから乳を引いてみる」で一世を風靡した、あの統計屋さんが全面協力です！記事の最後にはプレゼントのお知らせも。（※この記事は株式会社ユニットコムによるPR記事です）皆さまは前回の記事を、覚えておりますでしょうか？ ▽ Python - Perl + Java = ？はてなブログのデータとパソコン工房のPCを使って「word2vec」で遊んでみた - はてなニュースパソコン工房の統計処理用PC × はてなブログのデータ × word2vec という記事でした。ブックマークコメントから感想をいくつかピックアップし
beth321 2015/01/08
はてな

あとで読む

形態素解析器

nlp

自然言語処理

Rakuten MA

hatena

javascript

Java
リンク
kuromoji.js使って構文解析した - Qiita
こんにちは、らこです。先日から話題になってるJavaScriptの形態素解析器kuromoji.jsを使って、確率自由文脈文法で構文解析してみました。(注意:アルゴリズムの解説記事ではないです) 結論 kuromoji.js遊びまくれるのでみんな使おう kuromoji.d.ts書いた私は型大好き人間なのでTypeScript使ってkuromoji.js使いました。型定義ファイルは自分が使う部分だけエイヤっと自作しました(laco0416/kuromoji.d.ts)。あと、プロジェクトに↑の自作型定義ファイルを読み込むのにdtsm使いました。tsd使ってたのが馬鹿らしくなるくらい便利です。作者のvvakameさんによるわかりやすい紹介はこちら確率自由文脈文法とはちゃんと説明すると長くなりますしうまく説明できる自信もないので、ばっさりカットします。雰囲気つかむにはここらへんを
beth321 2014/12/27
js

nlp

()

本

Google

javascript

kuromoji.js

自然言語処理

あとで読む

language
リンク
kuromoji.js - Webブラウザ上で分かち書き！ MOONGIFT
テキストから意味を読み取るというのは非常に難しく、そのための専用ソフトウェアが存在するほどです。そしてテキスト解析手法の一つとして知られているのが分かち書きです。日本語であればChasenがよく知られています。 kuromoji.jsはそんな分かち書き処理をJavaScriptで行ってしまおうというソフトウェアになります。KuromojiというApache財団のオープンソース分かち書きエンジンをJavaScriptにポーティングしています。 kuromoji.jsの使い方こちらはデモです。Webブラウザベースで動作しています。nodeでも使えます。適当な文章をリアルタイムに分かち書きできます。 kuromoji.jsは辞書ファイルをAjaxで取得しています。そのためサイズは大きくなりますが、分かち書きの精度はとても高くなります。サーバサイドで辞書を用意したり分かち書きエンジンを用意する
beth321 2014/12/25
apache

javascript

形態素解析

あとで読む

js

日本語

library

文章

分かち書き

nlp
リンク
日本語形態素解析器のイメージ - 唯物是真 @Scaled_Wurm
前にこんなツイートをしたけどもうちょっとちゃんとメモっておくゆるふわカジュアル勢()なので内容に間違ってる点があったら教えてくださると嬉しいです勝手なイメージだと、MeCab →一番使われてる。速い。辞書を弄くるのが簡単。いろいろ移植されてる。Juman→出力が詳しい。代表表記に正規化できる。KNPを使うときはこれ。KyTea→新しくていろいろ更新されてる。読みの推定ができる。部分的タグ付けによるドメイン適応ができる。— 無限猿(id:sucrose)@12月病 (@Scaled_Wurm) October 22, 2014 大雑把に言うと形態素解析では文章を単語+品詞の列に分解するいわゆる学校でならった文法とは違う文法を使っているので注意が必要ただし形態素解析器によって品詞体系や辞書に載っている単語が異なる形態素解析器では単語や品詞の列にコストが計算できるようになっていて、そ
beth321 2014/12/24
メモ

*program

自然言語処理

形態素解析

()

NLP

データ

あとで読む

機械学習

文章
リンク
「Appleが日本に研究開発拠点」と安倍首相が明らかに
安倍晋三首相が12月9日、「米Appleがアジア最大級の研究開発拠点を日本国内に置く」と明らかにしたと、時事通信などが報じた。安倍首相が同日夕、さいたま市で行った街頭演説で、Appleが近く正式発表するとして明らかにしたという。
beth321 2014/12/10
ITmedia ニュース

ニュース

Apple

政治

研究開発拠点

NLP
リンク
機械学習をこれから始める人に押さえておいてほしいこと - Qiita
いしたーです。アルバイトで機械学習やってます。こんにちは。とある勉強会に出席したときに、「機械学習をやりたいけどわからないことが多い」という意見を聞いたので、いくつかアドバイスを載せておきます。読む前の注意研究についてのアドバイスは書いていません。趣味で機械学習をやろうと思っている方が対象です。この記事は他の方の意見をまとめたものではありません。私個人の経験に基づいて書いたものです。よって、この記事の内容はほとんど「私の意見」です。以上2つの注意点を踏まえた上でお読みください。「機械学習で何をしたいのか」を決めてほしい機械学習を学ぶ前に、機械学習を使って何をしたいのかを決めてください。機械学習は数式がたくさん登場したり、難しい概念を理解しなければならなかったりすることがあります。やりたいことを決めてから学ぶと、今自分はある目的を達成するために学んでいるんだと思うことができ
beth321 2014/12/07
機械学習

コンピュータ

あとで読む

Qiita

NLP

プログラミング

数学

deferred

あとで

MikuMikuDance
リンク
goo ラボ - ベータサービス&トライアルサービスを体験
gooラボは、Webソフトやアプリ開発に役立つAPIを無料で提供するNTTレゾナントのサービスです。gooラボのAPIを利用した新技術のテストやシステム開発など、イノベーションの創出を支援しています。
beth321 2014/12/04
api

テキストマイニング

goo

NLP

language

word

Japanese

web-service

日本語

webサービス
リンク
日本語解析API、「gooラボ」で公開　形態素解析やひらがな化など
NTTレゾナントは12月3日、日本語解析技術に関するAPIを「gooラボ」で公開した。NTT研究所が開発し、長年「goo」で利用してきたAPIで、自社コンテンツを提供する企業やビッグデータ解析技術を求める企業などでの活用を想定している。公開したのは、文字列を形態素に分割する「形態素解析」、2つの語句の類似度合いを算出する「語句類似度算出」、文字列から人名や地名、組織名などを抽出する「固有表現抽出」、漢字混じりで書かれた文字列をひらがなかカタカナに変換する「ひらがな化」のAPI。今後も、企業や大学などからニーズが高い技術を公開し、オープンコラボレーションを加速するとしている。関連記事変わるAPIのエコシステム　ヤフーはなぜ、検索APIを有料にしたか TwitterのAPI利用制限が厳しくなり、ヤフーが検索API有料化を発表し……昨年は、大規模サービスのAPI公開姿勢に大きな変化があっ
beth321 2014/12/04
ITmedia ニュース

言語

gooラボ

ニュース

api

形態素解析

プログラミング

あとで読む

NLP

webサービス
リンク
漢数字が数字順にソートされない理由を調べてみた - give IT a try
はじめに：「なぜ漢数字は数字順に並ばない！？」先日、こんなツイートをしたところ、結構たくさんの人にリツイートされました。（執筆時点で50件以上）「漢数字はソートしても数字順に並ばない」という事実を生まれて初めて知った。まさかのサプライズ。 pic.twitter.com/Eqx3ltIfHs— Junichi Ito (伊藤淳一) (@jnchito) 2014年11月27日「なぜ漢数字は数字順に並ばないのか」という問いに対して、表面的な回答をするなら「数字順に並ばないのは、数字の大きさではなく文字コード順でソートされているから」ということになります。いや、もちろんそれはわかってるんです。問題は「そもそもなんで数字順に文字コードを振らなかったの！？」ということです。感覚的には「一郎、二郎、三郎」って並んでほしいじゃないですか。でも、プログラム上でソートすると「一郎、三郎、二郎」
beth321 2014/12/04
プログラミング

文字コード

あとで読む

NLP

IT

ソート

programming

日本語

web

トリビア
リンク
Amazon.co.jp: 集合知イン・アクション: Satnam Alag (著), 堀内孝彦 (翻訳), 真鍋加奈子 (翻訳), 真鍋和久 (翻訳): 本
beth321 2014/11/17
ブログ

nlp

本

book

集合知

本

programming

java

recommendation

欲しい
リンク
サイゼリヤの間違い探しが難しすぎたので大人の力で解決した
こんにちは。河本です。僕はサイゼリヤに行くとまずキッズメニューの間違い探しを解くんですが、今回は難しすぎたので、大人の力（＝画像処理）で解決することにしました。 2014年9月版。みんなもやってみよう！（以下、間違い探しの答えが出てきます。見たくない人は↑の画像で頑張ってから読もう。）やり方いろいろ書いてますが、左面と右面の違う部分を色の差分から見つけてるだけです。紙の歪みを吸収するために、少しややこしいことをしてます。 (1) 間違い探しページの写真を撮る ↑の写真です。普通にiPhoneで撮りました。 (2) ページ領域を抽出する画像からページの部分を見つける必要があります。今回は面倒なので、左側は手作業で指定しました。角を手作業でタグ付けして・・・こっちは手作業。射影変換で台形補正します。OpenCVならWarpPerspectiveです。台形補正しても、紙が
beth321 2014/11/17
(1)

opencv

PatternRecognition

ネタ

画像処理

NLP

機械学習

プログラミング

Programing

画像
リンク
NIPS2010における発表論文に見る、機械学習最前線 | gihyo.jp
なお、劣モジュラー性についてさらに知りたい方は、チュートリアル［3］が参考になります。昨年のNIPSでの動向それでは、昨年のNIPSでの動向を見てみましょう。 Bach［4］は、L∞ノルムが劣モジュラー関数のロヴァース拡張から導出できることを示すことにより, 劣モジュラー性とスパース性との関係を示しました。さらに, この洞察から教師あり学習で用いることができる新しい3つのノルムを提案しました。また、勾配法や近接法が劣モジュラー関数最適化に使えることを示し, 実験によりL1,とL2ノルムを用いるより精度が良いことを示しました。 Stobbe and Krause［5］は、劣モジュラー関数を凹関数の和として分解できる新しいクラス（decomposable submodular function）を定義し, カット問題, マルコフ確率場の最適化, 集合被覆問題などがその新しいクラスの最小化問
beth321 2014/11/14
機械学習

劣モジュラ

machine learning

optimization

nips

research

algorithm

マシンラーニング

nlp

conference
リンク
自然言語処理に新風を巻き起こしたWord2Vecとは何か - 日経BigData
言語データの分析と応用のために自然言語処理と呼ばれる分野で長年研究が行われて来た。同分野が昨年から大きく沸き立っている。米グーグルの研究者であるトマス・ミコロフ氏らが提案した手法「Word2Vec」が、いくつかの問題について従来のアルゴリズムよりも飛躍的な精度向上を可能にしたのだ。この手法によって得られるベクトル空間には、今まで定量的に捉えることの難しかった言葉の「意味」を極めて直接的に表現しているかのような性質が認められている。今年9月、当社がスポンサー参加した自然言語処理系の研究発表会「NLP若手の会第9回シンポジウム」でも、多くの研究がWord2Vecに関連したテーマについて取り上げていた。今後、意味解析、文書分類、機械翻訳など様々な分野でWord2Vecの応用が期待されている。「意味ベクトル」の驚異的な性質 Word2Vecは、その名前の表す通り、単語をベクトル化して表現する
beth321 2014/11/13
あとで読む

プログラミング系読み

自然言語処理

nlp

word2vec

後で読む

学び

気になる
リンク
深層学習(Deep Learning)とベイズ的最適化(Bayesian Optimization)による医用画像読影支援の試み
深層学習(Deep Learning)とベイズ的最適化(Bayesian Optimization)による医用画像読影支援の試み
beth321 2014/11/10
機械学習

ホットエントリ

deep learning

from mikutter

あとで読む

システム

ベイズ

machine learning

NLP

network
リンク
レーベンシュタイン距離 - Wikipedia
レーベンシュタイン距離（レーベンシュタインきょり、英: Levenshtein distance）は、二つの文字列がどの程度異なっているかを示す距離の一種である。編集距離（へんしゅうきょり、英: edit distance）とも呼ばれる。具体的には、1文字の挿入・削除・置換によって、一方の文字列をもう一方の文字列に変形するのに必要な手順の最小回数として定義される[1]。名称は、1965年にこれを考案したロシアの学者ウラジーミル・レーベンシュタイン (露: Влади́мир Левенште́йн) にちなむ。レーベンシュタイン距離は、同じ文字数の単語に対する置換編集に使われているハミング距離の一般化であると見なすことが可能である。レーベンシュタイン距離の更なる一般化として、例えば一回の操作で二文字を変換する等の方法が考えられる。実際的な距離の求め方を例示すれば、「kitten」を「s
beth321 2014/11/08
algorithm

編集距離

アルゴリズム

math

レーベンシュタイン距

wikipedia

プログラミング

search

Programming

nlp
リンク
Python による日本語自然言語処理
はじめにこの文書は、 Steven Bird, Ewan Klein, Edward Loper 著萩原正人、中山敬広、水野貴明　訳『入門自然言語処理』 O'Reilly Japan, 2010. の第12章「Python による日本語自然言語処理」を、原書 Natural Language Processing with Python と同じ Creative Commons Attribution Noncommercial No Derivative Works 3.0 US License の下で公開するものです。原書では主に英語を対象とした自然言語処理を取り扱っています。内容や考え方の多くは言語に依存しないものではありますが、単語の分かち書きをしない点や統語構造等の違いから、日本語を対象とする場合、いくつか気をつけなければいけない点があります。日本語を扱う場合にも
beth321 2014/11/05
Python

japan

programming

自然言語処理

ホットエントリ

あとで

NLP

日本語

あとで読む

TextMining
リンク
東大目指す人工知能４７０以上の大学“合格”　NHKニュース
東京大学合格を目指して国立情報学研究所などが開発した人工知能が、去年に比べて学力を伸ばし、ことしは予備校の模擬試験で国公立大学を含む４７０余りの大学に合格できる成績となりました。研究グループはプロジェクトを通じ、「人工知能の可能性と限界を明らかにしたい」と意気込んでいます。この東大合格を目指す人工知能は「東ロボくん」と呼ばれ、国立情報学研究所の新井紀子教授らの研究チームが開発しています。２度目の挑戦となったことしの模試の結果は２日、東京の大手予備校で発表され、すべての科目を合わせた偏差値は、去年の４５．１から４７．３へと伸びました。この成績は、目指す東大合格にはまだまだ届きませんが、国公立大学４校を含む４７０余りの大学で「合格率８０％以上」を示すＡ判定となりました。５教科７科目の成績は、国語と英語、世界史、それに２科目の数学のうちの数２・Ｂが平均点を超え、特に英語は偏差値が１０近
beth321 2014/11/03
エレクトリック

AI

人工知能

science

東ロボくん

東ロボ

NLP

学び

NHK

研究
リンク
前のページ 1 2 3 4 5 6 次のページ