[B! 形態素解析] beth321のブックマーク

beth321 id:beth321

形態素解析に関するbeth321のブックマーク (28)

http://bonten.ninjal.ac.jp/
beth321 2017/03/07
Corpus

形態素解析

日本語

検索

コーパス

ネット

*コーパス

nlp
リンク
日本語形態素解析の裏側を覗く！MeCab はどのように形態素解析しているか - クックパッド開発者ブログ
こんにちは、買物情報事業部の荒引 (@a_bicky) です。前回、「検索結果の疑問を解消するための検索の基礎」で単語単位でインデキシングする前提で説明しましたが、今回は文などを単語単位で分割するために使う技術である形態素解析について触れます。形態素解析器には色々ありますが、中でもメジャーと思われる MeCab の仕組みについて説明します。 MeCab の解析精度を上げるために辞書に単語を追加したことのある方もいると思いますが、動作原理を理解することで単語を追加する際に適切な生起コストを設定できるようになったり、学習の際に適切なパラメータを設定できるようになったりするはずです。なお、MeCab は汎用テキスト変換ツールとしても使用できますが、簡単のため MeCab + IPA 辞書のデフォルト設定前提で説明します。アジェンダ形態素解析とは MeCab における最適な解析結果の推
beth321 2016/05/12
日本語

クックパッド

あとで読む

技術

機械学習

形態素解析

mecab

nlp

自然言語処理

cookpad
リンク
形態素解析エンジンMeCabにて文章中から短歌を抽出 - inaniwa3's blog
概要偶然５７５７７になっている文章を短歌としてつぶやく Twitter の bot を作りました。フクロウが鳴くと明日は晴れるので洗濯物を干せという意味 #tanka ウィキペディア日本語版「フクロウ」より http://t.co/Dm1uHcQdzR— 偶然短歌bot (@g57577) 2014, 12月 31 再帰的アルゴリズムが有効な問題として有名であり #tanka ウィキペディア日本語版「ハノイの塔」より http://t.co/vm2ZqwImKi— 偶然短歌bot (@g57577) 2014, 12月 31 文章はウィキペディア日本語版を対象としました。作り方 jawiki-latest-pages-articles.xml.bz2 をダウンロード。 WP2TXT で上記を扱いやすい形式に変換。このスクリプトで５７５７７になっている文を抽出。数時間かけて（遅い）
beth321 2015/01/18
タイトル五七五

twitter

# |ω・)……

短歌

twitter

形態素解析

NLP

mecab

あとで読む

bot
リンク
RakutenMAによる形態素解析入門 - あんちべ！
概要本稿はRakutenMAというJavaScriptだけで動く学習器付きの形態素解析器を利用する入門記事です。本記事を読了すると、形態素解析の実行と形態素解析のモデルを作成・更新出来るようになります。また、本稿ははてな×PC工房との連動企画の補足をするべく書きました。「あんちべさんと一緒に Rakuten MA で形態素解析」はてなニュース連動企画第二弾！ : パソコン工房パソコン工房のPCで遊ぼう第2弾！あんちべさんと一緒に Rakuten MA で形態素解析 - はてなニュース RakutenMAを利用したエディタ判定器デモエディタ判定器 :パソコン工房【やじうまWatch】Emacs派とVim派の対立を煽る「エディタ判定器」が面白いと評判 -INTERNET Watch はじめに近年、twitterやFacebookなどのSNSやAmazonのレビューなどから得ら
beth321 2015/01/08
形態素解析

text

自然言語処理

JavaScript

あとで読む

MeCab

RakutenMA

nlp

学習

技術
リンク
GitHub - rakuten-nlp/rakutenma: Rakuten MA - morphological analyzer (word segmentor + PoS Tagger) for Chinese and Japanese written purely in JavaScript.
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
beth321 2015/01/08
Node.js

言語

git

javascript

形態素解析

nlp

rakuten

自然言語処理

library

TextMining
リンク
kuromoji.js - Webブラウザ上で分かち書き！ MOONGIFT
テキストから意味を読み取るというのは非常に難しく、そのための専用ソフトウェアが存在するほどです。そしてテキスト解析手法の一つとして知られているのが分かち書きです。日本語であればChasenがよく知られています。 kuromoji.jsはそんな分かち書き処理をJavaScriptで行ってしまおうというソフトウェアになります。KuromojiというApache財団のオープンソース分かち書きエンジンをJavaScriptにポーティングしています。 kuromoji.jsの使い方こちらはデモです。Webブラウザベースで動作しています。nodeでも使えます。適当な文章をリアルタイムに分かち書きできます。 kuromoji.jsは辞書ファイルをAjaxで取得しています。そのためサイズは大きくなりますが、分かち書きの精度はとても高くなります。サーバサイドで辞書を用意したり分かち書きエンジンを用意する
beth321 2014/12/25
apache

javascript

形態素解析

あとで読む

js

日本語

library

文章

分かち書き

nlp
リンク
日本語形態素解析器のイメージ - 唯物是真 @Scaled_Wurm
前にこんなツイートをしたけどもうちょっとちゃんとメモっておくゆるふわカジュアル勢()なので内容に間違ってる点があったら教えてくださると嬉しいです勝手なイメージだと、MeCab →一番使われてる。速い。辞書を弄くるのが簡単。いろいろ移植されてる。Juman→出力が詳しい。代表表記に正規化できる。KNPを使うときはこれ。KyTea→新しくていろいろ更新されてる。読みの推定ができる。部分的タグ付けによるドメイン適応ができる。— 無限猿(id:sucrose)@12月病 (@Scaled_Wurm) October 22, 2014 大雑把に言うと形態素解析では文章を単語+品詞の列に分解するいわゆる学校でならった文法とは違う文法を使っているので注意が必要ただし形態素解析器によって品詞体系や辞書に載っている単語が異なる形態素解析器では単語や品詞の列にコストが計算できるようになっていて、そ
beth321 2014/12/24
メモ

*program

自然言語処理

形態素解析

()

NLP

データ

あとで読む

機械学習

文章
リンク
日本語解析API、「gooラボ」で公開　形態素解析やひらがな化など
NTTレゾナントは12月3日、日本語解析技術に関するAPIを「gooラボ」で公開した。NTT研究所が開発し、長年「goo」で利用してきたAPIで、自社コンテンツを提供する企業やビッグデータ解析技術を求める企業などでの活用を想定している。公開したのは、文字列を形態素に分割する「形態素解析」、2つの語句の類似度合いを算出する「語句類似度算出」、文字列から人名や地名、組織名などを抽出する「固有表現抽出」、漢字混じりで書かれた文字列をひらがなかカタカナに変換する「ひらがな化」のAPI。今後も、企業や大学などからニーズが高い技術を公開し、オープンコラボレーションを加速するとしている。関連記事変わるAPIのエコシステム　ヤフーはなぜ、検索APIを有料にしたか TwitterのAPI利用制限が厳しくなり、ヤフーが検索API有料化を発表し……昨年は、大規模サービスのAPI公開姿勢に大きな変化があっ
beth321 2014/12/04
ITmedia ニュース

言語

gooラボ

ニュース

api

形態素解析

プログラミング

あとで読む

NLP

webサービス
リンク
第6回 N-gramと形態素解析との比較 | gihyo.jp
これまでに、N-gramと形態素解析の2つの検索エンジンの、見出し語の切り出し方法を説明しました。今回は、2つの見出し語の切り出し方法を比較し、それぞれの得意な点、不得意な点を明らかにしていきます。 2つの手法の概要はじめに、2つの手法をおさらいしてみます。形態素解析検索対象のテキストを形態素解析を行い分かち書きを行う分かち書きした単位を見出し語として転置インデックスを作成する転置インデックスを元に検索を行う N-gram 検索対象のテキストをN文字単位の文字列片に分解する分解した文字列片を見出し語として転置インデックスを作成する検索語をN文字単位の文字列片に分け検索を行う文字列の出現位置情報を利用すれば、漏れのない完全一致の検索が可能大きな違いは、「⁠転置インデックスの見出し語をどのように作るか」というプロセスが異なる点です。形態素解析は構文解析を行って分かち書きを行う
beth321 2014/10/31
形態素解析

development

卒論

検索

N-gram

自然言語処理

search

全文検索

検索エンジン

NLP
リンク
第5回 N-gramのしくみ | gihyo.jp
前回は形態素解析を使う検索エンジンのしくみについて説明しました。今回は、FINDSPOTで使用しているN-gramという検索エンジンのしくみについて説明します。 N-gramによる見出し語の切り出し前回は、形態素解析による検索エンジンでは、検索可能な最小単位が分かち書きの切り分け単位となる点を説明しました。一方、N-gramを使った検索エンジンでは、単純に文字の並びを見出し語としてインデックスを作成します。1文字を元にインデックスを作成する方法をユニグラム、2文字の並びを元にインデックスを作成する方法をバイグラム、3文字の並びを元にインデックスを作成する方法をトリグラムと呼んでいます。 1文字：ユニグラム 2文字：バイグラム 3文字：トリグラム N-gramによる見出し語の切り出しは、形態素解析のための文法解析を伴わないため、特定の自然言語に依存しないという特徴があります。 FINDS
beth321 2014/10/27
ngram

nlp

DB

n-gram

algorithm

search

形態素解析

検索

programming

検索エンジン
リンク
連載：検索エンジンを作る｜gihyo.jp … 技術評論社
運営元のロゴ Copyright © 2007-2024 All Rights Reserved by Gijutsu-Hyoron Co., Ltd. ページ内容の全部あるいは一部を無断で利用することを禁止します⁠。個別にライセンスが設定されている記事等はそのライセンスに従います。
beth321 2014/09/07
検索エンジン

あとで読む

programming

algorithm

自然言語処理

search

プログラミング

全文検索

形態素解析

検索
リンク
集合知プログラミング
TOPICS Programming , Web , Python 発行年月日 2008年07月 PRINT LENGTH 392 ISBN 978-4-87311-364-7 原書 Programming Collective Intelligence FORMAT Print 本書は現在注目を集めている「集合知（collective intelligence）」をテーマにした書籍です。機械学習のアルゴリズムと統計を使ってウェブのユーザが生み出した膨大なデータを分析、解釈する方法を、基礎から分かりやすく解説します。本書で紹介するのは「購入・レンタルした商品の情報を利用した推薦システム」、「膨大なデータから類似したアイテムを発見し、クラスタリングする方法」、「数多くの解決策の中から最適なものを探し出す方法」、「オークションの最終価格を予想する方法」、「カップルになりそうなペアを探す方法」、
beth321 2014/09/05
book

algorithm

programming

形態素解析

python

oreilly

本

books

プログラミング

書籍
リンク
小説形態素解析CGI - E.N.Nach
データ送信について、気になる方向けに文章をマスキングする機能を用意しました。 Enterする前に下記ボタンを押すことで、サーバーにデータを送信する前に、ブラウザ上でマスキング処理を実施することができます。マスキング実施 ※注意書きマスキングの結果については必ずご自身でご確認ください。できる限り元の品詞などを保持していますが、当然ながら解析結果には少なくない影響を与えることはご了解ください。本システムの送信データの取り扱いについては小説形態素解析 CGIとは？をご確認ください。
beth321 2014/05/16
創作

Webサービス

形態素解析

小説

cgi

ツール

writing

tool

web

文章
リンク
忍殺語形態素解析辞書「チャドー」がリリース｜Colorless Green Ideas
「ドーモ。自然言語処理屋＝サン。形態素解析辞書チャドーです」オジギ終了後0.7秒後。ネオサイタマのドロップボックスにアップロードされた辞書のURLが示された。「アイエエエエ！ケイタイソカイセキ！？ケイタイソカイセキナンデ！？」小説『ニンジャスレイヤー』の日本語訳 [1] では独特の言葉遣いが使われており、俗に「忍殺語」 [2] と呼ばれている。この忍殺語の形態素解析を行うための辞書「チャドー」のバージョン1.0.0が2014年5月10日公開された。今のところ、Dropboxを通じて配付されている。かつてニンジャが横行していた時代、日本の人々は文字を連ねるのみで、それを分かつことを知らなかった。古事記にもそう書いている。しかし、言葉の切れ目が分からないと実際不便である。このような状況に対して、平安時代の哲学剣士ミヤモト・マサシは、ジュージツの修行中に形態素解析という手法を発見した。
beth321 2014/05/12
言語

形態素解析

nlp

辞書

言葉

njslyr

形態解析

software

忍殺

ml
リンク
MeCab: Yet Another Part-of-Speech and Morphological Analyzer
MeCab に至るまでの形態素解析器開発の歴史等はこちらをご覧くださいメーリングリスト一般ユーザ向けメーリングリスト開発者向けメーリングリスト新着情報 2012-01-27 MeCab 0.993 MeCab::Tagger::formatNode()が正しく動いていなかった問題の修正スタックの消費を抑えるため、ほとんどのローカル変数(配列)をヒープ上に退避 2012-01-14 MeCab 0.992 ソースコード中のTypoの修正 2012-01-14 MeCab 0.991 空文字列もしくは空白文字列を解析した時に解析エラーとなる問題を修正ユーザ辞書の作成に失敗する場合がある問題を修正 2011-12-24 MeCab 0.99 MeCab::Model, MeCab::Lattice クラスを追加マルチスレッド環境でのユーザビリティの向上。複数スレッドが同一
beth321 2014/04/22
Linux

()

Google

MeCab

形態素解析

自然言語処理

OSS

software

TDAP

nlp
リンク
日本語形態素解析の初歩 - あらびき日記
この記事は abicky.net の日本語形態素解析の初歩に移行しました
beth321 2014/03/27
形態素解析

analysis

自然言語処理

日本語

Mecab

NLP

TextMining

言語学
リンク
辞書不要の形態素解析エンジン「マリモ」とは − ＠IT
2007/08/15 検索サービスを提供するベンチャー企業のムーターは8月1日、辞書を必要としない形態素解析エンジン「マリモ」の提供を開始した。従来、形態素解析では品詞情報を含む日本語辞書を用意するのが常識だったが、マリモでは、そうした辞書を不要とした。新技術のアプローチと特性について、開発元のムーターに話を聞いた。統計処理で単語部分を推定形態素解析とは、与えられた文を、文法上意味のある最小の単位（形態素）に区切る処理。「今日は晴れています」なら、「今日（名詞）／は（助詞）／晴れ（動詞）／て（助詞）／い（助詞）／ます（助動詞）」と分ける。検索エンジンをはじめ、さまざまな自然言語処理の場面で必要となる基礎技術だ。形態素解析を行うには、あらかじめ品詞情報が付加された数十万語からなる辞書を用意する必要がある。また、新語や造語、専門用語に対応するには、個別に人力で単語を登録する必要がある。
beth321 2014/01/11
形態素解析

自然言語処理

search

nlp

検索

技術

アルゴリズム

algorithm

日本語

検索エンジン
リンク
はてブのホッテントリのタイトルを要約してWebの今を見つめる - Qiita
GoogleReaderが終焉し、SmartNews,Gunosyなど寝ててもおすすめコンテンツが降ってくるサービスが注目を集めている今、ここでひとつ自分もなんか気の利いたものを作ってみたい。というわけで、はてブの人気エントリーから記事を引っ張ってきて、ズバリ一行に要約するプログラムを書いてみた。はいこれ。要約くん http://xiidec.appspot.com/markov.html これを使うと・・・けだるい猫ライオンがこの国でエリートコースに乗れると日本の真相。こんな感じでなぜ高学歴の差別発言が求められるのかって生産性を欲しがった話をどうするか。今話題のニュースがごちゃ混ぜになって一行に要約される。浜崎あゆみの件、原子炉に十分届かず　炉心溶融の差別発言が続出。 Webの今が１行で分かる！仕組みサーバサイド(Python)で、はてなブックマーク人気エントリーの
beth321 2013/12/15
app

javascript

Python

形態素解析

はてブ

アルゴリズム

RSS

web

webサービス

nlp
リンク
形態素解析に基づくＡＶタイトルの特徴分析 - oscillographの日記
こんばんは。夜の@oscillographです。最近DMMアダルトがAPIを公開しました。つまり、プログラムで直接データを取得できるようになったわけです。ということで、今回はDMMアダルト（動画）の全タイトルを取得して形態素解析を行うことによって日本のAVタイトルの特徴を分析しようということになりました。手順としては、 DMM（ビデオ）のメーカーページを「あ」～「ん」までHTMLで取得メーカーが特定タグに囲われていたので、正規表現パターンマッチで全メーカーを取得し、メーカー羅列をテキストに保存テキストを読み込みながら各AVメーカーごとにapiを用いてAVタイトルを展開し、全メーカーのタイトルを取得タイトルについて形態素解析を行うことによって単語を集計正規化（全体の数で割ることによって割合で表す）という感じでやりました。とりあえず、集計結果です。上位３０位を抜き出し
beth321 2013/11/19
形態素解析

ネタ

api

av

dmm

programming

エロ

アダルト

web

adult
リンク
Clojure/kuromojiでテキストマイニング入門　～形態素解析からワードカウントまで～ - あんちべ！
[テキストマイニング] Clojureでテキストマイニングをしたい！という方がTLにいらっしゃったので、 Clojureという言語とkuromojiという形態素解析器を用いたテキストマイニング入門の記事を書きます。この記事の通り手を動かすと、様々なテキスト、例えばアンケートの自由記述やブログ、twitterなどの文章に形態素解析を掛け、ワードカウントと呼ばれる、ある単語が何回出現しているのかを解析する手法を使えるようになります。これを利用し、出現単語を頻度順に並べてランキングを作るなどして、その文書の特徴を明らかにするなどが出来るようになります。ある程度コンピュータを使えることは求めますが、プログラミングの前提知識はさほど求めていません。そのため、所々天下りなところ（ここはとりあえずこうやってください！と説明無しの記述）もありますが、ご容赦ください。形態素解析とは？形態素解析とは、
beth321 2013/09/11
clojure

形態素解析

自然言語処理

テキストマイニング

nlp

kuromoji

統計

ワードカウント

ライブラリ

読み物
リンク
1 2 次のページ