[B! mecab] oinumeのブックマーク

日本語形態素解析器 MeCab を Python から利用する際の語彙データ（UniDic）が AWS 上で Open Data として公開されました | Amazon Web Services

Amazon Web Services ブログ日本語形態素解析器 MeCab を Python から利用する際の語彙データ（UniDic）が AWS 上で Open Data として公開されました多くの機械学習デベロッパーの方々が、AWS 上でさまざまなアルゴリズムの開発やモデルの構築を行なっています。中でも自然言語処理を行う際には、対象言語の特性に即した形で前処理を行う必要があります。日本語の自然言語処理を実施する際には、形態素解析と呼ばれる文章の分解処理を前位処理として一般的に行います。日本語形態素解析を行うためには、日本語の語彙データが必要となりますが、このデータは通常 GB 以上のサイズに及ぶ大きなサイズとなります。またこれらを用いた計算の際にも大量の GPU および CPU を必要とするため、従来こうしたモデルを構築する際には常にストレージおよびコンピューティングのリソースの

oinume 2020/10/10

リンク

[O] MeCab 用の新語辞書 mecab-ipadic-neologd を公開しました

MeCab 用の新語辞書 mecab-ipadic-neologd を公開しました Tweet [NLP] 日本語の文書を機械的に処理しようと思った時に、ほとんどの人が MeCabとIPADIC(IPA辞書)の両方、または、どちらかを使うことになります。 IPADICはとてもよく出来ていますが、更新されないまま年月が過ぎているので、例えば2015年3月上旬に急に流行ったような言葉は収録していません。そのため、今日生まれたような新しい文書(例、Apple Watch発売)を解析する時に困ります。困らない人もいますけど、僕は困ります。その課題に対処するために、日本全国津々浦々、自然言語処理に関わる全ての人は独自にMeCabの新語辞書を作って対応しているわけです。その際に元データとして使われることが多いのは Wikipedia 日本語版やはてなキーワードなどです。困ったことに、新語辞書を生成

oinume 2015/03/16

MeCab

リンク

mecabのユーザ辞書でwikipediaとhatenaキーワードを利用する - てんぷろぐ

（インストールの仕方などはほかの人がいっぱい説明してくれているので割愛）どうやら標準の辞書だけだと限界があるようので、以下の記事などを参考に「wikipediaとhatenaキーワードをユーザ辞書として利用する」ということをやってみました。 http://d.hatena.ne.jp/code46/20090531/p1 http://www.mwsoft.jp/programming/munou/mecab_hatena.html http://deepneko.dyndns.org/kokotech/2009/06/mecabwikipedia.html 作ったのは以下の2つのスクリプト。 webからデータを取ってきて、csv作成コマンド、辞書作成コマンドを呼び出すshell (convWebWordsToDic.sh) #!/bin/sh CSV=../data/words.c

oinume 2010/03/09

mecab

リンク

ダウンロードファイル一覧 - NAIST Japanese Dictionary - OSDN

ログインしていません。投稿を区別するために投稿者のニックネームをつけてください(ニックネームの一意性は保証されません。全く別の人も同じ名前を利用することが可能ですので本人であることの特定には利用できません。本人であることを保証したい場合にはログインして投稿を行なってください)。ログインする

oinume 2010/02/23

mecab
辞書

リンク

mecab辞書にwikipediaのタイトル名を追加 - kokotech

wikipediaのタイトルを追加しようとしたらいくつかハマったので。環境はFedora10。まずはmecabのインストール。 # yum install mecab* とりあえずこれだけでおもむろに形態素解析してみる。 # echo けいおん！のせいでtwitter界隈にギター買うとか宣言してる奴が増えた | mecab けい名詞,一般,*,*,*,*,けい,ケイ,ケイおん名詞,一般,*,*,*,*,おん,オン,オン！記号,一般,*,*,*,*,！,！,！の助詞,連体化,*,*,*,*,の,ノ,ノせい名詞,非自立,一般,*,*,*,せい,セイ,セイで助動詞,*,*,*,特殊・ダ,連用形,だ,デ,デ t * w * i * t * t * e

oinume 2009/08/15

mecab
cool

リンク

MeCabがオープンソースでありがたい - komagataのブログ

oinume 2009/05/09

Node#posidで品詞IDが取れる

mecab

リンク

Text::MeCab::Dictでカスタム辞書 - D-6 [相変わらず根無し]

Text::MeCab::Dictでカスタム辞書ちょっとリリースそのものでバタバタしてしまいましたが、Text::MeCabを使って、mecabのカスタム辞書に語句を比較的容易に追加できるようにしました。例はText::MeCab 0.20004に同梱されているeg/add_custom.plを参照してください。自分の場合はちょっと人名をがばっと追加したかったのでAcme::Actor::JA（codereposのみ -- CPANにはアップしてません）とText::MeCab::Dictを使って３０００人程の人名を追加してやりました。これをすると何がいいかというと、これまでだとものすごく有名な人の名前で検索する場合とかに「姓」「名」に名前が分けられてしまっていたところがその名前全体をひとつの語句として認識してくれるようになります。 # 追加前 shell > 堂本光一堂本名詞,

oinume 2008/01/14

カスタム辞書の作り方のポインタ

リンク

ウノウラボ Unoh Labs: PHPとMecabでキーワード自動リンクを実装する

こんにちは、山下です。今年もどうぞよろしくお願い致します。 Webサービスを開発していると、特定のキーワードを自動でURLリンクにする処理が必要になることがあると思います。今回は、このキーワード自動リンク機能を形態素解析ツールMecabを使ってPHPで実装する方法を紹介したいと思います。説明に入る前に少し補足しておくと、Trieの実装であるDouble-Array処理だけ利用したいのであれば、MecabからDouble-Array処理の部分を切り出したDartsというライブラリがあります。しかし、なぜMecabを使うかというと、PerlだとDartsのバインディングが公開されているのですが、現時点でPHP版はありません。また、最近のLinuxディストリビューションでは、Mecabのパッケージが最初から用意されているため、より簡単に利用できると思ったからです。それでは、順を追って説明

oinume 2008/01/07

へー

mecab

リンク

きまぐれ日記: ルー語変換を MeCab だけで実現

巷で話題のルー語変換．周りにこういうしゃべり方をする人がいるからかもしれませんが，爆笑しました中身は，MeCab -> EDICT -> Bilingual Emacspeak だそうです．単純な単語置換なので，MeCab を汎用テキスト変換ツールとして利用すればまったく同じことが MeCab だけで実現できます．やってることは単純で, MeCab の辞書の品詞フィールドをルー語にした辞書を作るだけです．対象のルー語がない場合は単語そのものを品詞に設定します．通常は「入力文字列 -> 品詞列」の変換が行われます．上記のような辞書を作ると，品詞の部分がすべてルー語に置き換わって「入力文字列 -> ルー語文字列」の変換が実現されます．しかも単語のつながりやすさや，出現しやすさは上記のような辞書を作っても CSV カラムの 2,3,4 カラム目に残っているので，原理的には M

oinume 2007/07/08

mecab
ネタ

リンク

はてなブックマーク

タグ

関連タグで絞り込む (6)

mecabに関するoinumeのブックマーク (9)

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第2週）

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

今週のはてなブックマーク数ランキング（2024年7月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス