[B! Mecab] ZAORIKUのブックマーク

https://sites.google.com/site/casualconcj/yutiriti-puroguramu/mecab-ruby-wo-insutoru-suru?tmpl=%2Fsystem%2Fapp%2Ftemplates%2Fprint%2F&showPrintDialog=1

ZAORIKU 2017/08/12

リンク

MeCab ソースコードリーディング私的メモ（形態素解析編） - あらびき日記

この記事は abicky.net の MeCab ソースコードリーディング私的メモ（形態素解析編）に移行しました

ZAORIKU 2016/05/17

Mecab

リンク

ソフトウェア

自作 Python ライブラリ cjholiday 日本の祝日を判定する jholiday.py の C エクステンション版です。 GitHub >>> import cjholiday >>> cjholiday.holiday_name(2020, 7, 24) 'スポーツの日' qreki.py 旧暦および六曜を算出します。オリジナルは QREKI.AWK です。 qreki.py ファイルのみで動作させることができます。しかし、 setup.py build を行って _qreki C エクステンションをビルドすることで、より高速の動作が可能となります。 GitHub 使用法 >>> from qreki import Kyureki >>> k = Kyureki.from_ymd(2009, 11, 27) >>> print k 2009年10月11日 >>> print k

ZAORIKU 2015/08/14

リンク

mecab-ipadic-neologdの辞書を、Lucene Kuromojiに適用してみる - CLOVER🍀

注意）このエントリでは、mecab-ipadic-neologdをLucene Kuromojiに適用するにあたり、2つほど問題が発生したのですが、作者の@overlastさんにそのうちのひとつを対応いただきました。修正版mecab-ipadic-neologdを使ってLucene Kuromojiに適用するエントリは、以下を見るようにしてください。修正されたmecab-ipadic-neologdの辞書を、Lucene Kuromojiに適用してみる http://d.hatena.ne.jp/Kazuhira/20150316/1426520209 こちらのエントリは、備忘録的に残っているだけです。以降は、それを踏まえた上で読まれますよう。とりあえずLucene Kuromojiに適用したい場合は、上記のエントリをご覧ください。先日、ちょっと気になるエントリが世の中に出ていま

ZAORIKU 2015/03/15

Mecab
nlp

リンク

MeCabのラッパークラスを使用して形態素解析を行う - DoboWiki

DOBON.NET DOBON.NET プログラミング道 .NET Tips 最近1週間の人気の20件.NETプログラミング研究/93 ( 122 / 149 / 138075 ) ぱたうさ ( 79 / 98 / 30611 ) .NETプログラミング研究/111 ( 78 / 81 / 46565 ) XBOX360/Review/PGR4 プロジェクトゴッサムレーシング4 ( 59 / 39 / 10267 ) free/kanaxsCSharp ( 58 / 74 / 30003 ) .NETプログラミング研究/94 ( 57 / 60 / 59892 ) .NETプログラミング研究/112 ( 55 / 81 / 37008 ) .NETプログラミング研究/72 ( 51 / 71 / 48203 ) .NETプログラミング研究/98 ( 48 / 57 / 42320 ) .N

ZAORIKU 2014/09/25

リンク

日本語形態素解析の初歩 - あらびき日記

この記事は abicky.net の日本語形態素解析の初歩に移行しました

ZAORIKU 2014/03/26

リンク

MeCabの辞書にはてなキーワードを追加しよう - 不可視点

MeCabは形態素解析のためのソフトウェアです。日本語を分かち書きするために使われるものとしては最も人気の高いものだと思われますが、チャットや掲示板に書き込まれるような崩した日本語や、正しく書かれた日本語でも新語を期待した通りに分かち書きしてくれないことがあります。これはMeCabの内部で使われている辞書が一般的な言葉を情報源としているわけではないことに関係があります。MeCabというか、より一般的な話ですが以下のような認識が一般的かと思われます。というのも、一番広く使われているであろう自然言語処理技術は形態素解析(単語分かち書き、と言ったほうがいいのかもしれない)であろうが、これは現在99%くらいの精度になっていて、すでに人間がやるより遙かに高精度で行えるのだが、これだけ高い精度が出せるのは新聞記事を相手にしたときだけであって、それは新聞記事をコーパスとして用いる機械学習により形態素解

ZAORIKU 2013/03/15

リンク

能動学習システムDUALISTを日本語テキストに適用する - 自然言語処理 on Mac

機械学習手法に基づくテキスト分類は十分な学習データがあれば高い精度が期待できますが、分類ラベルを人手でつける作業に手間がかかります。そこで、効率的に分類器を学習させる手法として、効果的な分類対象を優先的にラベル付けさせる能動学習(active learning)というアプローチがあります。 DUALISTは、アノテータに対象のラベル付けと同時に、素性であるキーワードが適切かどうかの判定を委ねる能動学習システムで、7月に開催されるEM NLP 2011に採択された論文で提案されており、実装も公開されています。 Google Code Archive - Long-term storage for Google Code Project Hosting. DUALISTのインストールと実行は簡単です。システムはJavaで実装されていて、機械学習パッケージのMALLETが同梱されています。他に、W

ZAORIKU 2013/03/03

リンク

「似ている」を探そう

今日から8月ですね！我が家の猫も夏毛に生え替わるようで、私も毛だらけです。志田です。さて、今回は「似ている」を探したいと思います。なにかとなにかがどのくらい似ているのか、という情報があれば、それが役に立つシーンはたくさんありますよね。ブログの似ている記事を探したり、趣味の似ているユーザを探したり、用途は様々です。「何が似ているのか」という尺度にも様々あるように、類似度というのはいろいろな観点から調べることができます。今回は、アシアルブログから似ている記事を探してみたいと思います。手順としては、Mecabというライブラリを使って記事を形態素解析し、単語に分けます。そして、元となる記事とその他の記事全体を見て、コサイン類似度という手法を用いて記事同士の類似度を測定し、似ている記事を3件見つけます。 (1) ブログ記事を取得するブログ記事を取得し、ディレクトリに保存しておきます。

ZAORIKU 2013/02/07

リンク

顔文字をMeCabで形態素解析する - Haroperi.log

顔文字を形態素解析？テキストコミュニケーションにおける「身振り手振り言語」とも言われる顔文字は、目・鼻・口などの顔のパーツから構成されています。ところで顔文字をパーツごとに分割し、パーツの種類（品詞）を推定するというタスクは、形態素解析と同じ問題に帰着します。そこで今回私は、形態素解析器として使われているMeCabを用いて、顔文字を形態素解析してみました。デモまずはデモを試してみてください。 http://www.haroperi.info/cgi-bin/emoticon.cgi 実行結果未知語処理が苦手なようで、なかなか正確な形態素解析は行えませんが、教師データを解析してみると、以下のように綺麗に分割・品詞付与されます。詳細詳細はhttp://www.haroperi.info/emoticon/mecab.htmlに書きました。これ以上はどこにも書いていません。今後、M

ZAORIKU 2012/07/12

リンク

MeCabの辞書をカスタマイズする | mwSoft

概要 MeCab0.994で再学習機能が入ったので、その辺りも含めてMeCabの辞書カスタマイズ方法を洗ってみる。今回取り扱うのは、CSV形式で新しい単語の情報を記述して辞書を生成（mecab-dict-index）する方法と、文章の解析結果を用意してそれを利用して学習（mecab-cost-train）する方法。 Linuxで実行。Windowsは知らない。単語追加用のCSVファイルを作成するまずはCSVファイルを手書きして、MeCabの辞書に新しい単語を追加してみる。やり方は公式サイトに載っている。今回は例として「アメリカの大統領の名前くらい登録しておきたいよね」ということでバラクとオバマという2つの固有名詞を追加してみる。両単語はIPA辞書では未知語になっている。 $ echo "バラク・オバマ" | mecab -U"%M\t%H\t未知語\n" バラク名詞,一般,*,

ZAORIKU 2012/07/01

リンク

ラム君（モヒカンVer）のお勉強ログ　64bit版Windows7でmecabのjavaバインディングをコンパイル。

仕事でWindows上のJavaからMeCabの機能を使う必要がでてきたので Windows用のMeCab-javaバインディングを使えるようにするまでの準備をメモしておく。 mecabのインストール MeCab本体のインストール http://sourceforge.net/projects/mecab/files/mecab-win32/0.98/mecab-0.98.exe/download 辞書にはUTF-8を選択してインストールちなみにこのmecab自体は32ビットでコンパイルされてしまっている模様。必要なモジュールのダウンロード他。 Microsoft Windows SDK for Windows 7 and .NET Framework 4 をダウンロードswigのダウンロード http://sourceforge.net/projects/swig/files/swig

ZAORIKU 2012/01/06

64bit[windows]バインディング[@]

java
mecab

リンク

はてなブックマーク

タグ

関連タグで絞り込む (18)

Mecabに関するZAORIKUのブックマーク (12)

お知らせ

今週のはてなブックマーク数ランキング（2024年6月第2週）

月間はてなブックマーク数ランキング（2024年5月）

今週のはてなブックマーク数ランキング（2024年6月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス