タグ

MeCabに関するyahihiのブックマーク (10)

  • 続・MeCabの分かち書きを並列処理で高速化する

    まとめ Pythonから巨大なテキストファイルを並列に読み込み・処理・書き込みする方法を紹介 読み込み: テキストファイルをバイト列として見て、プロセスごとにファイルの読み込み区間を割り振る 処理: multiprocessingを用いた並列処理 書き込み: プロセスごとにtmpファイルへ並列に書き込み & catによる結合 はじめに 日形態素解析器であるMeCabを用いると、日語のテキストに対する解析や処理が簡単に実行できます。 特に最近は、BERTをはじめとする深層学習モデルへの入力のための前処理として、MeCabなどを用いて文を単語単位に分割する「分かち書き」を行う機会が多くなっています。 MeCabはコマンドラインから実行することもできますし、Pythonなどからプログラム的に呼び出すことも可能です。 特にコマンドラインから実行する場合は、インストールさえ終わっていれば以下の

    続・MeCabの分かち書きを並列処理で高速化する
    yahihi
    yahihi 2022/11/17
  • Play frameworkでmecab apiを自炊する - Syo-Takasakiの日記

    Play frameworkのインストールは,zipを解凍するだけなので省略. 環境はUbuntu Desktop 10.04.MecabはUTF-8阪. Mecabのインストールは,http://d.hatena.ne.jp/Syo-Takasaki/20090528/1243484754 を参照してください. apiアプリの生成 $ ./play new api api/app/controllers/Mecab.javaの作成 $ which mecab /usr/bin/mecab package controllers; import java.io.BufferedReader; import java.io.BufferedWriter; import java.io.IOException; import java.io.InputStream; import java.i

    Play frameworkでmecab apiを自炊する - Syo-Takasakiの日記
  • 自然言語系(?)情報 | mwSoft

    形態素解析 Mecab、mecab-ruby、IAP、NAIST、UniDic辞書のインストール手順と簡単なサンプル MeCabをコマンドラインから実行した際に指定できる引数と、その実行サンプル一覧 日テレビ東京というどこで分けるか判別し辛い言葉を使って、コスト計算について解説 複数の辞書による解析結果を並べて表示します。どの辞書を使うか悩んだ時などにお使いください Igoのインストールと軽く使ってみた感想などを 辞書内包でLuceneでもSolrでも使える便利なライブラリ SearchモードがおしゃれなKuromojiを利用したメモ 言語資源 Wikimediaが公開しているDBのダンプ等のデータファイルの入手方法と、内容の説明 Solrサーバを立ててWikipediaのデータを登録する 対象を絞ったIME辞書は良い教師になってくれるかもしれない 不自然言語資源の宝庫であるTwitte

  • ウノウラボ Unoh Labs: PHPとMecabでキーワード自動リンクを実装する

    こんにちは、山下です。 今年もどうぞよろしくお願い致します。 Webサービスを開発していると、特定のキーワードを自動でURLリンクにする処理が必要になることがあると思います。今回は、このキーワード自動リンク機能を形態素解析ツールMecabを使ってPHPで実装する方法を紹介したいと思います。 説明に入る前に少し補足しておくと、Trieの実装であるDouble-Array処理だけ利用したいのであれば、MecabからDouble-Array処理の部分を切り出したDartsというライブラリがあります。しかし、なぜMecabを使うかというと、PerlだとDartsのバインディングが公開されているのですが、現時点でPHP版はありません。また、最近のLinuxディストリビューションでは、Mecabのパッケージが最初から用意されているため、より簡単に利用できると思ったからです。 それでは、順を追って説明

  • 橋本商会 » スーパーボット大戦

    Twitter / ahokaiという、自分の過去の発言を収集し、n-gramモデルとマルコフ連鎖を用いて分析・発言するプログラムを作りました。いわゆるボットという奴です。 方法については「圧縮新聞」を作った – phaニート日記が詳しいです。 こちらからahokaiの全ソースコードをダウンロードできます。 shokai / bot-ahokai / overview — bitbucket.org 詳しい作り方やいきさつはbot ahokaiの作成 – 橋詳解に書いたのですが、 今回はahokaiの様な「自分の発言を再構成して喋るbot」を設置する方法を書きます。 botがたくさん喋ってくれればクリスマスも寂しくないし、師走で忙しくても平気です。みんなで実在の人物を元にしたボットを設置して裏twitterを作り、最終戦争終結後もボット同士が喋り合いスーパーボット大戦しましょう。 主な

    橋本商会 » スーパーボット大戦
    yahihi
    yahihi 2011/07/17
    自分の過去の発言を収集し、n-gramモデルとマルコフ連鎖を用いて分析・発言するプログラム。いわゆるボット。
  • きまぐれ日記: Yahoo!の形態素解析をMeCabで無理やり再現してみる

    MeCabで形態素解析器を作りたい場合は以下の二つの言語リソースが必要です。 1. 辞書 (単語と品詞のペアの集合) 2. 入力文と、それに対応する正解出力ペア(正解データ) 現在公開している mecab-ipadic は、ipadicとRWCPコーパスという正解データを使っています。 ここから分かるとおり、少なくともMeCabを使う場合は、コスト値を丹念にチューニング するといった職人芸は要りません。形態素解析への入力文とそれに対応する(理想)出力 があればコスト値を機械学習的なアプローチで構築することができます。 さらに、正解データを人手で作る必要は必ずしもありません。 すなわち、Yahoo!形態素解析器の出力結果を「擬似正解」とみなして MeCabの学習プログラムを走らせれば、Yahoo!の出力を高い精度で再現できる MeCab用辞書を作成することが原理的に可能です。 ふだんはあま

  • mecabのユーザ辞書でwikipediaとhatenaキーワードを利用する - てんぷろぐ

    (インストールの仕方などはほかの人がいっぱい説明してくれているので割愛) どうやら標準の辞書だけだと限界があるようので、以下の記事などを参考に 「wikipediahatenaキーワードをユーザ辞書として利用する」 ということをやってみました。 http://d.hatena.ne.jp/code46/20090531/p1 http://www.mwsoft.jp/programming/munou/mecab_hatena.html http://deepneko.dyndns.org/kokotech/2009/06/mecabwikipedia.html 作ったのは以下の2つのスクリプト。 webからデータを取ってきて、csv作成コマンド、辞書作成コマンドを呼び出すshell (convWebWordsToDic.sh) #!/bin/sh CSV=../data/words.c

  • MeCabで、キーワード抽出 - プログラマでありたい

    形態素解析器として圧倒的な性能を誇るMeCabですが、出来る事は形態素解析にとどまりません。公式ページにも載っているように、辞書さえカスタマイズすればひらがな⇔カタカナ変換やAutoLinkの作成といったことまで出来ます。 WikipediaのデータとMeCabを使えば、高速なキーワード抽出が出来ないかなと思い試してみました。辞書の定義にコストを書けば、長いキーワードを優先して抽出する最長一致法が出来そうです。それが出来れば、辞書にキーワードを登録すればおっけいかなと思い実験です。 準備 ・Mecabのインストール 省略 ・Wikipediaのダウンロード wikipediaからコーパスの作成を参照 ・辞書生成用のCSV作成 xml2sqlで作ったpage.txtを変換します。 この際、(曖昧さ回避)は除いておきます。 併せて、カンマが入っている見出し文は、別のものに置き換えておくこと c

    MeCabで、キーワード抽出 - プログラマでありたい
  • mecab辞書にwikipediaのタイトル名を追加 - kokotech

    wikipediaのタイトルを追加しようとしたらいくつかハマったので。 環境はFedora10。 まずはmecabのインストール。 # yum install mecab* とりあえずこれだけでおもむろに形態素解析してみる。 # echo けいおん!のせいでtwitter界隈にギター買うとか宣言してる奴が増えた | mecab けい    名詞,一般,*,*,*,*,けい,ケイ,ケイ おん    名詞,一般,*,*,*,*,おん,オン,オン !      記号,一般,*,*,*,*,!,!,! の      助詞,連体化,*,*,*,*,の,ノ,ノ せい    名詞,非自立,一般,*,*,*,せい,セイ,セイ で      助動詞,*,*,*,特殊・ダ,連用形,だ,デ,デ t       * w       * i       * t       * t       * e      

  • RMeCab - アールメカブ

    _ 基 2022 年 05 月 02 日 RMeCab_1.10 for R-4.2.0 (64bitUTF-8のみ対応) 公開 2022 年 04 月 29 日 RMeCab_1.08 for R-4.2.0 (64bitUTF-8のみ対応) 公開 2021 年 11 月 27 日 M1 MacOSX 用の注意を追記 2021 年 05 月 27 日 RMeCab_1.07 for R-4.1.0 (M1 Mac 用バイナリを追加で作成) 公開 2021 年 01 月 11 日 RMeCab_1.06 for R-4.0.3 (MacおよびLinuxでは辞書としてneologdを指定できるようになりました) 公開 R と MeCab? (ただしWindowsでは64bit UTF-8辞書版)の両方が既にインストールされているのならば R を起動し、コンソールで以下を実行すればRMe

  • 1