You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
形態素解析と言うとMecabやらChasenやらKuromojiやらを使ってやる場合が多いんだけど、いざPHPでやろうとするとそれぞれにバインディングを準備したりして意外と面倒臭い。 ぼやぼや探していると、igo-PHPというお手軽そうなものがあるので、以下のサイトを参考に試してみる。 igo-PHPで形態素解析 PHP (igo-php) で形態素解析 [PHP]文章を解析して単語ごとに分解する(形態素解析) ドキュメントを読む感じだと、Mecab用の辞書を利用したJavaやCommon Lisp用のigoという形態素解析器をPHPに移植したものらしい。ので辞書フォーマット及び解析結果は、ほぼMeCab互換。らしい。ちなみに、PHPの他にもPytonやRubyなどの実装もあるっぽい。 Gitのレポジトリはこれ。 さわってみた感想 PHPだと形態素解析するにも関連するツールを入れて、準備し
概要 ホント誰得でもないのは重々承知していますが、思い立って 形態素解析器 kagome v2 をリリースしました。とはいっても、だいたいの機能は今ある kagome でも実装済みで、今さら変更してもどうよ・・・という感じではあります。 なので、モチベーションを維持するのが非常に難しくて、だらだらと時間だけがかかってしまいました。 折角作ったのでリリースノートです。 TL;DR; v2 で実現した事 辞書の分離 / バージョン管理 辞書毎に異なる素性項目の扱いの共通化 韓国語辞書対応 辞書の分離 辞書を別リポジトリに分離しました。これにより、長年(?)懸案だった辞書のバージョン管理が可能になりました。go.mod で指定すれば、どのバージョンの辞書を利用しているかがわかります。 また、これにより、これまで kagome.ipadic のような単独辞書を利用するだけのためのライブラリを別に切
# -*- coding:utf-8 -*- import os import urllib.request import json import configparser import codecs import csv import sys import sqlite3 from collections import namedtuple import types #/_/_/_/_/_/_/_/_/_/_/_/_/COTOHA_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/ # ここの部分のコードはこちらから取ってきています。 # https://qiita.com/gossy5454/items/83072418fb0c5f3e269f class CotohaApi: # 初期化 def __init__(self, client_id, client_secret,
NLP2018のワークショップに行ってきたのですが、そこで聞いてきたことのうち、形態素解析ツールに関することを大雑把にまとめておきます。聞いたことをまとめることが目的なので、詳細は各ツールのWebサイトやgithubページへ行ってください。 間違っている部分、追加したい内容があればコメントでお願いします。 追記: 2018/04/02 nlp2018の発表資料が公開されました。 Juman++ (リンク) MeCab (リンク) KyTea (リンク) Unidic (リンク) https://sites.google.com/view/nlp2018ws/ NLP2018 形態素解析の今とこれから 趣旨: どういう手法・ツールをどのようなタスクに対して使うべきかを選べるように、各ツールの開発者の発表を基に比較してもらうこと。 さまざまな発表がありましたが、形態素解析ツールに焦点を当ててま
● mecabのダウンロード http://taku910.github.io/mecab/#download 「mecab-0.996.tar.gz」(mecab本体) 「mecab-ipadic-2.7.0-20070801.tar.gz」(辞書ファイル) をダウンロードする。 ● mecabのインストール 形態素解析mecabのソースファイルをダウンロード http://taku910.github.io/mecab/#download tar xvf mecab-0.996.tar.gz cd mecab-0.996 ./configure --enable-utf8-only --prefix=/opt/local/ make sudo make install ● 辞書のインストール ( --with-charset=utf8 で文字コードをutf8にしている) ( --pre
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く