ファイル検索したのに、なかなか該当ファイルが見つからないということがある。必死に探し回ってようやく見つけると、検索キーワードの送りがなや表記の揺れが原因でファイル検索で見つからなかったということも多々ある。例えば「引き換え」で検索していたが本文には「引換え」と書かれていた場合だ。今回、こうした表記揺れを吸収するために形態素解析を利用した簡単なファイル検索ツールを作ってみよう。 曖昧検索したところ - grepで見つけられなかったファイルも曖昧検索で見つけることができた 形態素解析で簡単表記揺れ吸収検索 「形態素解析」とは単語辞書を利用して、文章を最小単位の単語に区切る技術だ。多くの形態素解析を行うツールでは、単語辞書を利用して単語のヨミガナを取得する機能がついている。この機能を使う事でちょっとした表記揺れを吸収することができる。 欠点としてはテキストと単語辞書を照合していくため動作速度は遅
[janome 開発日誌] v0.4.0 をリリースしました(メモリ使用量の削減や Python2.7 サポート停止などなど) 久し振りの,大型アップデート報告となります 🙌 v0.4.0 をリリースしました。今回はいくつかの Breaking changes と Behavior changes を含むため,マイナーバージョンを 0.4.0 に上げています。アップグレードの際は下記変更点の確認をお願いします。 Breaking changes Python 2.7 サポートの停止Python 2.7 サポートを停止しました。v0.4.0 では Python 3.6 以上のみサポートします。 またこれに伴い,種々のリファクタリングを実施しました。ユーザーサイドでは,Public API に Type Hint を導入したことで,開発時に IDE やエディタの型サジェストを受けられるように
Transcript ͋Δݸਓ։ൃ OSS ͷาΈɿ 5 ࡀʹͳͬͨ Janome ͷ͜Ε·Ͱͱɼ͜Ε͔Β PyConJP 2020 ଧాஐࢠ ࣗݾհ ଧాஐࢠ ڵຯɿݕࡧʢຊۀʣɼػցֶशɼࣗવݴޠॲཧ ❤ OSS : Janome ։ൃऀɼApache Lucene committer ॴଐɿʢגʣLegalForce ݚڀ։ൃΤϯδχΞ @moco_beta Agenda Janome ͷհ ॳظϦϦʔε͔Β͜Ε·Ͱ 0.4.0 ϦϦʔεͷ͓Βͤ ͜Ε͔Β͍͖͍ͬͯͨ͜ͱ https://mocobeta.github.io/janome/ 扉絵の この子は絵師さんに描いてもらいました (*´Ŗ`*) Hello, Janome $ pip install janome $ python >>> from janome.tokenizer import Tokenizer >
日本語のニュース文章を、感情極性対応表とjanomeを使って、良いニュース・悪いニュースで分類してみます。 livedoorニュースコーパスのロード 今回は以下で提供されているlivedoorニュースコーパスの内、トピックニュースをデータセットとして使います。 ダウンロード - 株式会社ロンウイット ldcc-20140209.tar.gzをダウンロード・解凍すると、textディレクトリ以下に9つのディレクトリが展開されます。 livedoorトピックニュースの記事はtopic-newsディレクトリ配下にあります。 1記事1ファイルとなっており、770ファイルが収録されています。 各ファイルは、1行目に記事のURL、2行目に投稿日時、3行目に記事タイトル、4行目以降は記事本文となっており、HTMLタグなどは含まないものとなっています(以下はtext/topic-news/topic-new
一応の基本機能がととのったので、できたてほやほやではありますが、Python製の形態素解析器 Janome を公開しました。 http://mocobeta.github.io/janome/ インストール方法や使い方は上記ページを見てください。 ソースコードはGithubにおいています: https://github.com/mocobeta/janome 【公開にいたった背景など】 日本語テキストを分析したりテキストマイニングする場合、まずは形態素解析から始めると思います。 Python の場合、そのためには MeCab をインストールして、mecab-ipadic をインストールして、mecab-python をインストールする、という手順を踏むことが多いと思うのですが、環境依存のところでハマって面倒な思いをしたり、サーバ構築の手間がかかったり、しますよね。なので、Pythonモジュ
以前に,neologd を内包した janome のビルド手順 を公開したのですが,さすがにちょっと大変だよなと思ったので,ビルド済みのパッケージを以下に置きました。 まだ, pip 一発… とはいかないのですが興味のある方はドウゾ。 インストール (venv)$ pip install Janome-0.3.5.neologd20170814.tar.gz --no-compile (venv)$ python -c "from janome.tokenizer import Tokenizer; Tokenizer(mmap=True)"実行 (venv) $ python >>> from janome.tokenizer import Tokenizer >>> t = Tokenizer(mmap=True) >>> s = u'トランプ大統領、最側近バノン氏解任 政権屋台骨揺ら
Welcome to janome's documentation! (Japanese)¶ English Janome とは¶ Janome (蛇の目; ◉) は,Pure Python で書かれた,辞書内包の形態素解析器です。 依存ライブラリなしで簡単にインストールでき,アプリケーションに組み込みやすいシンプルな API を備える形態素解析ライブラリを目指しています。 内包辞書として mecab-ipadic-2.7.0-20070801 を使っています。なお,v0.3.8+ では新元号「令和」がシステム辞書に追加されています。 ソースコードリポジトリ¶ https://github.com/mocobeta/janome 気に入ったらリポジトリにも★つけていってください! :) API リファレンス¶ https://mocobeta.github.io/janome/api/ 動
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く