[B! Python][NLP] Kshi_Kshiのブックマーク

pythonによる文字列の正規化 - TorasenLab@はてな

テキストマイニングなどを行うためには文書、文、単語などの文字列の正規化が重要です。単語の大文字小文字の統一、半角全角の統一などをする必要があります。文字列の正規化のために利用しているpythonコードを以下に書いておきます。今後増える可能性もあります。実行環境 Ubuntu 10.04 64ビット python 2.6.5 unicode型に変換する def unicode_ignore_invalid_char(text): if isinstance(text, str): return text.decode('utf-8', 'ignore') return text 変換不能な文字列を無視してstr型からunicode型に変換する。 str型に変換する def str_ignore_invalid_char(text): if isinstance(text, unico

Kshi_Kshi 2012/11/22

正規化。以下例: 全角英数字->半角英数字, 半角カタカナ->全角カタカナ

リンク

はてなグループの終了日を2020年1月31日(金)に決定しました - はてなの告知

はてなグループの終了日を2020年1月31日(金)に決定しました以下のエントリの通り、今年末を目処にはてなグループを終了予定である旨をお知らせしておりました。 2019年末を目処に、はてなグループの提供を終了する予定です - はてなグループ日記このたび、正式に終了日を決定いたしましたので、以下の通りご確認ください。終了日: 2020年1月31日(金) エクスポート希望申請期限:2020年1月31日(金) 終了日以降は、はてなグループの閲覧および投稿は行えません。日記のエクスポートが必要な方は以下の記事にしたがって手続きをしてください。はてなグループに投稿された日記データのエクスポートについて - はてなグループ日記ご利用のみなさまにはご迷惑をおかけいたしますが、どうぞよろしくお願いいたします。 2020-06-25 追記はてなグループ日記のエクスポートデータは2020年2月28

Kshi_Kshi 2012/11/18

リンク

GitHub - aritter/twitter_nlp: Twitter NLP Tools

You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

Kshi_Kshi 2012/09/28

あとでコード読む。

リンク

python-cjuman: A Python (SWIG) bindings of JUMAN, A Japanese Morphological Analyzer

python-cjuman: A Python (SWIG) bindings of JUMAN, A Japanese Morphological Analyzer python-cjuman とは python-cjuman は京都大学大学院黒橋研究室で開発・公開されている日本語形態素解析システム JUMAN を Python のモジュールとして利用するためのバインディングです。サーバーモードで起動したJUMANと通信する場合にくらべて、15％から20％ほど高速です。バインディングをコンパイルするためには、SWIG のバイナリと JUMAN のソースコードが必要です。Python-2.4 以上と JUMAN-5.1 以上で動作します。新着情報 2010-09-15 インストール方法に追記 2010-09-08 python-cjuman 0.1.0 2006年のリリースをこの

Kshi_Kshi 2012/06/11

python-juman

リンク

第1回にこにこテキストマイニング勉強会に参加しました #nicotextmining - nokunoの日記

というわけで参加してきました。第1回にこにこテキストマイニング勉強会 : ATND 目的テキストマイニングについての学習のスタートアップテキストマイニング技術に関して気軽に参加・議論することができる場の提供概要テキストマイニングとは、例えば製品の評判をweb上のテキストから抽出したり、大量のアンケートテキストを分析するために用いられる技術であり、特にマーケティングの場で多くの利用例があります。この勉強会ではそうしたテキストマイニングを題材とし、用いられている要素技術とそれに関わる課題の議論、またテキストマイニングを実務に活かす方法について考えていきます。会場のオラクルセミナールームでは隣でPythonハッカソンが行われており、そちらにも知り合いがいたり飲み物が無料だったりして居心地の良い場所が形成されていました（入るまでが大変でしたが‥）。Python Hack-a-thon 201

Kshi_Kshi 2012/02/03

リンク

Pythonの自然言語処理用パッケージNLTKをインストール - 取引費用ゼロの歴史〜アーカイヴズと歴史研究のトリセツ

自然言語処理用のPythonのパッケージ、NLTKをインストールしてみました。 Ubuntu 10.04にはNLTKが最初からはいっているけれど、ぼくがまだ使っている9.04には入っていないので、インストールしてみました。最初にエラーが出てちょっとだけ手間がかかったので手順をメモしておきます。 NLTKのサイトからソースをダウンロード。 http://www.nltk.org/download 作業フォルダに解凍して、できたフォルダ（ぼくのときはnltk-2.0b9）にcdで移動。できたら、つぎのコマンドでインストール sudo python setup.py install すると、ぼくの場合はyamlというのが入っていなかったらしく、つぎのようなメッセージが。 ImportError: No module named yaml なので、つぎのサイトからyamlをダウンロード。 htt

Kshi_Kshi 2011/09/24

リンク

Pythonによる日本語自然言語処理 #pyconjp

Pythonによる日本語自然言語処理 #pyconjp - Presentation Transcript Python @nokuno #pyconjp •  Python 2.X •  •  •  •  •  @nokuno / id:nokuno •  #TokyoNLP •  Social IME / StaKK •  Web •  Python 2.X Python 2.X / read write UTF-‐8 “ ” decode encode Unicode u” ” # encoding: utf-‐8 u” “ decode encode MeCab•  MeCab•  Python MeCab –  mecab ipadic, mecab-

Kshi_Kshi 2011/08/29

スライドnokuno

リンク

はてなブックマーク

タグ

関連タグで絞り込む (16)

PythonとNLPに関するKshi_Kshiのブックマーク (7)

お知らせ

月間はてなブックマーク数ランキング（2025年9月）

今週のはてなブックマーク数ランキング（2025年9月第4週）

今週のはてなブックマーク数ランキング（2025年9月第3週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス