タグ

pythonとnlpに関するsudo1101のブックマーク (5)

  • 研究者流 コーディングの極意 言語処理学会第19回年次大会(NLP2013) チュートリアル資料(岡崎担当分)

    言語処理学会第19回年次大会 (NLP2013) チュートリアル資料(岡崎担当分) 岡崎 直観 東北大学大学院情報科学研究科 okazaki at ecei.tohoku.ac.jp http://www.chokkan.org/ @chokkanorg 研究者流 コーディングの極意 1 研究におけるコーディングの極意? • 今回のチュートリアルをきっかけにサーベイ – ソフトウェアエンジニア向けの指南書は存在 – でも,研究者向けの資料は数少ない • 自分が修士課程の頃は完全に我流だった – 複数文書自動要約のプログラムをすべてC++で実装 – *NIXを使うスキルはなく,すべてWindows上で実行 – 今から考えると,無駄だらけの実験作法だった • ほとんどの大学では実験の講義があるが… – 研究のためのコーディング作法は教えてくれない 2 繰り返される残念な光景 • 論文の締切前日

  • moco(beta)'s backup: 辞書内包/Pure Python実装の形態素解析器 Janome を公開しました

    一応の基機能がととのったので、できたてほやほやではありますが、Python製の形態素解析器 Janome を公開しました。 http://mocobeta.github.io/janome/ インストール方法や使い方は上記ページを見てください。 ソースコードはGithubにおいています: https://github.com/mocobeta/janome 【公開にいたった背景など】 日語テキストを分析したりテキストマイニングする場合、まずは形態素解析から始めると思います。 Python の場合、そのためには MeCab をインストールして、mecab-ipadic をインストールして、mecab-python をインストールする、という手順を踏むことが多いと思うのですが、環境依存のところでハマって面倒な思いをしたり、サーバ構築の手間がかかったり、しますよね。なので、Pythonモジュ

    sudo1101
    sudo1101 2015/06/20
    なんて素敵な!! ありがたやありがたや…。
  • tfidf, lsi, ldaを使ったツイッターユーザーの類似度計算

    tfidf, lsi, ldaを使ったツイッターユーザーの類似度計算メモ。 tfidf, lsi, ldaを使ったツイッターユーザーの類似度計算 ツイッターの@ts_3156のフォロー情報を使って、ツイッターユーザーの類似度計算を行いました。 結論だけ先に書いておくと、プロフィール情報だけを使って類似度計算を行なっても、全然いい結果にはならないです(^^) その理由あれこれは下の方に書いてあります。 「じゃあ、正確なツイッターユーザーの類似度計算はどうやればいいの?」についても下の方に書いておきました(^^) 今回書いたプログラムは、ツイッタープロフィールだけでなく文章集合の類似度計算全般に使えるので、よかったら各自で何かしら使ってみてください(^^) サンプルコードの動作環境 python2.7(2系なら何でもOKかも) もしない場合は、「yum install python27」でイン

  • 言語処理100本ノック 2015

    言語処理100ノックは,実践的な課題に取り組みながら,プログラミング,データ分析,研究のスキルを楽しく習得することを目指した問題集です 実用的でワクワクするような題材を厳選しました 言語処理に加えて,統計や機械学習などの周辺分野にも親しめます 研究やデータ分析の進め方,作法,スキルを修得できます 問題を解くのに必要なデータ・コーパスを配布しています 言語はPythonを想定していますが,他の言語にも対応しています

  • Python による日本語自然言語処理

    はじめに この文書は、 Steven Bird, Ewan Klein, Edward Loper 著 萩原 正人、中山 敬広、水野 貴明 訳 『入門 自然言語処理』 O'Reilly Japan, 2010. の第12章「Python による日語自然言語処理」を、原書 Natural Language Processing with Python と同じ Creative Commons Attribution Noncommercial No Derivative Works 3.0 US License の下で公開するものです。 原書では主に英語を対象とした自然言語処理を取り扱っています。内容や考え方の多くは言語に依存しないものではありますが、単語の分かち書きをしない点や統語構造等の違いから、日語を対象とする場合、いくつか気をつけなければいけない点があります。日語を扱う場合にも

    sudo1101
    sudo1101 2014/11/05
    『入門 自然 言語 処理 』 O'Reilly Japan, 2010. の第12章「 Python による日本語 自然 言語 処理 」
  • 1