タグ

pythonと自然言語処理に関するkoemuのブックマーク (3)

  • Budou - 機械学習を用いた日本語改行問題へのソリューション - ウェブ雑記

    こんにちは! 日語のウェブサイトを作っていると、日語特有の問題にぶちあたることがありますよね。 その中でも今回着目したいのは、日語改行問題。最近、この問題を解決するためのライブラリを公開したので、紹介します。 github.com そもそも日語改行問題とは何か ウェブブラウザで日語で書かれたウェブサイトを見ていると、ときどき文章が変なところで改行されているのを目にすることがありますよね。 たとえば、こんなかんじ。 「ソリューション」が「ソリューショ」と「ン」に分かれてしまっています。読みにくいですね。 英語では単語がスペースによって区切られますが、日語や中国語などのアジア圏の言語では単語がスペースで区切られないことが多いです。 そのため、英語では単語の途中で改行されることは通常ありませんが、日語では単語の途中で改行されることがよくあります。 文ならともかく、見出しやキャッチ

    Budou - 機械学習を用いた日本語改行問題へのソリューション - ウェブ雑記
    koemu
    koemu 2016/09/13
    中途半端な改行をさせないよう、分かち書きした結果を使って改行ポイントを適切に判断してくれる。
  • NLP 100 Drill Exercises - 東北大学 乾研究室 / Inui Lab, Tohoku University

    言語処理100ノックについて † 言語処理100ノックは,言語処理を志す人を対象とした,プログラミングのトレーニング問題集です. 乾・岡崎研の新人研修勉強会の一つであるLearning Programmingで使われています. このトレーニングは,以下の点に配慮してデザインされています. 自然言語処理の研究を進める上で,一度は書いておいた方がよいプログラム 統計,機械学習,データベースなどの便利な概念・ツールを体験する 実用的で,かつワクワクするようなデータを題材とする 研究を進めるうえで重要なプログラミングのルール・作法を身につける モジュール性や組み合わせを考慮しつつ,短くてシンプルなプログラムを書く プログラムの動作を確認(デバッグ)しながらコーディングする 労力を節約する(既存のツール/プログラム/モジュールが使えるときは流用する) 計算資源(メモリ・実行時間)を無駄にしない方

  • 自然言語処理にはやっぱりPythonがいちばん - nokunoの日記

    Quoraで「自然言語処理に適したプログラミング言語はどれか?」という質問をしたところ,やっぱりPythonが一番人気のようです.What programming language is suitable for natural language processing? - Quora理由として以下が挙げられていますNLTKがあるから正規表現ライブラリ(re)が強力だからnumpyとscipyがあるから スクレイピングにBeautifulSoupやScrape.pyが使えるから Django / Pylons / TornadoのようなWebフレームワークがあるから また,機械学習のライブラリを言語別にまとめた質問もありました.こちらもJava, Python, Rが多いですね.Which programming language has the best repository of ma

  • 1