タグ

PythonとNLPに関するr_onodrのブックマーク (4)

  • PythonでMeCabの制約付き解析を使う - Qiita

    MeCabには制約付き解析という機能がありますが、これについて説明している記事がほとんどなかったので手探りで試してみました。 MeCab 0.996 Python 3.4 mecab-python3 0.7 制約付き解析とは 入力文の一部の形態素情報が既知である、あるいは境界がわかっているときに、 それを満たすように解析する機能です。 たとえば、「にわにはにわにわとりがいる。」という文に対して、「はにわ」の部分が名詞であるとか、「にわとり」の部分が一つの形態素であるというように指定した上で解析することができます。このとき、制約に反する4文字目の「は」が単独で形態素となったり、「にわとり」が「にわ」と「とり」に分割されるような解析候補は排除されます。 制約付き解析 (部分解析)より 形態素境界の制約をつける 文の一部の形態素境界がわかってるときに、その部分を一つの形態素として扱って解析するよ

    PythonでMeCabの制約付き解析を使う - Qiita
  • GitHub - saffsd/langid.py: Stand-alone language identification system

    You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

    GitHub - saffsd/langid.py: Stand-alone language identification system
  • TokyoWebmining - TokyoWebmining カテゴリ別発表資料

    Simple GAによる広告出稿最適化(@takenotabiさん) 30分でわかる広告配信エンジンの作り方(BTからコンテキスト広告まで)(@yamazさん) 安全にスケールするログ解析システム構築の勘所(@yamazさん) お金をかけず広告配信のログ分析システムを作った話(@karubiさん) エンジニアのためのアドテクノロジー再入門:アドテクの基礎からRealTimeBiddingまで(@jazzyslideさん) Optimizing for conversion in display advertising campaigns(@tsubosakaさん) リアルタイム広告システム最前線(@yamazさん) 広告クリエイティブの最適化の実際(@kan_yukikoさん) LT: インターネット広告代理店の現場におけるデータ分析探訪 (@hokagawaさん) LT: ビジネスレベル

  • NLP 100 Drill Exercises - 東北大学 乾研究室 / Inui Lab, Tohoku University

    言語処理100ノックについて † 言語処理100ノックは,言語処理を志す人を対象とした,プログラミングのトレーニング問題集です. 乾・岡崎研の新人研修勉強会の一つであるLearning Programmingで使われています. このトレーニングは,以下の点に配慮してデザインされています. 自然言語処理の研究を進める上で,一度は書いておいた方がよいプログラム 統計,機械学習,データベースなどの便利な概念・ツールを体験する 実用的で,かつワクワクするようなデータを題材とする 研究を進めるうえで重要なプログラミングのルール・作法を身につける モジュール性や組み合わせを考慮しつつ,短くてシンプルなプログラムを書く プログラムの動作を確認(デバッグ)しながらコーディングする 労力を節約する(既存のツール/プログラム/モジュールが使えるときは流用する) 計算資源(メモリ・実行時間)を無駄にしない方

  • 1