公式ドキュメントおよびブックは現在進行形で改定中とのことだけど。とりあえず開発環境にインストール。 まずはおなじみのpipで。 $ pip install nltk nltkにはNLTK Dataっていう付属のデータセットがあって、インタラクティブシェルからインストールできる。 >>> import nltk >>> nltk.download() NLTK Downloaderっていうウィンドウが現れるので、とりあえずbookを選択してdownloadして完了。 サンプルがてら、英語のパラグラフをセンテンスに分解してみる。 >>> import nltk.data >>> tokenizer = nltk.data.load('tokenizers/punkt/english.pickle') >>> para = "Hello World. This is a sample for n