タグ

Pythonとnlpに関するntaooのブックマーク (3)

  • Bitbucket

  • Stanford CoreNLP の Python ラッパーを作った - 重要なお知らせ

    corenlp-python に置いてある。 Stanford CoreNLP は Stanford で開発されている英語の自然言語処理に必要なツールを色々入れた Java のライブラリで、単語分割、文分割、品詞付与、原型の復元、固有表現抽出、構文解析、共参照解析など前処理の大抵のことができる。 CoreNLPPython ラッパーはすでにあるが、このラッパーはかなりバグがある。例えばインプットに改行が入っていると改行の前までしか解析できなかったり、JSON-RPC が古いバージョンのプロトコルを使っていたり、処理を最長でも5秒でタイムアウトしてしまったり、30~50文以上あるテキストはそれ以降の文を全て破棄してしまうなどなどだ。 最後のバグは、おそらく最初に別のツール(nltkなど)で文分割をしてから使うことを想定しているのだろうが、CoreNLP はせっかく文分割のツールが入って

    Stanford CoreNLP の Python ラッパーを作った - 重要なお知らせ
  • Beautiful Soup — Beautiful Soup 4.12.0 documentation 日本語版

    Beautiful Soup¶ Beautiful Soup は、 HTMLおよびXMLファイルからデータを抽出するためのPythonライブラリです。 お気に入りのパーサー(構文解析器)と連携して、パースツリー(構文木)のナビゲート、検索、修正を行うための慣用的な方法を提供します。 これにより、プログラマーは数時間から数日分の作業を節約することがよくあります。 (訳注) 石鹸はべられない¶ この文章は Beautiful Soup 4.12.0 Documentation の日語訳です。 以前、”Beautiful Soup”を”ビューティフルソープ”と読んでしまう英語が苦手でちょっぴりHな後輩のために Beautiful Soup 4.2.0 Documentation を翻訳しました。それから10年が経ち、内容が古くなったので、2024年8月時点で最新のドキュメントをあらためて訳し

  • 1