corenlp-python に置いてある。 Stanford CoreNLP は Stanford で開発されている英語の自然言語処理に必要なツールを色々入れた Java のライブラリで、単語分割、文分割、品詞付与、原型の復元、固有表現抽出、構文解析、共参照解析など前処理の大抵のことができる。 CoreNLP の Python ラッパーはすでにあるが、このラッパーはかなりバグがある。例えばインプットに改行が入っていると改行の前までしか解析できなかったり、JSON-RPC が古いバージョンのプロトコルを使っていたり、処理を最長でも5秒でタイムアウトしてしまったり、30~50文以上あるテキストはそれ以降の文を全て破棄してしまうなどなどだ。 最後のバグは、おそらく最初に別のツール(nltkなど)で文分割をしてから使うことを想定しているのだろうが、CoreNLP はせっかく文分割のツールが入って
Beautiful Soup¶ Beautiful Soup は、 HTMLおよびXMLファイルからデータを抽出するためのPythonライブラリです。 お気に入りのパーサー(構文解析器)と連携して、パースツリー(構文木)のナビゲート、検索、修正を行うための慣用的な方法を提供します。 これにより、プログラマーは数時間から数日分の作業を節約することがよくあります。 (訳注) 石鹸は食べられない¶ この文章は Beautiful Soup 4.12.0 Documentation の日本語訳です。 以前、”Beautiful Soup”を”ビューティフルソープ”と読んでしまう英語が苦手でちょっぴりHな後輩のために Beautiful Soup 4.2.0 Documentation を翻訳しました。それから10年が経ち、内容が古くなったので、2024年8月時点で最新のドキュメントをあらためて訳し
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く