[B! Python][nlp] blueleのブックマーク

Decruft: Arc90's Readability in Python

bluele 2012/12/13

extract text from html

python
nlp

リンク

html2text: THE ASCIINATOR (aka html2txt)

(THE ASCIINATOR) html2text is a Python script that converts a page of HTML into clean, easy-to-read plain ASCII text. Better yet, that ASCII also happens to be valid Markdown (a text-to-HTML format). Also known as: html to text, htm to txt, htm2txt, ... Try Enter the address of the web page you'd like to convert. URL: Example sites: aaronsw.com, daringfireball.net. Bookmarklet: 2text Buy html2text

bluele 2012/12/10

HTML2Markdown

Python
nlp

リンク

Scripting Readability and Markdownify for clipping web pages - BrettTerpstra.com

bluele 2012/12/10

nlp
python

リンク

はてなグループの終了日を2020年1月31日(金)に決定しました - はてなの告知

はてなグループの終了日を2020年1月31日(金)に決定しました以下のエントリの通り、今年末を目処にはてなグループを終了予定である旨をお知らせしておりました。 2019年末を目処に、はてなグループの提供を終了する予定です - はてなグループ日記このたび、正式に終了日を決定いたしましたので、以下の通りご確認ください。終了日: 2020年1月31日(金) エクスポート希望申請期限:2020年1月31日(金) 終了日以降は、はてなグループの閲覧および投稿は行えません。日記のエクスポートが必要な方は以下の記事にしたがって手続きをしてください。はてなグループに投稿された日記データのエクスポートについて - はてなグループ日記ご利用のみなさまにはご迷惑をおかけいたしますが、どうぞよろしくお願いいたします。 2020-06-25 追記はてなグループ日記のエクスポートデータは2020年2月28

bluele 2012/07/12

リンク

Python による日本語自然言語処理

はじめにこの文書は、 Steven Bird, Ewan Klein, Edward Loper 著萩原正人、中山敬広、水野貴明　訳『入門自然言語処理』 O'Reilly Japan, 2010. の第12章「Python による日本語自然言語処理」を、原書 Natural Language Processing with Python と同じ Creative Commons Attribution Noncommercial No Derivative Works 3.0 US License の下で公開するものです。原書では主に英語を対象とした自然言語処理を取り扱っています。内容や考え方の多くは言語に依存しないものではありますが、単語の分かち書きをしない点や統語構造等の違いから、日本語を対象とする場合、いくつか気をつけなければいけない点があります。日本語を扱う場合にも

bluele 2012/05/11

nlp
python

リンク

RSSからマルコフ連鎖で文章生成する(Python)

マルコフ連鎖自体あんまり理解してないけど、とりあえず実際のソース読んで勉強しようかなーと思ってぐぐったら、一番上に出てきたページが繋がらなかったので、キャッシュからソースコードを拾ってそれをPythonに移植してちょっといじってみた。可変変数久しぶりに見た。やってること 1) ニュースサイトのRSSを習得 2) そのなかからランダムにエントリーを選んでMeCabへつっこむ。 3) MeCabからの結果をマルコフ連鎖によりつなげて出力。マルコフ連鎖についてはこのあたりとか読むといいかもしれない。形態素解析についてはここを読んだ。実際にはMeCabにお任せですが。 # -*- coding: utf-8 -*- import MeCab import string import random import feedparser import re import sys # http://

bluele 2012/04/26

マルコフ連鎖

python
nlp

リンク

言語処理100本ノック - 東北大学乾研究室 / Inui Lab, Tohoku University

FrontPage / 言語処理100本ノック 3 秒後に NLP 100 Drill Exercises に移動します。 (移動しない場合は、上のリンクをクリックしてください。) © Inui Laboratory 2010-2018 All rights reserved. 研究室紹介/About Us 過去に在籍したメンバー Members 研究室環境 Lab Facilities ↑研究会/Research Meetings 概要 Overview 総合研究会 Research Seminar 意味研究会 SIG Semantics 談話研究会 SIG Discourse 知識獲得研究会 SIG Knowledge Acquisition Embedding研究会 SIG Embedding KIAI Knowledge-Intensive Artificial Intellige

bluele 2012/04/16

Python
NLP

リンク

NLTK Home ‎(Natural Language Toolkit‎)

Open source Python modules, linguistic data and documentation for research and development in natural language processing, supporting dozens of NLP tasks, with distributions for Windows, Mac OSX and Linux. News - Version 0.9.6 released [8 December 2008]Code - functionality provided by NLTK in over 100,000 lines of Python codeData - 50 corpora and trained models that come with NLTKQuotes - what pe

bluele 2012/03/23

リンク

N-gramによる見出し語の切り出し2 - indexを作ってみたよ - Ponsuke’s Hobby Programming

Python | 12:26 | def ngram(index, id, string, span): u""" >>> index = {} >>> index = ngram(index, 1, u'わがはいは、ねこである', 2) >>> index == {u'わが': [{1: 1}], ... u'がは': [{1: 2}], ... u'はい': [{1: 3}], ... u'いは': [{1: 4}], ... u'は、': [{1: 5}], ... u'、ね': [{1: 6}], ... u'ねこ': [{1: 7}], ... u'こで': [{1: 8}], ... u'であ': [{1: 9}], ... u'ある': [{1: 10}], ... u'る' : [{1: 11}]} True >>> index = {} >>> index = ngra

bluele 2012/02/22

python
nlp

リンク

はてなブックマーク

タグ

関連タグで絞り込む (4)

Pythonとnlpに関するblueleのブックマーク (9)

お知らせ

今週のはてなブックマーク数ランキング（2025年11月第1週）

今週のはてなブックマーク数ランキング（2025年10月第4週）

今週のはてなブックマーク数ランキング（2025年10月第3週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス