The domain has expired and may be available at auction. Register or transfer domains to Dynadot.com to save more and build your website for free!
今回は、非線形サポートベクトルマシンを試してみます。線形SVM(2010/5/1)は、カーネル関数に線形カーネル(ただの内積)を使いましたが、これを多項式カーネル(A)やガウスカーネル(B)に変更します。 カーネル関数は元のベクトルxを非線形写像によって高次元空間に写像した特徴ベクトルφ(x)の内積(C)で定義されます。 一般に特徴ベクトルφ(x)は高次元空間(無限次元空間でもOK)になるので普通にやってたら内積の計算量が非常に大きくなります。そこで、特徴ベクトルφ(x)の内積を計算せずに多項式カーネル(A)やガウスカーネル(B)の計算で置き換えるテクニックをカーネルトリックと呼ぶとのこと。多項式カーネルやガウスカーネルを使うとφ(x)を陽に計算する必要がなくなります。ただ、元の空間xでの内積は必要なんですよね・・・最初は、カーネルトリックのありがたみがよくわからなかったのですが、「入力空
はじめに この文書は、 Steven Bird, Ewan Klein, Edward Loper 著 萩原 正人、中山 敬広、水野 貴明 訳 『入門 自然言語処理』 O'Reilly Japan, 2010. の第12章「Python による日本語自然言語処理」を、原書 Natural Language Processing with Python と同じ Creative Commons Attribution Noncommercial No Derivative Works 3.0 US License の下で公開するものです。 原書では主に英語を対象とした自然言語処理を取り扱っています。内容や考え方の多くは言語に依存しないものではありますが、単語の分かち書きをしない点や統語構造等の違いから、日本語を対象とする場合、いくつか気をつけなければいけない点があります。日本語を扱う場合にも
何度かBeautifulSoupについては書いているのですが、未だに使い方が覚えられずにイライラします。仕方が無いのでまとめて置く事にしました。BeautifulSoupはHTMLから情報を取得するだけ無く、HTMLの編集もできますが、ここではスクレイピング用途のみに絞っています。 使用するのは以下のHTMLです。 このHTMLを使って色々と情報を取得したのが以下です。覚えるべきはfindAllだけです。注意する必要があるのは、textを指定した場合にタグオブジェクトが取れずに、テキストオブジェクトが取れるので、一旦parentで親のタグ取りましょうという事と、正規表現で条件指定する場合は、re.compileで正規表現オブジェクトを渡すという事位ですか。 #!/usr/bin/python # -*- coding: utf-8 -*- import re import urllib f
しばらくベンチマークコードを書いてなくてすっかり忘れていたので、メモ書きです。今回は例題として、yahooのこのページをBeautifulSoupとlxmlでのスクレイピング比較をしてみる事にしました。比較対象の関数は以下の通りです。どちらのコードも入力・出力ともに同じなので、どちらが実行時間やメモリ使用量が少ないのかを知りたくなりますね。 # BeautifulSoup def scrape_with_bs(html): from BeautifulSoup import BeautifulSoup soup = BeautifulSoup(html) rows = soup.find('table', attrs={'class':'channel9'}).findAll('tr') channels = rows[0].findAll('td', attrs={'class':'st
2007.11.15 Python から Yahoo! 日本語形態素解析Webサービスを使う (2) テーマ:プログラミング言語 Python を使う(339) カテゴリ:Python Python から Yahoo! 日本語形態素解析Webサービスを使う (1) では、ヒビノキロク: Yahoo! 形態素解析 API for Python の webma.py を使わせてもらうかなということで、そこで使われているライブラリを見ていたら、前置きが長くなってしまった。lxml と formencode がインストールされていないとこれは使えないよということでインストールを済ませたら早速使ってみる。 とりあえず ヒビノキロク: Yahoo! 形態素解析 API for Python コードを webma.py として保存して、lib/site-package に放り込む。コード中の、defau
2007.11.15 Python から Yahoo! 日本語形態素解析Webサービスを使う (1) テーマ:プログラミング言語 Python を使う(339) カテゴリ:Python 日本語形態素解析Webサービス を使ってなんかするかな。とりあえず、だれか Python でいいもの作っていないかなぁと捜してみると、2つ見つかった。 ヒビノキロク: Yahoo! 形態素解析 API for Python Inforno: Python版 Yahooテキスト解析 APIライブラリ ヒビノキロク の方は、pyparsing を使った 検索式を構文解析するPythonモジュール とかも公開されている。pylonshqのWikiのソースを表示するGreasemonkey マニアだなぁ。Monoで.NET Compact Framework向けのアプリケーションをコンパイルする とかもある。 In
以前作ったTwitter Botですが、動いている内容はとても単純。 ここまで単純ならわざわざMeCabを使わなくても良いのではと思ったので、以前話題になったYahoo! Japanが提供するWeb APIの日本語形態素解析を使ってみました。 Yahoo!デベロッパーネットワーク - テキスト解析 - 日本語形態素解析 まず下準備として、YahooのIDを持っておく必要があります。意外とGoogle依存なのでYahoo! Japanのアカウントの用意で手間取ったのは内緒:p あと、Yahoo! Japanのアカウントは各国共通じゃないのでFlickrとかの海外Yahoo!サービスのアカウントじゃログインできないので注意してください。 あとは、非常に簡潔にまとめてくださっている方がいらっしゃいますので、そちらを読んでいただければ・・・ YahooWebAPI"日本語形態素解析"を使って日本語
Python から Yahoo! 日本語形態素解析 Web サービスを使うための Wrapperを書いてみました。 ついでに前回紹介させてもらった「うはぁ検索」に組み込んで Wiki と はてな と Yahoo!日本語形態素解析Webサービス とAmazon を同時に検索する 「うひゃ検索」 に進化させてみました。 http://small-world.sakura.ne.jp/whya.cgi Yahoo! では形態素解析用の辞書のメンテナンスをしているとのことで 頻繁に検索される言葉は辞書に登録されているようです。 この辞書に登録されていればかなりメジャーな言葉といえそうですね。 ちなみに一般的な辞書に載ってなくって登録されているのは モーニング娘。( 名詞 ) しょこたん ( 名詞 ) ごっつい ( 形容詞 ) 等 残念ながら? まだ登録されていないのは。 ブラッディ・マンデイ (
あまりテストをしてないけど、少なくとも100倍くらい速いし、まず時間かけ過ぎで落とされない。これはとても大きい。 以下、コード def uniqueInverseIndex(feed_id, text): try: ngram = NgramTokenizer(feed_id, text) ngram.setNgramArr(2) except: response.out.write('NgramTokenizer make instance is faild') try: for i in ngram.getNgramArr(): InvIndex = InverseIndex.get_or_insert( "_" +i['word_text'], word_text=i['word_text']) InvIndex.feed_id.append(db.Text('%s:%s'%(i['
みんなのIoT/みんなのPythonの著者。二子玉近く160平米の庭付き一戸建てに嫁/息子/娘/わんこと暮らしてます。月間1000万PV/150万UUのWebサービス運営中。 免責事項 プライバシーポリシー Pythonのメタプログラミング手法の一つ「メタクラス」は,初心者にとっては「なんか強そう/経験値たくさんもらえそう」なアイテムの最右翼だと思う。反面「どうすればいいか/なにができるか」ということがなかなか理解しづらい。 英語のブログを見ていたら,メタクラスの理解に役立ちそうなちょうどよいサンプルを見つけたので,紹介がてら独自の解説を付け加えたいと思います。 メタクラスを簡単に説明すると,「本来コードを書かなければ実現できないような処理を黒魔術的な処理でなんとかしちゃう」ためのテクニックです。コード量を(時には劇的に)減らすことができたり,すっきりした見通しの良いクラス設計を実現できま
2010年09月21日18:00 カテゴリ書評/画評/品評Lightweight Languages 言語設計者たちが考えること - 書評 - Masterminds of Programming オライリー社の担当編集者赤池様より献本御礼。 言語設計者たちが考えること Mastermind of Programming Federico Biancuzzi / Shane Warden 伊藤真浩 / 頃末和義 / 佐藤嘉一 / 鈴木幸敏 / 村上雅章訳 [原著:Masterminds of Programming] ソフトウェアに関する人文系書籍としては、間違いなく最重要の一冊。今後これなしでソフトウェアに付いて語ることは慎まれるであろう。 このような重要な一冊に査読者としてお手伝いできたことは、光栄としかいいようがない。 本書「言語設計者たちが考えること」、原著"Masterminds
みんなのIoT/みんなのPythonの著者。二子玉近く160平米の庭付き一戸建てに嫁/息子/娘/わんこと暮らしてます。月間1000万PV/150万UUのWebサービス運営中。 免責事項 プライバシーポリシー 例によって翻訳です。Erlang for Python Programmersという英文記事の翻訳です。 Pythonを使っている人が関数型言語の考え方を学ぶのによい記事になってます。 Pythonはコードが分かりやすいので,Pythonistaだけでなく,RubyやPerl,PHPそしてJavaのような命令型言語を使っている人にとっても有益な記事だと思います:-)。 初めに ここ数年,Erlangへの注目が高まっている。Erlangのプログラミングモデルはプロセス間でメッセージをやりとりするだけで実行する並行プロセスに根ざしている。それぞれのプロセスはとてもシンプルな関数型言語で作ら
みんなのIoT/みんなのPythonの著者。二子玉近く160平米の庭付き一戸建てに嫁/息子/娘/わんこと暮らしてます。月間1000万PV/150万UUのWebサービス運営中。 免責事項 プライバシーポリシー プログラミング言語(C#,VB,PHP,C/C++,Python,Java,Ruby,JavaScript,Objective-C)やHTMLのコーディングスタンダードを集めたリストを発見しました。日本語訳があるものはできるかぎり探し出して,括弧のなかに併記して補ってあります。微妙に古いのが混じってるかな。Rubyは日本発のコーディング規約がある気がする(まつもとさんの日記を見つけた)。 元記事にPerlのスタイルガイドがなかったんだけど,モダンなPerlスタイルガイドがあったら教えて欲しいです:-)。 PythonにはPEP8というコーディングスタイルガイドがあってよく読まれることは
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く