meganehouserのブックマーク / 2011年9月21日

DANCE@LIVE S7 HOUSE KANTO CHARISMAX【SEMIFINAL】HERO vs TATSUO (WINNER HERO)

meganehouser 2011/09/21

TATSUOさんかっけー

ダンス

リンク

Pythonと日本語表示と文字コード、unicode 、str 、utf-8 、shift-jis 、、、 - Cassiopeiaの日記

Pythonは使いやすい覚えやすい気持ちいいとまで言う人もいる。たしかにその通りだと思った。しかし、日本語を使おうとした時に急に気持ち良くなくなる。そう感じたのは僕だけではないはずだ。ということで今日の日記のネタはPythonと日本語となりました。 (WindowsXPにココから "Python 2.5.1 Windows installer" をインストールした環境でテストしています。) まずは、あなたが書いたコードはutf-8で保存する。そして、そのコードの先頭には以下を記入する。 # -*- coding: utf-8 -*- あなたはエディタに何を使っていますか？　秀丸、メモ帳、vim、meadow、或いは Python Scripter、eclipse ？いずれにしてもファイルを保存する時のエンコードはutf-8にすべし。では早速気持ちよくない(表示が文字化けする！)例。

meganehouser 2011/09/21

python

リンク

自然言語処理にはやっぱりPythonがいちばん - nokunoの日記

Quoraで「自然言語処理に適したプログラミング言語はどれか？」という質問をしたところ，やっぱりPythonが一番人気のようです．What programming language is suitable for natural language processing? - Quora理由として以下が挙げられていますNLTKがあるから正規表現ライブラリ（re）が強力だからnumpyとscipyがあるからスクレイピングにBeautifulSoupやScrape.pyが使えるから Django / Pylons / TornadoのようなWebフレームワークがあるからまた，機械学習のライブラリを言語別にまとめた質問もありました．こちらもJava, Python, Rが多いですね．Which programming language has the best repository of ma

meganehouser 2011/09/21

リンク

はてなグループの終了日を2020年1月31日(金)に決定しました - はてなの告知

はてなグループの終了日を2020年1月31日(金)に決定しました以下のエントリの通り、今年末を目処にはてなグループを終了予定である旨をお知らせしておりました。 2019年末を目処に、はてなグループの提供を終了する予定です - はてなグループ日記このたび、正式に終了日を決定いたしましたので、以下の通りご確認ください。終了日: 2020年1月31日(金) エクスポート希望申請期限:2020年1月31日(金) 終了日以降は、はてなグループの閲覧および投稿は行えません。日記のエクスポートが必要な方は以下の記事にしたがって手続きをしてください。はてなグループに投稿された日記データのエクスポートについて - はてなグループ日記ご利用のみなさまにはご迷惑をおかけいたしますが、どうぞよろしくお願いいたします。 2020-06-25 追記はてなグループ日記のエクスポートデータは2020年2月28

meganehouser 2011/09/21

リンク

日本語 WordNet (wn-ja)

日本語 WordNet リリース * 画像 * ダウンロード * 今後の予定 * 参考文献 * リンク * English 本プロジェクトでは、 Princeton WordNet や Global WordNet Gridに着想をえて、日本語のワードネットを構築し、オープンで公開します。独立行政法人情報通信研究機構（NICT）では、自然言語処理研究をサポートする一環として、2006年に日本語ワードネットの開発を開始しました。最初の版、version 0.9は、2009年2月にリリースされました。このversion 0.9は、 Princeton WordNetのsynsetに対応して日本語をつけています。もちろん、 Princeton WordNetにはない日本語synsetを付与する必要があり、また、 Princeton WordNetにみられるsynsetの階層構造に、

meganehouser 2011/09/21

自然言語処理

リンク

形態素解析器IgoのPython版作った

いろんなメモです。おもにプログラミング関係。 a memorandum. most of all contents are related to programming. Java(とCL)で書かれた形態素解析器であるIgoをPythonにほぼそのまま移植しました。 Java版で作った辞書がそのまま使えるようにしたので、辞書を作る部分は(まだ)移植してません。 mmapしてるのでGAEでは動きません。すぐ取りかかる予定です。またGAE版の辞書はBigEndianなのでそこらへんも対応する予定です。 https://code.launchpad.net/~hideaki-t/+junk/igo-pyに置きました。簡単なテストしかしてません。問題があったら教えてください！簡単なサンプル # coding: utf-8 import igo.Tagger t = igo.Tagger.Ta

meganehouser 2011/09/21

リンク

IPADIC(IPA辞書)とはなにものか？

※私は言語処理に関する知識は無いので、あくまで「IPADICとは何ものなのか？」という点に絞ってのみ記述しています。まあ、ここまで突っ込んだのは戯れですが、一応の目的として現在から未来にわたって無料で入手できる形態素解析を使うに当たり、「メンテナンスが継続されている辞書」が入手できるかを調べたかったという意図もあります。日本語を処理する上で形態素解析というのはわりと欠かせないものです。 Webのサービスでよく用いられている形態素解析器にはChaSenとmecabがありますが、これらのエンジンは何らかの辞書を利用して日本語を解析します。ちなみに形態素解析器と言うのはChaSenの表現を帰りれば「形態素解析器とは、入力文を単語単位に分割し品詞を付与するツールである。」ということです。形態素解析器の開発の歴史はMeCab の開発経緯をご覧ください。ここでChaSenにもMeCabにも、標準

meganehouser 2011/09/21

自然言語処理

リンク

MeCabとPythonで遊んでみたメモ - Λάδι Βιώσας

MeCab http://mecab.sourceforge.jp/ ココからインストール。MeCabには Python binding っていう便利なのがあるんだけど、Winだとどうも上手くコンパイル出来ない。あれこれ調べたところ、ココに、ctypes*1を利用したMeCabの使い方が書いてあったので、これを使うことにする。 ctypes ココからダウンロード。0.9.9.3はうまく動かなかったので、前のバージョンの0.9.6を使う。とりあえずこれでPythonからMeCabを使えるようになりました。マルコフ連鎖で、、、マルコフ連鎖アルゴリズムの説明やらサンプルが、ココとかココらへんにあったので参考にして、Pythonで書いてみた。 # -*- coding: sjis -*- from ctypes import * def sparse(s): # ライブラリの場所を指定 lib

meganehouser 2011/09/21

リンク

MeCabとPythonでマルコフ連鎖を書いてみる(改) | Weboo! Returns.

Python界でも自分で書いたプログラムを晒すとえらい人が添削してくれます、という仕組みはまだないですが、ちょうど時を同じくしてマルコフ連鎖のプログラムを書いている人がいました。マルコフ連鎖プログラム - pyletの日記なるほど、マルコフ辞書のキーはタプルにしたほうがスッキリしますね。こういうサンプルソースを公開してくれる人がいると勉強になるなぁ。ありがとうございます。＞ pyletさん #!/usr/bin/env python # -*- coding: utf-8 -*- import random import MeCab def wakati(text): t = MeCab.Tagger("-Owakati") m = t.parse(text) result = m.rstrip(" \n").split(" ") return result if __name__ =

meganehouser 2011/09/21

リンク

Pythonでのキーワード抽出実装

初出: 2007/6/27 更新: 2007/7/1 文章からキーワードを抽出するスクリプトをPythonモジュールとして実装しました。分かち書きした上に、適切に複合語をつくり、さらに重要そうなものかどうかのスコアをつけます。アルゴリズムは、以下のサイトを参考にしました。 http://gensen.dl.itc.u-tokyo.ac.jp/ ここで紹介されている論文 * 中川裕志、森辰則、湯本紘彰: "出現頻度と連接頻度に基づく専門用語抽出",自然言語処理、Vol.10 No.1, pp. 27 - 45, 2003年1月 http://www.r.dl.itc.u-tokyo.ac.jp/~nakagawa/academic-res/jnlp10-1.pdf に掲載されているFLR法のみを実装しています。実行結果サンプルたとえば、こんなページの本文をテキストフ

meganehouser 2011/09/21

リンク

マルコフ連鎖プログラム - pyletの日記

プログラミング作法に載っていたマルコフ連鎖プログラムを作ってみました。プログラミング作法作者: ブライアンカーニハン,ロブパイク,Brian Kernighan,Rob Pike,福崎俊博出版社/メーカー: アスキー発売日: 2000/11メディア: 単行本購入: 58人クリック: 1,152回この商品を含むブログ (209件) を見る import sys, random MAXGEN = 1000 nonword = "\n" w1 = w2 = nonword statetab = {} while 1: line = sys.stdin.readline() if line == "": break for word in line.split(): if not statetab.has_key((w1, w2)): statetab[(w1, w2)] = [] stat

meganehouser 2011/09/21

リンク

はてなブックマーク

タグ

2011年9月21日のブックマーク (11件)

DANCE@LIVE S7 HOUSE KANTO CHARISMAX【SEMIFINAL】HERO vs TATSUO (WINNER HERO)

Pythonと日本語表示と文字コード、unicode 、str 、utf-8 、shift-jis 、、、 - Cassiopeiaの日記

自然言語処理にはやっぱりPythonがいちばん - nokunoの日記

はてなグループの終了日を2020年1月31日(金)に決定しました - はてなの告知

日本語 WordNet (wn-ja)

形態素解析器IgoのPython版作った

IPADIC(IPA辞書)とはなにものか？

MeCabとPythonで遊んでみたメモ - Λάδι Βιώσας

MeCabとPythonでマルコフ連鎖を書いてみる(改) | Weboo! Returns.

Pythonでのキーワード抽出実装

マルコフ連鎖プログラム - pyletの日記

お知らせ

今週のはてなブックマーク数ランキング（2024年10月第2週）

今週のはてなブックマーク数ランキング（2024年10月第1週）

月間はてなブックマーク数ランキング（2024年9月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス