[B! Python] r_onodrのブックマーク

PythonでMeCabの制約付き解析を使う - Qiita

MeCabには制約付き解析という機能がありますが、これについて説明している記事がほとんどなかったので手探りで試してみました。 MeCab 0.996 Python 3.4 mecab-python3 0.7 制約付き解析とは入力文の一部の形態素情報が既知である、あるいは境界がわかっているときに、それを満たすように解析する機能です。たとえば、「にわにはにわにわとりがいる。」という文に対して、「はにわ」の部分が名詞であるとか、「にわとり」の部分が一つの形態素であるというように指定した上で解析することができます。このとき、制約に反する4文字目の「は」が単独で形態素となったり、「にわとり」が「にわ」と「とり」に分割されるような解析候補は排除されます。制約付き解析 (部分解析)より形態素境界の制約をつける文の一部の形態素境界がわかってるときに、その部分を一つの形態素として扱って解析するよ

r_onodr 2015/01/13

リンク

NetworkXのグラフレイアウトいろいろ - 赴くままに

2014-02-28 NetworkXのグラフレイアウトいろいろ Python NetworkX ネットワークによって各ノードの配置を変更したい事が有ると思います。 NetworkXではlayoutを利用することで、変更できます。 Drawing — NetworkX 1.8 documentation それぞれのlayoutを利用して描画してみましょう。 circular_layout 全てのノードを円弧上に並べるレイアウトです。今回は、スモール・ワールドで有名なWatts and Strogatzモデルを採用します。 circular_layout — NetworkX 1.8 documentation import networkx as nx import matplotlib.pyplot as plt G = nx.watts_strogatz_graph(100, 3,

r_onodr 2015/01/13

リンク

networkxでグラフを描く - Qiita

# -*- encoding:utf-8 -*- import networkx import pylab from matplotlib import font_manager from itertools import combinations from random import randint # ノードをkey、エッジをはるノードのlistをvalueとするdict vector = {} persons = [u"田中", u"鈴木", u"山田", u"木村", u"吉岡"] edge_labels = {} for person in persons: # defaultdict(list)ではなく、ノードを作成するためにこうする vector[person] = [] for man_pair in combinations(persons, 2): man1, man2

r_onodr 2015/01/13

リンク

Gensim: topic modelling for humans

Introduction¶ This module implements the word2vec family of algorithms, using highly optimized C routines, data streaming and Pythonic interfaces. The word2vec algorithms include skip-gram and CBOW models, using either hierarchical softmax or negative sampling: Tomas Mikolov et al: Efficient Estimation of Word Representations in Vector Space, Tomas Mikolov et al: Distributed Representations of Wor

r_onodr 2014/11/30

リンク

GitHub - saffsd/langid.py: Stand-alone language identification system

langid.py is a standalone Language Identification (LangID) tool. The design principles are as follows: Fast Pre-trained over a large number of languages (currently 97) Not sensitive to domain-specific features (e.g. HTML/XML markup) Single .py file with minimal dependencies Deployable as a web service All that is required to run langid.py is >= Python 2.7 and numpy. The main script langid/langid.p

r_onodr 2014/11/28

リンク

TokyoWebmining - TokyoWebmining カテゴリ別発表資料

Simple GAによる広告出稿最適化(@takenotabiさん) 30分でわかる広告配信エンジンの作り方(BTからコンテキスト広告まで)(@yamazさん) 安全にスケールするログ解析システム構築の勘所(@yamazさん) お金をかけず広告配信のログ分析システムを作った話(@karubiさん) エンジニアのためのアドテクノロジー再入門：アドテクの基礎からRealTimeBiddingまで(@jazzyslideさん) Optimizing for conversion in display advertising campaigns(@tsubosakaさん) リアルタイム広告システム最前線(@yamazさん) 広告クリエイティブの最適化の実際(@kan_yukikoさん) LT: インターネット広告代理店の現場におけるデータ分析探訪 (@hokagawaさん) LT: ビジネスレベル

r_onodr 2014/06/02

リンク

NLP 100 Drill Exercises - 東北大学乾研究室 / Inui Lab, Tohoku University

言語処理100本ノックについて † 言語処理100本ノックは，言語処理を志す人を対象とした，プログラミングのトレーニング問題集です．乾・岡崎研の新人研修勉強会の一つであるLearning Programmingで使われています．このトレーニングは，以下の点に配慮してデザインされています．自然言語処理の研究を進める上で，一度は書いておいた方がよいプログラム統計，機械学習，データベースなどの便利な概念・ツールを体験する実用的で，かつワクワクするようなデータを題材とする研究を進めるうえで重要なプログラミングのルール・作法を身につけるモジュール性や組み合わせを考慮しつつ，短くてシンプルなプログラムを書くプログラムの動作を確認（デバッグ）しながらコーディングする労力を節約する（既存のツール／プログラム／モジュールが使えるときは流用する）計算資源（メモリ・実行時間）を無駄にしない方

r_onodr 2014/05/24

リンク

matplotlib によるデータ可視化の方法 (1) - Qiita

matplotlib と pandas によるさまざまな図の描画方法を以前に紹介しました。しかしその具体的なパラメーターについては触れませんでした。今回から数回に渡り matplotlib による図形描画について追っていこうと思います。図とサブプロット matplotlib の Figure オブジェクトはプロット機能を提供します。 plt.figure() メソッドは何も描画されていない新しいウィンドウを描画します。 add_subplot() メソッドはその内部にサブプロットを生成します。 import numpy as np from pandas import * from pylab import * import matplotlib.pyplot as plt from matplotlib import font_manager from numpy.random imp

r_onodr 2014/05/01

リンク

はてなグループの終了日を2020年1月31日(金)に決定しました - はてなの告知

はてなグループの終了日を2020年1月31日(金)に決定しました以下のエントリの通り、今年末を目処にはてなグループを終了予定である旨をお知らせしておりました。 2019年末を目処に、はてなグループの提供を終了する予定です - はてなグループ日記このたび、正式に終了日を決定いたしましたので、以下の通りご確認ください。終了日: 2020年1月31日(金) エクスポート希望申請期限:2020年1月31日(金) 終了日以降は、はてなグループの閲覧および投稿は行えません。日記のエクスポートが必要な方は以下の記事にしたがって手続きをしてください。はてなグループに投稿された日記データのエクスポートについて - はてなグループ日記ご利用のみなさまにはご迷惑をおかけいたしますが、どうぞよろしくお願いいたします。 2020-06-25 追記はてなグループ日記のエクスポートデータは2020年2月28

r_onodr 2014/03/28

リンク

Python で Mechanize と BeautifulSoup を使用して SNS をスクレイピングする。

俺が普段使っているSNSの一つにファンタジーアースSNS というのがあって、これは同名のゲーム(要約すると50人1チームで戦争するゲームです)と連動して戦争の成績が見れたり各国毎の統計が見れたりとなかなか便利な仕組みになってます。ただ、各戦争毎に表示される個人成績や召還数といった値は各戦争結果ページでしか得られず、ゲーム内で参照できる戦績表示では今まで行った全ての戦争に対して行われる為、直近10件の戦争が見たいなどという場合には手で計算するとかしないといけなくて大変不便です。というわけで SNS をスクレイピングして各値を拾って表示するスクリプトを組みました。全戦争読み込んだり平均値出したりとかは全然作りこんでないのでその辺は勝手に改良すると良いです。もっともこのSNSは大変重いのでスクリプトを実行する場合はアクセスの間隔あけるとかしてサーバに負荷が掛からない様に御願いします。必要

r_onodr 2014/03/28

リンク

VimでPython環境をいい感じに整える | 遥か彼方の彼方から

VimでPython環境をいい感じに整える技術ネタの書く場所を統一するため、Qiitaに移しました。 • VimでPython環境をいい感じに整える - Qiita

r_onodr 2014/03/12

python
vim

リンク

Web開発にPythonを使う理由 - Web屋さんのアレ

僕の周りだけかもしれないですが、国内のWeb受託開発案件は「PHPで作るのが暗黙のルール」ってな勢いでPHP案件ばっかりなのですが、Python大好きな僕としては、何としてでもPythonを使って仕事をしたい！なので頑張って布教活動をしているのですが、中々良い手応えが得られないのが現状です。。という訳で、改めてPythonを使うメリットとか、安心してクライアントにPythonを進められる理由なんかをまとめてみました。技術者がPythonを使うメリット「今までPHPでやってきて何の問題もなかったし、これからPython始める意味なんてあんの？」ぶっちゃけ、そんなにないですｗ結果的に出来上がる物に関しては大差ないですからね。ただし、開発効率やメンテナンス性は飛躍的に上がると僕は思います。ライブラリがとても豊富 PHPも沢山ライブラリありますけど、Pythonだっていっぱいあるん

r_onodr 2013/10/30

リンク

pythonでオフィス快適化計画

形式手法と AWS のおいしい関係。- モデル検査器 Alloy によるインフラ設計技法 #jawsfesta

r_onodr 2013/09/23

リンク

PythonからMongoDBを使ってみる - stog's blog

とりあえず、こんな感じで適当なタブ区切りデータを用意した。 dummy.tsv（文字コード：UTF-8） name type sex birthday おがわ human M 1980/11/03 たかはし human F 1974/02/20 たなか human M 2003/01/15 さとう human F 1960/10/05 ポチ dog F 2005/06/07 タロ dog M 1995/08/08 タマ cat F 2008/12/24 ミケ cat M 1998/12/25 John human M 1970/01/01 Michael human M 1940/08/09 Robert human M 1999/05/20 David human M 2009/12/05 James human M 1969/12/31 Mary human F 1985/04/10

r_onodr 2013/09/15

リンク

Pythonコードのプロファイリング - shkh's blog

普段、Pythonのコードは何となく速かろうという、言ってみれば勘で書いているのだけど、その勘とやらは往々にしてウンコードを生むものである。そこで、プロファイラを使っていきたいと思う。使えそうなツールそういうわけで、いくつか使えそうなツールをリストアップした。経過時間のプロファイラツール名メモ profile ビルトイン, ピュアPythonの決定論的プロファイラ cProfile ビルトイン, C拡張の決定論的プロファイラ line_profiler 行単位の決定論的プロファイラ Plop 統計的プロファイラ, Dropboxの人が作ってる statprof 統計的プロファイラ, 開発停止？ yep 拡張モジュール用の統計的プロファイラ, バックエンドにgoogle-perftools メモリのプロファイラツール名メモ memory_profiler 行単位でメモリ消費量の

r_onodr 2013/09/01

python

リンク

Igo-pythonをGAEでも動かす。 - Keep on moving

あいかわらずIgoをいじって遊ばせていただいています。 Igoを使っていて感じたことをかるくまとめておきます。 Igoの辞書変換時の注意点 IgoではMecab形式のファイルをいったんIgoを使って変換する必要がある。ドキュメントには書いてないけど以下の場合には辞書の変換に失敗する。はまったのでメモ的にまとめておきます。辞書に"(ダブルクォート)を含む場合、変換parserのエラーになる。(今回は取り除くことで可能) Mecabの辞書内で出現頻度をスコアで指定するんだけど、Igo側はここをIntegerで解釈しているので,Integerの範囲を超えた値にすると変換エラーになる。辞書の変換には思った以上にメモリを食います。具体的にはスタックオーバーフローエラーがおこります。辞書のファイルサイズが大きい場合にはスタック領域をなるべく増やして実行しましょう。例えば、NAIST Japan

r_onodr 2013/08/27

リンク

形態素解析器IgoのPython版作った

いろんなメモです。おもにプログラミング関係。 a memorandum. most of all contents are related to programming. Java(とCL)で書かれた形態素解析器であるIgoをPythonにほぼそのまま移植しました。 Java版で作った辞書がそのまま使えるようにしたので、辞書を作る部分は(まだ)移植してません。 mmapしてるのでGAEでは動きません。すぐ取りかかる予定です。またGAE版の辞書はBigEndianなのでそこらへんも対応する予定です。 https://code.launchpad.net/~hideaki-t/+junk/igo-pyに置きました。簡単なテストしかしてません。問題があったら教えてください！簡単なサンプル # coding: utf-8 import igo.Tagger t = igo.Tagger.Ta

r_onodr 2013/08/27

リンク

ロジスティック回帰 - 人工知能に関する断創録

今回は、ロジスティック回帰です。この方法はPRMLで初めて知りましたが、統計学の方では一般的な方法のようです。回帰という名前がついてますが、実際は分類のためのモデルとのこと。ロジスティック回帰では、クラス1の事後確率が特徴ベクトルの線形関数のロジスティックシグモイド関数として書けることを利用しています。ここで、σ(a)は式（4.59）のロジスティックシグモイド関数です。訓練データ集合 {x_n, t_n} （今度は、クラス1のときt_n=0, クラス1のときt_n=1なので注意）からパラメータwを最尤推定で求めます。尤度関数は、と書けるので、誤差関数（尤度関数の負の対数）は、となります。誤差関数を最小化するようなwを求めたいってことですね。で、普通だったら今までのようにwで偏微分して0とおいてwを解析的に求めるところですが、yにロジスティックシグモイド関数が入っているせいで解析的に

r_onodr 2013/08/26

リンク

csvモジュールがUnicode入力をサポートしていない罠 - bonlife

id:piro_sukeさんがアレコレやってるのを見てちょいと試しているうちに、予想外なところで罠にハマってしまったbonlifeです。同じことで躓く人はあまりいないような気がしますが、備忘録メモです。 csvモジュールで日本語を扱う場合に気をつけないと悲しい気持ちになってしまうかもしれませんよ、というお話。サンプル1 sys.getdefaultencoding() で得られる文字コードは cp932 ファイルの文字コードは cp932 出力するCSVの文字コードは cp932 # -*- coding: cp932 -*- import sys import csv import codecs print "default encoding : %s" % (sys.getdefaultencoding()) f = codecs.open('out.csv','wb','cp932

r_onodr 2013/08/25

python
csv

リンク

『データサイエンティスト養成読本』はゼロからデータサイエンティストを目指す人なら絶対に読むべき一冊 - 渋谷駅前で働くデータサイエンティストのブログ

執筆陣12人中8人が直接の知人友人というこの新刊書でございますが。データサイエンティスト養成読本 [ビッグデータ時代のビジネスを支えるデータ分析力が身につく! ] (Software Design plus) 作者: 佐藤洋行,原田博植,下田倫大,大成弘子,奥野晃裕,中川帝人,橋本武彦,里洋平,和田計也,早川敦士,倉橋一成出版社/メーカー: 技術評論社発売日: 2013/08/08メディア: 大型本この商品を含むブログ (4件) を見るもちろん僕も発刊が決まってAmazonに予約ページができた時点でポチりまして、読んでみたところあまりにも内容が素晴らしかったので早速現職場の図書コーナーに持ち込んだ次第です（笑）。ということで、僭越ながら書評など書かせて頂こうかと思います。ざっくり内容紹介正直言って、ものすごーーーく網羅的で非常によく出来ています。1ページ目から順に読んでいっても初学

r_onodr 2013/08/21

リンク

はてなブックマーク

タグ

関連タグで絞り込む (38)

Pythonに関するr_onodrのブックマーク (28)

お知らせ

月間はてなブックマーク数ランキング（2026年4月）

今週のはてなブックマーク数ランキング（2026年4月第4週）

今週のはてなブックマーク数ランキング（2026年4月第3週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス