タグ

Pythonに関するr_onodrのブックマーク (27)

  • PythonでMeCabの制約付き解析を使う - Qiita

    Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? MeCabには制約付き解析という機能がありますが、これについて説明している記事がほとんどなかったので手探りで試してみました。 MeCab 0.996 Python 3.4 mecab-python3 0.7 制約付き解析とは 入力文の一部の形態素情報が既知である、あるいは境界がわかっているときに、 それを満たすように解析する機能です。 たとえば、「にわにはにわにわとりがいる。」という文に対して、「はにわ」の部分が名詞であるとか、「にわとり」の部分が一つの形態素であるというように指定した上で解析することができます。このとき、制約に反する4

    PythonでMeCabの制約付き解析を使う - Qiita
  • NetworkXのグラフレイアウトいろいろ - 赴くままに

    2014-02-28 NetworkXのグラフレイアウトいろいろ Python NetworkX ネットワークによって各ノードの配置を変更したい事が有ると思います。 NetworkXではlayoutを利用することで、変更できます。 Drawing — NetworkX 1.8 documentation それぞれのlayoutを利用して描画してみましょう。 circular_layout 全てのノードを円弧上に並べるレイアウトです。 今回は、スモール・ワールドで有名なWatts and Strogatzモデルを採用します。 circular_layout — NetworkX 1.8 documentation import networkx as nx import matplotlib.pyplot as plt G = nx.watts_strogatz_graph(100, 3,

    NetworkXのグラフレイアウトいろいろ - 赴くままに
  • networkxでグラフを描く - Qiita

    # -*- encoding:utf-8 -*- import networkx import pylab from matplotlib import font_manager from itertools import combinations from random import randint # ノードをkey、エッジをはるノードのlistをvalueとするdict vector = {} persons = [u"田中", u"鈴木", u"山田", u"木村", u"吉岡"] edge_labels = {} for person in persons: # defaultdict(list)ではなく、ノードを作成するためにこうする vector[person] = [] for man_pair in combinations(persons, 2): man1, man2

    networkxでグラフを描く - Qiita
  • Gensim: topic modelling for humans

    Introduction¶ This module implements the word2vec family of algorithms, using highly optimized C routines, data streaming and Pythonic interfaces. The word2vec algorithms include skip-gram and CBOW models, using either hierarchical softmax or negative sampling: Tomas Mikolov et al: Efficient Estimation of Word Representations in Vector Space, Tomas Mikolov et al: Distributed Representations of Wor

  • GitHub - saffsd/langid.py: Stand-alone language identification system

    langid.py is a standalone Language Identification (LangID) tool. The design principles are as follows: Fast Pre-trained over a large number of languages (currently 97) Not sensitive to domain-specific features (e.g. HTML/XML markup) Single .py file with minimal dependencies Deployable as a web service All that is required to run langid.py is >= Python 2.7 and numpy. The main script langid/langid.p

    GitHub - saffsd/langid.py: Stand-alone language identification system
  • TokyoWebmining - TokyoWebmining カテゴリ別発表資料

    Simple GAによる広告出稿最適化(@takenotabiさん) 30分でわかる広告配信エンジンの作り方(BTからコンテキスト広告まで)(@yamazさん) 安全にスケールするログ解析システム構築の勘所(@yamazさん) お金をかけず広告配信のログ分析システムを作った話(@karubiさん) エンジニアのためのアドテクノロジー再入門:アドテクの基礎からRealTimeBiddingまで(@jazzyslideさん) Optimizing for conversion in display advertising campaigns(@tsubosakaさん) リアルタイム広告システム最前線(@yamazさん) 広告クリエイティブの最適化の実際(@kan_yukikoさん) LT: インターネット広告代理店の現場におけるデータ分析探訪 (@hokagawaさん) LT: ビジネスレベル

  • NLP 100 Drill Exercises - 東北大学 乾研究室 / Inui Lab, Tohoku University

    言語処理100ノックについて † 言語処理100ノックは,言語処理を志す人を対象とした,プログラミングのトレーニング問題集です. 乾・岡崎研の新人研修勉強会の一つであるLearning Programmingで使われています. このトレーニングは,以下の点に配慮してデザインされています. 自然言語処理の研究を進める上で,一度は書いておいた方がよいプログラム 統計,機械学習,データベースなどの便利な概念・ツールを体験する 実用的で,かつワクワクするようなデータを題材とする 研究を進めるうえで重要なプログラミングのルール・作法を身につける モジュール性や組み合わせを考慮しつつ,短くてシンプルなプログラムを書く プログラムの動作を確認(デバッグ)しながらコーディングする 労力を節約する(既存のツール/プログラム/モジュールが使えるときは流用する) 計算資源(メモリ・実行時間)を無駄にしない方

  • matplotlib によるデータ可視化の方法 (1) - Qiita

    matplotlib と pandas によるさまざまな図の描画方法を以前に紹介しました。しかしその具体的なパラメーターについては触れませんでした。今回から数回に渡り matplotlib による図形描画について追っていこうと思います。 図とサブプロット matplotlib の Figure オブジェクトはプロット機能を提供します。 plt.figure() メソッドは何も描画されていない新しいウィンドウを描画します。 add_subplot() メソッドはその内部にサブプロットを生成します。 import numpy as np from pandas import * from pylab import * import matplotlib.pyplot as plt from matplotlib import font_manager from numpy.random imp

    matplotlib によるデータ可視化の方法 (1) - Qiita
  • はてなグループの終了日を2020年1月31日(金)に決定しました - はてなの告知

    はてなグループの終了日を2020年1月31日(金)に決定しました 以下のエントリの通り、今年末を目処にはてなグループを終了予定である旨をお知らせしておりました。 2019年末を目処に、はてなグループの提供を終了する予定です - はてなグループ日記 このたび、正式に終了日を決定いたしましたので、以下の通りご確認ください。 終了日: 2020年1月31日(金) エクスポート希望申請期限:2020年1月31日(金) 終了日以降は、はてなグループの閲覧および投稿は行えません。日記のエクスポートが必要な方は以下の記事にしたがって手続きをしてください。 はてなグループに投稿された日記データのエクスポートについて - はてなグループ日記 ご利用のみなさまにはご迷惑をおかけいたしますが、どうぞよろしくお願いいたします。 2020-06-25 追記 はてなグループ日記のエクスポートデータは2020年2月28

    はてなグループの終了日を2020年1月31日(金)に決定しました - はてなの告知
  • Python で Mechanize と BeautifulSoup を使用して SNS をスクレイピングする。

    俺が普段使っているSNSの一つに ファンタジーアースSNS というのがあって、これは同名のゲーム(要約すると50人1チームで戦争するゲームです)と連動して戦争の成績が見れたり各国毎の統計が見れたりとなかなか便利な仕組みになってます。 ただ、各戦争毎に表示される個人成績や召還数といった値は各戦争結果ページでしか得られず、ゲーム内で参照できる戦績表示では今まで行った全ての戦争に対して行われる為、直近10件の戦争が見たいなどという場合には手で計算するとかしないといけなくて大変不便です。 というわけで SNSスクレイピングして各値を拾って表示するスクリプトを組みました。全戦争読み込んだり平均値出したりとかは全然作りこんでないのでその辺は勝手に改良すると良いです。もっともこのSNSは大変重いのでスクリプトを実行する場合はアクセスの間隔あけるとかしてサーバに負荷が掛からない様に御願いします。 必要

    Python で Mechanize と BeautifulSoup を使用して SNS をスクレイピングする。
  • VimでPython環境をいい感じに整える | 遥か彼方の彼方から

    VimPython環境をいい感じに整える 技術ネタの書く場所を統一するため、Qiitaに移しました。 • VimPython環境をいい感じに整える - Qiita

    VimでPython環境をいい感じに整える | 遥か彼方の彼方から
  • Web開発にPythonを使う理由 - Web屋さんのアレ

    僕の周りだけかもしれないですが、国内のWeb受託開発案件は「PHPで作るのが暗黙のルール」ってな勢いでPHP案件ばっかりなのですが、Python大好きな僕としては、何としてでもPythonを使って仕事をしたい! なので頑張って布教活動をしているのですが、中々良い手応えが得られないのが現状です。。 という訳で、改めてPythonを使うメリットとか、安心してクライアントにPythonを進められる理由なんかをまとめてみました。 技術者がPythonを使うメリット 「今までPHPでやってきて何の問題もなかったし、これからPython始める意味なんてあんの?」 ぶっちゃけ、そんなにないですw 結果的に出来上がる物に関しては大差ないですからね。 ただし、開発効率やメンテナンス性は飛躍的に上がると僕は思います。 ライブラリがとても豊富 PHPも沢山ライブラリありますけど、Pythonだっていっぱいあるん

    Web開発にPythonを使う理由 - Web屋さんのアレ
  • pythonでオフィス快適化計画

    タイトル: 『これからのネイティブアプリにおけるOpenID Connectの活用』 概要: 近年モバイルアプリケーションの多くはログインを必須としています。自社他社提供のWeb APIの利用にあたりクライアントサイド、サーバーサイドのそれぞれにおいて認証の仕組みを理解し、正しい認証の実装が求められます。 セッションではユーザーとデバイスの2つの視点でモバイルにおける認証をご紹介します。 ユーザー認証のパートでは、OAuth 2.0ベースのID連携の問題点に触れ、その課題を解決するためのOpenID Connectの仕様について解説します。 デバイス認証のパートでは、スマートフォンやタブレットを識別するための仕様の解説と活用方法について解説します。 Developers Summit 2014 【13-C-5】 Feb. 13, 2014 URL: https://event.shoei

    pythonでオフィス快適化計画
  • PythonからMongoDBを使ってみる - stog's blog

    とりあえず、こんな感じで適当なタブ区切りデータを用意した。 dummy.tsv(文字コード:UTF-8) name type sex birthday おがわ human M 1980/11/03 たかはし human F 1974/02/20 たなか human M 2003/01/15 さとう human F 1960/10/05 ポチ dog F 2005/06/07 タロ dog M 1995/08/08 タマ cat F 2008/12/24 ミケ cat M 1998/12/25 John human M 1970/01/01 Michael human M 1940/08/09 Robert human M 1999/05/20 David human M 2009/12/05 James human M 1969/12/31 Mary human F 1985/04/10

    PythonからMongoDBを使ってみる - stog's blog
  • Pythonコードのプロファイリング - shkh's blog

    普段、Pythonのコードは何となく速かろうという、言ってみれば勘で書いているのだけど、その勘とやらは往々にしてウンコードを生むものである。そこで、プロファイラを使っていきたいと思う。 使えそうなツール そういうわけで、いくつか使えそうなツールをリストアップした。 経過時間のプロファイラ ツール名 メモ profile ビルトイン, ピュアPythonの決定論的プロファイラ cProfile ビルトイン, C拡張の決定論的プロファイラ line_profiler 行単位の決定論的プロファイラ Plop 統計的プロファイラ, Dropboxの人が作ってる statprof 統計的プロファイラ, 開発停止? yep 拡張モジュール用の統計的プロファイラ, バックエンドにgoogle-perftools メモリのプロファイラ ツール名 メモ memory_profiler 行単位でメモリ消費量の

    Pythonコードのプロファイリング - shkh's blog
  • Igo-pythonをGAEでも動かす。 - Keep on moving

    あいかわらずIgoをいじって遊ばせていただいています。 Igoを使っていて感じたことをかるくまとめておきます。 Igoの辞書変換時の注意点 IgoではMecab形式のファイルをいったんIgoを使って変換する必要がある。 ドキュメントには書いてないけど以下の場合には辞書の変換に失敗する。 はまったのでメモ的にまとめておきます。 辞書に"(ダブルクォート)を含む場合、変換parserのエラーになる。(今回は取り除くことで可能) Mecabの辞書内で出現頻度をスコアで指定するんだけど、Igo側はここをIntegerで解釈しているので,Integerの範囲を超えた値にすると変換エラーになる。 辞書の変換には思った以上にメモリをいます。具体的にはスタックオーバーフローエラーがおこります。辞書のファイルサイズが大きい場合にはスタック領域をなるべく増やして実行しましょう。例えば、NAIST Japan

    Igo-pythonをGAEでも動かす。 - Keep on moving
  • 形態素解析器IgoのPython版作った

    いろんなメモです。おもにプログラミング関係。 a memorandum. most of all contents are related to programming. Java(とCL)で書かれた形態素解析器であるIgoPythonにほぼそのまま移植しました。 Java版で作った辞書がそのまま使えるようにしたので、辞書を作る部分は(まだ)移植してません。 mmapしてるのでGAEでは動きません。すぐ取りかかる予定です。 またGAE版の辞書はBigEndianなのでそこらへんも対応する予定です。 https://code.launchpad.net/~hideaki-t/+junk/igo-pyに置きました。 簡単なテストしかしてません。問題があったら教えてください! 簡単なサンプル # coding: utf-8 import igo.Tagger t = igo.Tagger.Ta

    形態素解析器IgoのPython版作った
  • ロジスティック回帰 - 人工知能に関する断創録

    今回は、ロジスティック回帰です。この方法はPRMLで初めて知りましたが、統計学の方では一般的な方法のようです。回帰という名前がついてますが、実際は分類のためのモデルとのこと。ロジスティック回帰では、クラス1の事後確率が特徴ベクトルの線形関数のロジスティックシグモイド関数として書けることを利用しています。 ここで、σ(a)は式(4.59)のロジスティックシグモイド関数です。 訓練データ集合 {x_n, t_n} (今度は、クラス1のときt_n=0, クラス1のときt_n=1なので注意)からパラメータwを最尤推定で求めます。尤度関数は、 と書けるので、誤差関数(尤度関数の負の対数)は、 となります。誤差関数を最小化するようなwを求めたいってことですね。で、普通だったら今までのようにwで偏微分して0とおいてwを解析的に求めるところですが、yにロジスティックシグモイド関数が入っているせいで解析的に

    ロジスティック回帰 - 人工知能に関する断創録
  • csvモジュールがUnicode入力をサポートしていない罠 - bonlife

    id:piro_sukeさんがアレコレやってるのを見てちょいと試しているうちに、予想外なところで罠にハマってしまったbonlifeです。同じことで躓く人はあまりいないような気がしますが、備忘録メモです。 csvモジュールで日語を扱う場合に気をつけないと悲しい気持ちになってしまうかもしれませんよ、というお話。 サンプル1 sys.getdefaultencoding() で得られる文字コードは cp932 ファイルの文字コードは cp932 出力するCSVの文字コードは cp932 # -*- coding: cp932 -*- import sys import csv import codecs print "default encoding : %s" % (sys.getdefaultencoding()) f = codecs.open('out.csv','wb','cp932

    csvモジュールがUnicode入力をサポートしていない罠 - bonlife
  • 『データサイエンティスト養成読本』はゼロからデータサイエンティストを目指す人なら絶対に読むべき一冊 - 渋谷駅前で働くデータサイエンティストのブログ

    執筆陣12人中8人が直接の知人友人というこの新刊書でございますが。 データサイエンティスト養成読 [ビッグデータ時代のビジネスを支えるデータ分析力が身につく! ] (Software Design plus) 作者: 佐藤洋行,原田博植,下田倫大,大成弘子,奥野晃裕,中川帝人,橋武彦,里洋平,和田計也,早川敦士,倉橋一成出版社/メーカー: 技術評論社発売日: 2013/08/08メディア: 大型この商品を含むブログ (4件) を見る もちろん僕も発刊が決まってAmazonに予約ページができた時点でポチりまして、読んでみたところあまりにも内容が素晴らしかったので早速現職場の図書コーナーに持ち込んだ次第です(笑)。ということで、僭越ながら書評など書かせて頂こうかと思います。 ざっくり内容紹介 正直言って、ものすごーーーく網羅的で非常によく出来ています。1ページ目から順に読んでいっても初学

    『データサイエンティスト養成読本』はゼロからデータサイエンティストを目指す人なら絶対に読むべき一冊 - 渋谷駅前で働くデータサイエンティストのブログ