タグ

ブックマーク / www.mwsoft.jp (4)

  • Wikipediaのダウンロードできるデータファイル一覧 | mwSoft

    概要 記事はWikipediaのダウンロード可能なデータについてまとめたものです。 Wikipediaではクロール行為は禁止されています(ここを見る限りでは)が、代わりに全記事の情報を圧縮したファイルが公開されています。 日Wikipedia情報ダウンロードページ http://download.wikimedia.org/jawiki/latest/ 記事は2009年の10月下旬に取得した情報を元に書いています。時間が経つと結果が変わる可能性があるのでご注意ください。 事前情報 2009/10/25に確認した時点では、日Wikipediaのダウンロードページには55個のファイルが置いてありました(うち半分は更新を通知する為のRSS)。 ファイルの形式は「XML」、「MySQLのダンプ」、「テキスト」などがあります。 詳しいデータのインポート方法は、こちらのリンク集が参考になる

  • 文字列(主にstrクラス)の機能(Python覚書 ver3.1/WindowsXP)

    # 文字列の結合 print( "str" + "str" ) #=> strstr # 数値と結合する際は、自動型変換はされないので、strで囲む i = 10 print( "str" + str( i ) ) #=> str10 print( "str" + i ) #=> TypeError: Can't convert 'int' object to str implicitly # 「*」を使うと繰り返し print( "str" * 3 ) #=> strstrstr #=> 0や負の数を指定すると空文字が返る # formatを使用して、好きな形式に変換 print( "今日は{0}です".format( "晴れ" ) ) #=> 今日は晴れです print( "1 + 10 = {0}, 2 + 5 = {1}".format( 1 + 10, 2 + 5 ) ) #=>

    gayou
    gayou 2016/05/12
  • Java製形態素解析エンジン「Igo」を試してみる

    IgoJavaで作られた形態素解析エンジンです。 JavaはJVMという閉じた空間で動作する分、Cなどのネイティブアプリと連携する際の安定性や性能がイマイチ。 そのため形態素解析をしたい場合もMeCabを使わずにJava製のものを利用するケースが目立ちます。IgoJava形態素解析をする場合に選択肢の1つとして挙げられます。 @Date 2010/12/18 @Env Igo0.4.2/Fedora14 IgoはMeCabの辞書を利用することができ、ほぼMeCabと同じ解析結果を返すことを意識して作られているそうです(詳細は公式サイト参照)。 Igo - Java形態素解析器 http://igo.sourceforge.jp/ 下記ページによると、実行速度もMeCabと比べてそれほど大きく劣ることはないようです。 Igo : MeCabと形態素解析速度比較 http://d.hat

  • Java製形態素解析器「Kuromoji」を試してみる

    概要 Javaの比較的新しい形態素解析器、Kuromoji。 lucene-gosenやGomokuのように辞書内包で、jarを落とせばその場で利用でき、Unidicに対応していて、ソースがLuceneのtrunkにコミットされているという、何かと気になる特徴の持ち主。 複数のモードを持っているようで、Searchモードを使うと「日経済新聞」を「日 | 経済 | 新聞」のように検索で利用しやすい形にばらして解析してくれたり、Extendedモードを使うと未知語をuni-gramにしてくれたりもするらしい。 今日はそんなKuromojiさんの導入から簡易な使い方までをさらっと追いかけてみた。 導入 まずは下記ページからダウンロード。今回はkuromoji-0.7.5.tar.gzを利用。 Downloads - atilika/kuromoji https://github.com/at

  • 1