タグ

ブックマーク / www.mwsoft.jp (3)

  • pandasにsqlでよくやる処理をやらせてみる | mwSoft

    概要 pythonによるデータ分析入門を参考に、MovieLens 1Mを使ってsqlで普段やってるようなこと(joinとかgroup byとかsortとか)をpandasにやらせてみる。 ファイルの読み込み 落としてきたファイルを解凍すると、movies.dat、rating.dat、users.datという3つのファイルが入っているので、read_csvで読み込む。 import pandas as pd movies = pd.read_csv( 'ml-1m/movies.dat', sep='::', header=None, names=['movie_id', 'title', 'genres'] ) ratings = pd.read_csv( 'ml-1m/ratings.dat', sep='::', header=None, names=['user_id', 'mo

  • HDFSシェルコマンド一覧 | mwSoft

    概要 HDFSをコマンドラインから操作する際に使える引数の一覧です。 下記のページを参考にしています。 HDFS File System Shell Guide http://hadoop.apache.org/common/docs/r0.20.0/hdfs_shell.html ls / lsr lsはLinuxなどのlsコマンドと同じ、指定ディレクトリのファイルの一覧を表示する。 $ hadoop fs -ls /user/hdfs Found 1 items drwxr-xr-x - hdfs supergroup 0 2011-11-11 01:35 /user/hdfs/sample ディレクトリを指定しない場合は/user/${ユーザ名}を見に行く。 ディレクトリが存在しない場合は、以下のようなエラーになる。 $ hadoop fs -ls ls: Cannot access

  • IPA、NAIST、UniDic、JUMANの辞書実演比較(Mecab)

    以下のフォームに文章を入力して「解析」ボタンを押下すると、チェックした辞書を使用したMeCabの解析結果が表示されます。 実行回数は1つのIPアドレスに付き1日30回に制限させて頂いております。また解析する文字列の長さの上限は512文字です。すいません、レン鯖なので無茶はできんとです。あと、Firefox3.5,Chrome3,IE8で動作を確認しています。古典的ブラウザでは動作しないかもしれません。 MeCab0.98を使用しています。解析を実行した文字列については一切のログを取っていませんので安心してお使いください。 IPA (mecab-ipadic2.7.0-20070801) NAIST (mecab-naist-jdic-0.6.1-20090630) UniDic現代語版 (unidic-mecab-1.3.12) UniDic近代文語版 (UniDic-MLJ-mecab_

  • 1