タグ

ブックマーク / blog.livedoor.jp/tak_tak0 (7)

  • 言語学的に論文の引用形式を考察 : 研究開発

    総合研究大学院大学 複合科学研究科  情報学専攻 卒 博士(情報学) 自然言語処理や機械学習データ分析に関する研究内容とwebシステムの開発と運用について書いています。 シリコンバレーベンチャーみたいに深い技術の事業化をしたいと思っています。 ご興味ある方はご連絡ください。 論文の引用は、どういうわけか多くの人が論文情報の表示の方しか興味ないようなのですが、 わたくしは引用、ラベルのパターンに興味があります。 最も多く見るパターン [1], [2,3], [4-6], 番号で文献を指し示す無機質なパターンです。 この番号のことを普通ラベルと呼びます。 例えば[4]では.... このように指示代名詞のような使用は来よろしくないのです しかしながら、こういう表現が書かれていることは多くあります。 ラベルは来、文の中で意味をなす語彙...文字でさえない からです。ラベルが論文中に書かれてい

    言語学的に論文の引用形式を考察 : 研究開発
  • Akinator アキネータの仕組み : 研究開発

    総合研究大学院大学 複合科学研究科  情報学専攻 卒 博士(情報学) 自然言語処理や機械学習データ分析に関する研究内容とwebシステムの開発と運用について書いています。 シリコンバレーベンチャーみたいに深い技術の事業化をしたいと思っています。 ご興味ある方はご連絡ください。 あれはどうやってるのでしょうか? [iPhoneアプリ] Akinator(アキネイター)が答えを当てる仕組みを考えてみました プログラマがランプの魔人の中身を分析してみる という感じに考えた人はたくさんいますが.... これでも全然Akinatorの質には迫ってないと思います。 ○たった20〜40問の質問しかしない。 登録されてる質問の総数は、当然もっと多いのですが、そもそもAkinatorは質問を十分に選定してるのです。 この点に触れて考えている人が居ないようなのですが、おそらく、これこそがAkinatorの

    Akinator アキネータの仕組み : 研究開発
  • twitterユーザとtweet統計 2011/10 : 研究開発

    総合研究大学院大学 複合科学研究科  情報学専攻 卒 博士(情報学) 自然言語処理や機械学習データ分析に関する研究内容とwebシステムの開発と運用について書いています。 シリコンバレーベンチャーみたいに深い技術の事業化をしたいと思っています。 ご興味ある方はご連絡ください。 前回から8ヶ月経ったのでまた調査しました 2012年6月の調査 2011年2月の調査 2010年6月の調査 400000000ユーザID中 82.76% のサンプリングに成功 ということは、2011-10-05 の有効なユーザ数は 約331,360,947 この8カ月で1億3000万ユーザも増加した、ということであるようです。 このユーザ数は、現在アクティブなアカウントの数です。tweetしてるかどうかは関係ありません。 このユーザの傾向は.... <friends_count>0</friends_count> こ

    twitterユーザとtweet統計 2011/10 : 研究開発
  • javaでPC画面の映像を通信 : 研究開発

    seikenn
    seikenn 2010/04/19
  • 検索エンジンの作り方 : 研究開発

    総合研究大学院大学 複合科学研究科  情報学専攻 卒 博士(情報学) 自然言語処理や機械学習データ分析に関する研究内容とwebシステムの開発と運用について書いています。 シリコンバレーベンチャーみたいに深い技術の事業化をしたいと思っています。 ご興味ある方はご連絡ください。 現在やっていることは、間接的に検索エンジンを作ってるようなものなので (全文)検索エンジンをつくるノウハウが蓄積できてきたと思います。 検索エンジンは、その設計はシンプルですが 想像をはるかに上回る超巨大なデータベースを要求します。 (わたくしが設計する)データベース Table 検索 text 検索クエリー int 検索クエリーSerialNo Table Ranking int 検索クエリーSerialNo double pagerank int URLSerialNo int chaceSerialNo Tab

    検索エンジンの作り方 : 研究開発
  • blog記事の本文抽出 : 研究開発

    主にblogですが、広告やその他内容に関係ないところを全て削除して文だけを取得したいと思うことは多くあります。 そういう場合にどのような方法があるか Webstemmerはhtmlファイルの形式、定型パターンから文を抜き出すようです。 しかしながら、製作者が言っているとおり、もっと簡単に抜き出す方法があったりします。 < !-- google_ad_section_start --> ...文... < !-- google_ad_section_end --> という指定がしてある所だけを抽出してAdSenseの内容を決める機能が有るので、それを適用しているblogであれば楽に文のEntryFullTextが出来るよね。 実はこれはかなり有効な方法で、これだけでかなりカバーできたりします。 しかしながら、対応してないblogも多いです。 さて、わたくしは現在どういう風に対応してる

    blog記事の本文抽出 : 研究開発
  • javaでWEBクローラの作り方 : 研究開発

    java で書かれたwebクローラはこれらなどがあります。 以下は、 自作したいような人が読んで下さい。 HTML parser 参考 javascriptの実行結果をスクレイピングする方法 参考 htmlファイル中のリンクタグは、 LinkTagクラスで表現します。 getLink() で、リンク先URLを取得し、 getLinkText() で、リンクアンカー を取得できます。 HttpURLConnection 参考 botの名前 (HTTP_USER_AGENTに相当する )は、"User-Agent"で指定したりします。 HttpURLConnection.setRequestProperty( "User-Agent", agentname ); この文字列は好き勝手に指定できます。 "Referer" によって、直前に見ていたURL(HTTP_REFERERに相当する )をセ

    javaでWEBクローラの作り方 : 研究開発
  • 1