seikennのブックマーク - はてなブックマーク

言語学的に論文の引用形式を考察 : 研究開発

総合研究大学院大学　複合科学研究科　情報学専攻　卒　博士（情報学）自然言語処理や機械学習、データ分析に関する研究内容とwebシステムの開発と運用について書いています。シリコンバレーベンチャーみたいに深い技術の事業化をしたいと思っています。ご興味ある方はご連絡ください。論文の引用は、どういうわけか多くの人が論文情報の表示の方しか興味ないようなのですが、わたくしは引用、ラベルのパターンに興味があります。最も多く見るパターン [1], [2,3], [4-6], 番号で文献を指し示す無機質なパターンです。この番号のことを普通ラベルと呼びます。例えば[4]では.... このように指示代名詞のような使用は本来よろしくないのですしかしながら、こういう表現が書かれていることは多くあります。ラベルは本来、文の中で意味をなす語彙...文字でさえない　からです。ラベルが論文中に書かれてい

seikenn 2012/01/29

論文

リンク

Akinator アキネータの仕組み : 研究開発

総合研究大学院大学　複合科学研究科　情報学専攻　卒　博士（情報学）自然言語処理や機械学習、データ分析に関する研究内容とwebシステムの開発と運用について書いています。シリコンバレーベンチャーみたいに深い技術の事業化をしたいと思っています。ご興味ある方はご連絡ください。あれはどうやってるのでしょうか？ [iPhoneアプリ] Akinator（アキネイター）が答えを当てる仕組みを考えてみましたプログラマがランプの魔人の中身を分析してみるという感じに考えた人はたくさんいますが.... これでも全然Akinatorの本質には迫ってないと思います。 ○たった２０〜４０問の質問しかしない。登録されてる質問の総数は、当然もっと多いのですが、そもそもAkinatorは質問を十分に選定してるのです。この点に触れて考えている人が居ないようなのですが、おそらく、これこそがAkinatorの本

seikenn 2011/12/10

リンク

twitterユーザとtweet統計 2011/10 : 研究開発

総合研究大学院大学　複合科学研究科　情報学専攻　卒　博士（情報学）自然言語処理や機械学習、データ分析に関する研究内容とwebシステムの開発と運用について書いています。シリコンバレーベンチャーみたいに深い技術の事業化をしたいと思っています。ご興味ある方はご連絡ください。前回から8ヶ月経ったのでまた調査しました 2012年6月の調査 2011年2月の調査 2010年6月の調査 400000000ユーザID中 82.76% のサンプリングに成功ということは、2011-10-05 の有効なユーザ数は　約331,360,947 この８カ月で１億３０００万ユーザも増加した、ということであるようです。このユーザ数は、現在アクティブなアカウントの数です。tweetしてるかどうかは関係ありません。このユーザの傾向は.... ＜friends_count＞0＜/friends_count＞こ

seikenn 2011/10/10

リンク

javaでPC画面の映像を通信 : 研究開発

seikenn 2010/04/19

java

リンク

検索エンジンの作り方 : 研究開発

総合研究大学院大学　複合科学研究科　情報学専攻　卒　博士（情報学）自然言語処理や機械学習、データ分析に関する研究内容とwebシステムの開発と運用について書いています。シリコンバレーベンチャーみたいに深い技術の事業化をしたいと思っています。ご興味ある方はご連絡ください。現在やっていることは、間接的に検索エンジンを作ってるようなものなので（全文）検索エンジンをつくるノウハウが蓄積できてきたと思います。検索エンジンは、その設計はシンプルですが想像をはるかに上回る超巨大なデータベースを要求します。（わたくしが設計する）データベース Table 検索 text 検索クエリー int 検索クエリーSerialNo Table Ranking int 検索クエリーSerialNo double pagerank int URLSerialNo int chaceSerialNo Tab

seikenn 2009/04/17

検索エンジン

リンク

blog記事の本文抽出 : 研究開発

主にblogですが、広告やその他内容に関係ないところを全て削除して本文だけを取得したいと思うことは多くあります。そういう場合にどのような方法があるか Webstemmerはhtmlファイルの形式、定型パターンから本文を抜き出すようです。しかしながら、製作者が言っているとおり、もっと簡単に抜き出す方法があったりします。 < !-- google_ad_section_start --> ...本文... < !-- google_ad_section_end --> という指定がしてある所だけを抽出してAdSenseの内容を決める機能が有るので、それを適用しているblogであれば楽に本文のEntryFullTextが出来るよね。実はこれはかなり有効な方法で、これだけでかなりカバーできたりします。しかしながら、対応してないblogも多いです。さて、わたくしは現在どういう風に対応してる

seikenn 2009/04/17

検索エンジン

リンク

javaでWEBクローラの作り方 : 研究開発

java で書かれたwebクローラはこれらなどがあります。以下は、自作したいような人が読んで下さい。 HTML parser 参考 javascriptの実行結果をスクレイピングする方法参考 htmlファイル中のリンクタグは、 LinkTagクラスで表現します。 getLink() で、リンク先URLを取得し、 getLinkText() で、リンクアンカーを取得できます。 HttpURLConnection 参考 botの名前（HTTP_USER_AGENTに相当する）は、"User-Agent"で指定したりします。 HttpURLConnection.setRequestProperty( "User-Agent", agentname ); この文字列は好き勝手に指定できます。 "Referer" によって、直前に見ていたURL（HTTP_REFERERに相当する）をセ

seikenn 2009/01/15

リンク

はてなブックマーク

タグ

ブックマーク / blog.livedoor.jp/tak_tak0 (7)

お知らせ

今週のはてなブックマーク数ランキング（2024年8月第3週）

今週のはてなブックマーク数ランキング（2024年8月第2週）

今週のはてなブックマーク数ランキング（2024年8月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス