タグ

研究に関するsudo1101のブックマーク (94)

  • Wikipedia からスクレイピングして… とか言ってる人におすすめしたい,DBPedia からの情報抽出 - Qiita

    Wikipedia からスクレイピングして… とか言ってる人におすすめしたい,DBPedia からの情報抽出rdfスクレイピングWikipediaSPARQLdbpedia みなさん DBPedia をご存知でしょうか.DBPedia とは,Wikipedia から構造化データ (RDF) として情報を抽出するものです.DBPedia では Linked Data として情報が体系化されているので,Wikipedia 内の必要な情報を,非常に簡単に抽出することができます. 「◯◯ の情報を Wikipedia からスクレイピングして取ってきて…」みたいな話をよく耳にし,そんなのスクレイピングしなくても DBPedia 使えば一瞬なのに… と感じることが最近多々あるので,DBPedia の普及もかねて簡単にまとめてみることにしました.DBPedia なんて初めて聞いたという方は,ぜひチェック

    Wikipedia からスクレイピングして… とか言ってる人におすすめしたい,DBPedia からの情報抽出 - Qiita
  • 「HOME'S」の物件・画像データセットを研究者に提供開始します! - LIFULL Creators Blog

    こんにちは、リッテルラボラトリーの清田です。 このたび、国立情報学研究所(NII)のご協力を得て、HOME'Sに掲載されている日全国の賃貸物件データ(約533万件)と、それに紐付く物件画像データ(約8300万件)を研究資源として無償提供することになりました。あわせて、画像処理分野などで注目を集めているdeep learningなどの機械学習アルゴリズムや、テキストマイニング処理などを簡単に試していただけるツールキット群も年内に公開予定です。 2015年11月24日より、NII情報学研究データリポジトリを通じてHOME'Sデータセットとして提供開始しました。ぜひ多くの研究者の方にデータセットを研究利用していただき、住まい探しを変革するようなイノベーションにつなげていただけると嬉しいです! 詳しい内容については、以下のイベントでお話しさせていただきました。 スライドファイルを公開しております

    「HOME'S」の物件・画像データセットを研究者に提供開始します! - LIFULL Creators Blog
  • 大体いい感じの研究発表ができるKeynoteテンプレート「Zebra」を作った - shoya.io

    なぜ作ったか 僕の観測範囲では、研究発表のスライドというのは装飾が最小限で、白地に黒文字が読みやすくて良いとされています。その制約の中で見栄えの良いスライドを作るのはなかなか難しいので、大体いい感じになるKeynoteテンプレートを作りました。名前はZebraです。こちらからダウンロードすることができます。Zebra — Keynote template for research presentations テンプレート作成/公開にあたって参考にさせていただいたのは佐野章核さんの「Azusa」「Azusa Colors」で、勉強会やLTのスライドではいつもお世話になっています。 大体いい感じになるKeynoteテンプレート「Azusa」作った - MEMOGRAPHIX ただ研究発表のような堅い場所で使うにはややポップすぎる感じがするのと、透過でない図やグラフを貼る機会が多くて真っ白な背景

  • トピックモデルを用いた 潜在ファッション嗜好の推定

    2013年8月10~11日にかけて北大函館キャンパス内で行われた統計勉強会の投影資料です。 2日目 2-6.ゼロ切断・過剰モデル ゼロがないデータや、0が多すぎるデータを分析する方法を解説します。 サイト作ってます http://logics-of-blue.com/

    トピックモデルを用いた 潜在ファッション嗜好の推定
    sudo1101
    sudo1101 2015/11/12
    ファッションに応用かー
  • 優れた研究論文の書き方―7つの提案

    オリジナルはこちら https://www.microsoft.com/en-us/research/academic-program/write-great-research-paper/ http://research.microsoft.com/en-us/um/people/simonpj/papers/giving-a-talk/Writing%20a%20paper%20(seven%20suggestions).pptx 新しいバージョンはこちら https://www.slideshare.net/kdmsnr/how-to-write-a-great-research-paper-226669082Read less

    優れた研究論文の書き方―7つの提案
  • Wikipediaのダウンロードできるデータファイル一覧 | mwSoft

    概要 記事はWikipediaのダウンロード可能なデータについてまとめたものです。 Wikipediaではクロール行為は禁止されています(ここを見る限りでは)が、代わりに全記事の情報を圧縮したファイルが公開されています。 日Wikipedia情報ダウンロードページ http://download.wikimedia.org/jawiki/latest/ 記事は2009年の10月下旬に取得した情報を元に書いています。時間が経つと結果が変わる可能性があるのでご注意ください。 事前情報 2009/10/25に確認した時点では、日Wikipediaのダウンロードページには55個のファイルが置いてありました(うち半分は更新を通知する為のRSS)。 ファイルの形式は「XML」、「MySQLのダンプ」、「テキスト」などがあります。 詳しいデータのインポート方法は、こちらのリンク集が参考になる

  • PHPでSQLとhtmlを使う方法のサンプル - Qiita

    自分の備忘録も兼ねて、ひと通りSQLを使うまでの方法をメモしておこうと思います。 環境はMac10.9.2です。 SQLを使う環境を整えると自ずとPHPをローカルで扱う環境も整ったので合わせて共有しようかなと……(世の中に同じような情報は沢山有りますけど) MAMPを導入しよう http://www.mamp.info/en/ 導入は簡単。 とりあえずFree版落として(PRO版も付いてくるけど気にしない)、インストールして起動する。 後はサーバーを起動して、スタートページが開いたら導入完了。簡単親切設計。 phpMyAdminでちょっと遊ぼう まずはMAMPでサーバーを起動。サーバーが起動し終わったら、自動で既定のブラウザでスタートページが開くはず。開かなかったら手動で起動しよう。 こんな画面が出るはず。 そしたらこの画像の丁度左下にphpMyAdminとあるはずですのでClick。 早

    PHPでSQLとhtmlを使う方法のサンプル - Qiita
  • MediaWiki/ja - MediaWiki

    MediaWiki は、活気あるコミュニティによって提供される共同作業と文書作成のためのプラットフォームです。 MediaWiki ソフトウェアは数万件のウェブサイトや数千件の企業や組織で使用されています。 このソフトウェアは、ウィキペディアやこのウェブサイトを支えています。 MediaWiki は、知識を収集・整理してそれを人々が利用できるようにするのを支援します。 このソフトウェアは強力で、多言語に対応しており、フリーソフトウェアで、オープンソースソフトウェアでもあります。そして、拡張やカスタマイズが可能で、信頼性もあり、無料です。 詳細を確認、または MediaWiki があなたに適しているかどうか確認できます。

    MediaWiki/ja - MediaWiki
  • Wikipediaデータをxml2sqlを利用しMySQLにぶっこむ - Miningoo

    2014-10-30 Wikipediaデータをxml2sqlを利用しMySQLにぶっこむ Wikipedia NLP Wikipediaコーパスってどう入手するの? Wikipediaのコンテンツデータは、 http://dumps.wikimedia.org/にて公開されています。 (詳しくは、Wikipedia:データベースダウンロード - Wikipediaを参照してください)上記サイトは、英語版のWikipediaデータで、日語版はhttp://dumps.wikimedia.org/jawiki/においてあります。Wikipediaではクローラを禁止している代わりに、全データがXML形式で公開されています。Wikipediaサイトで入手できるデータはXML形式なため、扱いしやすくするためMySQLに突っ込もうとしたのですが、つまづいたためそのときの備忘録です。 Wikip

    Wikipediaデータをxml2sqlを利用しMySQLにぶっこむ - Miningoo
  • 大学院の奨学金返済を免除してもらう方法~理系編~ - まだモノなんか捨ててるの?

    「日は給付型の奨学金が少なすぎる!日の奨学金は実質的にはただの学生ローンだ!」 こうした批判はまぎれもない事実ですが、大学院における第一種奨学金(無利子、審査厳しい)だけは、頑張った優秀な人間に対して返還免除という形で報いてくれます。 大学院に進学して、第一種奨学金を借りられる成績をお持ちであれば、奨学金の返還免除を狙ってみてはいかがでしょうか? ※2015/7/16追記 大学院の奨学金は親の年収は関係ありません!人の年収のみで審査されます。 学部の時、親の年収が高ぎて奨学金がもらえなかった人も大学院の奨学金は狙うべきです! 返還免除と聞くと、ごく一部の優秀な人間にしか適用されない、自分は関係ないと思われるかもしれませんが、下表をご覧ください。 平成26年度認定結果の概要-JASSOより引用 修士課程に注目です。25,126人が奨学金を借り、そのうち2,512人(10%)が全額免除、

    大学院の奨学金返済を免除してもらう方法~理系編~ - まだモノなんか捨ててるの?
    sudo1101
    sudo1101 2015/07/17
    とりにいきたい
  • テキストからWikipedia見出し語を抽出 - 人工知能に関する断創録

    WindowsでMeCab Pythonを使う(2010/11/21)のつづきです。形態素解析を使ってると単語が変なところで切れていたり、未知語が多かったりと不満点が出てきます。また、応用によっては、形態素ではなく、複合語単位で抽出したいということもしばしばあります。たとえば、 人工知能は、コンピュータに人間と同様の知能を実現させようという試み、あるいはそのための一連の基礎技術をさす。 人工知能という名前は1956年にダートマス会議でジョン・マッカーシーにより命名された。 現在では、機械学習、自然言語処理、パターン認識などの研究分野がある。(Wikipedia人工知能』を改変)という文章をMeCabで形態素解析して名詞のみ取り出すと、 人工 知能 コンピュータ 人間 同様 知能 実現 試み ため 一連 基礎 技術 人工 知能 名前 1956 年 ダート マス 会議 ジョン マッカーシー

    テキストからWikipedia見出し語を抽出 - 人工知能に関する断創録
  • HOME|NTCIR

    NTCIR Home NTCIR 18 NTCIR-18 カンファレンス -参加登録 -EVIA2025 -論文投稿案内 -ポスター&デモ案内 -口頭発表案内 -プログラム -プログラム at a glance -ポスターリスト -チュートリアル・基調講演・パネル・招待講演 -カンファレンス論文集 -プレゼンテーション賞 -スポンサー募集 -協賛・スポンサー -会場&旅行案内 -ホテル情報 -VISA -トラベルサポート NTCIR-18の目的 キックオフイベント タスク参加の手引き Task Participation タスクの概要・参加者募集 -参加者用覚書 運営組織 -タスクオーガナイザー -プログラム委員会 重要な日程 お問い合わせ タスク提案募集 NTCIR 17 NTCIR-17 カンファレンス -参加登録 -EVIA2023 -論文投稿案内 -ポスター&デモ案内 -口頭発表案

  • 研究者流 コーディングの極意 言語処理学会第19回年次大会(NLP2013) チュートリアル資料(岡崎担当分)

    言語処理学会第19回年次大会 (NLP2013) チュートリアル資料(岡崎担当分) 岡崎 直観 東北大学大学院情報科学研究科 okazaki at ecei.tohoku.ac.jp http://www.chokkan.org/ @chokkanorg 研究者流 コーディングの極意 1 研究におけるコーディングの極意? • 今回のチュートリアルをきっかけにサーベイ – ソフトウェアエンジニア向けの指南書は存在 – でも,研究者向けの資料は数少ない • 自分が修士課程の頃は完全に我流だった – 複数文書自動要約のプログラムをすべてC++で実装 – *NIXを使うスキルはなく,すべてWindows上で実行 – 今から考えると,無駄だらけの実験作法だった • ほとんどの大学では実験の講義があるが… – 研究のためのコーディング作法は教えてくれない 2 繰り返される残念な光景 • 論文の締切前日

  • 総務省|平成26年版 情報通信白書|ICTの利用環境の変化

    その結果を見ると、PCは各国共通で9割前後の高い普及率であるが、前述のスマートフォン保有率は我が国では5割強である一方、海外ではスマートフォン普及率が7~9割と高く、米国およびフランスは7割、英国は8割、韓国およびシンガポールにおいては9割前後がスマートフォンを保有している。 携帯電話のみに着目してみると、我が国ではフィーチャーフォンの保有率がスマートフォン併用者と合わせると3割弱存在しており、他国と比べて顕著に異なるという特徴が表れている。この背景には世界でも類をみないほど高度に進化した、いわゆる日のガラケー文化が現在でも一定の支持を得ていることが考えられるほか、高齢者等通話や電子メールを中心に使うユーザーにおいて、フィーチャーフォンに対する高い評価もうかがえる(図表4-1-1-8)。

  • トピックモデルことはじめ

    All slide content and descriptions are owned by their creators.

    トピックモデルことはじめ
  • CiNii Dissertations - 日本の博士論文をさがす - 国立情報学研究所

    【2024年7月2日更新】CiNii DissertationsのCiNii Researchへの統合について 新「国立国会図書館サーチ」公開によるCiNiiサービスへの影響について 博士論文検索 全文検索 検索 すべて 文あり 詳細検索 タイトル 抄録・目次・注記 著者名 学位授与大学名 大学ID 学位授与番号ID 取得学位名 学位授与年 年から 年まで 検索 閉じる 検索 【2024年7月2日更新】CiNii DissertationsのCiNii Researchへの統合について 新「国立国会図書館サーチ」公開によるCiNiiサービスへの影響について

  • 統計・データ解析

    『Rで楽しむ統計』が出ました。サポートページ 『Rで楽しむベイズ統計入門』が出ました。サポートページ,第7章のRコードをStanで書き直したRで楽しむStan 全国学力・学習状況調査の個票の疑似データがこちらで公開されています。データ分析の練習に使えそうです。SSDSE(教育用標準データセット)も。 R 4.x では stringsAsFactors=FALSE がデフォルトになりましたが,サイトの古い記事ではそうなっていないところがあるかもしれません(read.csv() などで as.is=TRUE は不要になります(あってもかまいませんが))。 R 4.2 ではWindowsでもMac同様UTF-8がデフォルトになりました。もう fileEncoding オプションに "UTF-8","UTF-8-BOM" を指定する必要はなくなりそうです。一方で、SJIS(CP932)データの場

  • 文体診断ロゴーン

     文体診断λόγων(ロゴーン) 以下に文章を入力していただくと、名文の中から類似の文体を探し出します。 また、文章の表現力や読みやすさを評価します。入力の上限は5000字です。

  • Google APIを使ってPythonから検索データを取得する方法

    2013年12月3日 備忘録 pythonを使ってGoogle検索の結果を取得する方法をメモ。 まずAPI keyが必要になるので取得する。以下のサイトを見ながらやった。 Google Custom Search API を試す インターフェースが変わったようで、大分手間取った。API keyはここからプロジェクトを1つ選択してAPIs & auth > Registered apps > Browser Keyから取得できる。(Googleアカウントでサインインしてるのは前提条件) 次にここから検索エンジンIDを取得する。これは上のリンクの通りにやればOK。 これで準備おkなので、リクエストURL:https://www.googleapis.com/customsearch/v1にパラメータを渡してアクセスするとデータが取れる。プログラムはこんな感じ。ちなみに環境は、Mac10.8,

  • パラメトリックとノンパラメトリックの狭間 - risuo's blog

    ※この記事は、Machine Learning Advent Calendar 2012(http://qiita.com/advent-calendar/2012/machinelearning)の10日目用に書かれています。 はじめに Machine Learning Advent Calendar 2012の10日目を担当します、@risuoku です。 今回は、数ある機械学習手法の中で、以下の2つに焦点を当て、いくつかのアプローチを紹介します。 回帰分析 クラスタリング 特に、パラメトリックな手法とノンパラメトリックな手法の違いや、それぞれの特徴の理解を目指しています。 また、@risuokuはPRMLをよりどころに機械学習を勉強してきました。なので、このの影響を強く受けていることを初めにお伝えしておきます。 回帰分析 「形」の発見 突然ですが、以下の画像から、どんな知識が得られ

    パラメトリックとノンパラメトリックの狭間 - risuo's blog
    sudo1101
    sudo1101 2015/06/03
    見えないものを見ようとして