2008年2月9日のブックマーク (2件)

  • Wikipedia日本語版をコーパスとして用いた言語研究の手法 | CiNii Research

    近年、コーパスを用いた言語研究の手法に多くの注目が集まっている。英語に関しては以前から、British National Corpusをはじめ、大規模なコーパスが複数存在している。また日語を含む他のいくつかの言語に関しても、これらに匹敵する規模のコーパスの構築が進められている。しかし現時点で、研究者が自由に利用できる日語コーパスの選択の幅は非常に限られている。要因としては、テキストデータの著作権に関する問題と、それに付随する様々な制約といったものが挙げられる。 このような状況を鑑み、稿ではオープンソース―すなわち著作権フリーで再配布・改良自由の形式―で提供されるインターネット百科事典サイトWikipedia語版のデータをコーパスとして用いることを提案する。また、Wikipediaアーカイブファイルから言語学的に有用なデータを抽出するために筆者が開発したツールキットを紹介し、解説

  • 統計処理ソフト R 入門 講習会資料

    講習会の目的 講習会は, R についての自習の基盤をつくることを目指します。 たとえ初心者向けの数時間の入門講習でなく1年間の毎週の演習授業であっても,R に関してすべてを説明するのは不可能だと思われます。 R の世界は,縦にはそこそこ深く,横には果てが見えないほど広いです。 CRAN に登録されている R のパッケージは 1000 を超えました。 よって,受講者の幅も広いことですし,受講者各自にとってぴったりな統計解析の実用的な解説をするのはあきらめて, 各自が必要に応じて情報を探し,見つけたものを難なく活用できるようになること,を目標にしました。 ここに自分の求めている分析手法や作図法などの答えがあるとは期待しないで下さい。それは帰ってからのあなたの楽しい仕事です。 R の利用と R 言語 R の根幹は R 言語のインタプリタであり,ユーザはR言語を駆使することでRを操作します。 S