言葉は、大河の流れに翻弄される木の葉のように、たえず揺れ動き、さまざまに向きをかえ、時には裏返り、その見た目を変化させる。 そのひとつひとつを丁寧にすくいあげ、記録として残すのが国語辞典の役目のひとつでもある。 われわれがなにげなく日々使う言葉、とくに漫画にはどんな言葉が使われているのか、現役の国語辞典編纂者と国語辞典のプリンスにすくい上げてもらった。
言葉は、大河の流れに翻弄される木の葉のように、たえず揺れ動き、さまざまに向きをかえ、時には裏返り、その見た目を変化させる。 そのひとつひとつを丁寧にすくいあげ、記録として残すのが国語辞典の役目のひとつでもある。 われわれがなにげなく日々使う言葉、とくに漫画にはどんな言葉が使われているのか、現役の国語辞典編纂者と国語辞典のプリンスにすくい上げてもらった。
概要 本記事はWikipediaのダウンロード可能なデータについてまとめたものです。 Wikipediaではクロール行為は禁止されています(ここを見る限りでは)が、代わりに全記事の情報を圧縮したファイルが公開されています。 日本のWikipedia情報ダウンロードページ http://download.wikimedia.org/jawiki/latest/ 本記事は2009年の10月下旬に取得した情報を元に書いています。時間が経つと結果が変わる可能性があるのでご注意ください。 事前情報 2009/10/25に確認した時点では、日本語Wikipediaのダウンロードページには55個のファイルが置いてありました(うち半分は更新を通知する為のRSS)。 ファイルの形式は「XML」、「MySQLのダンプ」、「テキスト」などがあります。 詳しいデータのインポート方法は、こちらのリンク集が参考になる
分かち書き(わかちがき) ■点字ワンポイント 50音・濁音・半濁音 拗音 特殊音 数字 アルファベット・英文記号 記号・符号 ■点字の文章の規則 分かち書き ■実際に書いてみたい・・・ 目的・道具 さて、ここでは文として組み立てられた点字についてお話をしたいと思います。 点字はいわばカナ文字(表音文字)だけで成り立っているため、正しく読み・理解するために、文章には「分かち書き」というルールがあります。これは、文節の間に区切りとしての空白を挿入するものです。つまり、英語の文章での単語と単語の間の空白だとお考え下さい。恐らくこれが点字で文章を表現する練習の最初のハードルになるかと思います。私たちが何気なく書いた文章も「分ち書き」を正しく行わないと盲人の方には意味のわからないちんぷんかんぷんな文章になってしまいます。 このことは、私たちが全てひらがな(カタカナ)の文章で書かれた物を想像してみると
ハッカドールというニッチ向けの自動ニュースレコメンドアプリの出来がなかなかおもしろく、日曜データサイエンティストとしていろいろ刺激されたので、久々に単語の重要度とかを表現できるTF-IDFのプログラムを作ってみました。 刺激を受けたスライドはこちら 捗るリコメンドシステムの裏事情(ハッカドール) from Yusuke Enomoto www.slideshare.net そして、実際に作ってみたやつ。 問題と解決 ・問題1 このプレゼンで触れられているようにニッチ界隈の単語やネットスラングなどは、日々増えたり減ったりしていて、とてもじゃないが自分では管理しきれない ・解決1 IPADIC-NEOLOGDというプロジェクトでGITで常に最新の単語にアップデートされ続けているものを発見。ヒューリスティックに単語、新語などを追加しているようです。自分一人での単語追加は膨大な手間がかかるもの。I
雑にですが,知ってるサイトやチュートリアルをまとめたくなったのでまとめてみました.夏ですし. 適宜更新しています. 最終更新 2018年02月03日 チュートリアル 言語処理100本ノック 言語処理100本ノック 2015 東工大の岡崎先生が作られたチュートリアルです. 他大学の研究室でも利用されています. 簡単な内容からはじまるので,プログラミングの導入としてもいいと思います. NLPプログラミングチュートリアル Graham Neubig's Teaching Carnegie Mellon UniversityのGraham Neubig先生のチュートリアルです. Githubにサンプルコードが公開されています. 各チュートリアルにはテストがついているので,実装が正しいかを確かめることができます. 扱っているトピックが広いので,かなり勉強になると思います. ソフト 形態素解析器 日本
NTCIR Home NTCIR 18 NTCIR-18 カンファレンス -参加登録 -EVIA2025 -論文投稿案内 -ポスター&デモ案内 -口頭発表案内 -プログラム -プログラム at a glance -ポスターリスト -チュートリアル・基調講演・パネル・招待講演 -カンファレンス論文集 -プレゼンテーション賞 -スポンサー募集 -協賛・スポンサー -会場&旅行案内 -ホテル情報 -VISA -トラベルサポート NTCIR-18の目的 キックオフイベント タスク参加の手引き Task Participation タスクの概要・参加者募集 -参加者用覚書 運営組織 -タスクオーガナイザー -プログラム委員会 重要な日程 お問い合わせ タスク提案募集 NTCIR 17 NTCIR-17 カンファレンス -参加登録 -EVIA2023 -論文投稿案内 -ポスター&デモ案内 -口頭発表案
言語処理学会第19回年次大会 (NLP2013) チュートリアル資料(岡崎担当分) 岡崎 直観 東北大学大学院情報科学研究科 okazaki at ecei.tohoku.ac.jp http://www.chokkan.org/ @chokkanorg 研究者流 コーディングの極意 1 研究におけるコーディングの極意? • 今回のチュートリアルをきっかけにサーベイ – ソフトウェアエンジニア向けの指南書は存在 – でも,研究者向けの資料は数少ない • 自分が修士課程の頃は完全に我流だった – 複数文書自動要約のプログラムをすべてC++で実装 – *NIXを使うスキルはなく,すべてWindows上で実行 – 今から考えると,無駄だらけの実験作法だった • ほとんどの大学では実験の講義があるが… – 研究のためのコーディング作法は教えてくれない 2 繰り返される残念な光景 • 論文の締切前日
一応の基本機能がととのったので、できたてほやほやではありますが、Python製の形態素解析器 Janome を公開しました。 http://mocobeta.github.io/janome/ インストール方法や使い方は上記ページを見てください。 ソースコードはGithubにおいています: https://github.com/mocobeta/janome 【公開にいたった背景など】 日本語テキストを分析したりテキストマイニングする場合、まずは形態素解析から始めると思います。 Python の場合、そのためには MeCab をインストールして、mecab-ipadic をインストールして、mecab-python をインストールする、という手順を踏むことが多いと思うのですが、環境依存のところでハマって面倒な思いをしたり、サーバ構築の手間がかかったり、しますよね。なので、Pythonモジュ
All slide content and descriptions are owned by their creators.
文体診断λόγων(ロゴーン) 以下に文章を入力していただくと、名文の中から類似の文体を探し出します。 また、文章の表現力や読みやすさを評価します。入力の上限は5000字です。
Lucene in Action つづき。5.9 節に、term vector の使い方が載っていたので、試してみました。 Lucene in Action 謹製のサンプルデータはデータ数が少なくあまり面白くないため、このブログ内のエントリをインデックスして、TF-IDF 値を計算してみた例です。 下記のコードは、Lucene 4.2 を使用しています。 Lucene 3 系とは、term vector の扱いがやや複雑になっている感じです。 【term vector を使う準備】 term vector はデフォルトでは計算、格納されないので、term vector を格納したいフィールド(ここでは"content")で、FieldType#setStoreTermVectors(boolean); に true を指定しておきます。 FieldType contentType = ne
下位カテゴリ このカテゴリには下位カテゴリ 10 件が含まれており、そのうち以下の 10 件を表示しています。
はじめに 本連載ではRedPenという自動文書検査ツールの紹介とRedPenを利用した技術文書の校正方法について説明します。RedPenはオープンソースプロジェクトで、現在もゆっくりと開発が続いています。RedPenのホームページは次のとおりです。 http://redpen.cc RedPenは技術文書をターゲットにした文書の自動検査ツールです。技術文書にはマニュアルやチュートリアル、論文、仕様書等が含まれます。この記事のようなソフトウェアツールの紹介文書はもちろん技術文書の一つといえます。第1回の今回は、はじめに技術文書の特徴を解説し、その後RedPenを開発した動機について紹介します。記事の後半では、RedPenの特徴と利用方法について解説します。 技術文書の特徴 RedPenが対象とする技術文書ですが、作文や日記、文学作品等とは大きく異なる特徴をもちます。 最大の違いは、技術文書に
英単語の語彙をどうやって増やしたらいいだろうか。やみくもに単語集みたいなものを順に覚えていくのも道程が長そうだ。また、一般論ではなく自分がよく書く分野に特化して語彙を増やしたい。ということで、テキストマイニングを使ってやる方法を考えてみた。方針は以下の通りである: 自分が今までに書いたすべての(英語)の文書を解析して、品詞ごとに出現回数でソートする。 つぎに、自分の所属するコミュニティの文書(たとえば自分がよく参加する学会に掲載される論文など)をなるべく大量にあつめて、同じように品詞ごとに出現回数でソートしておく。 両者を比較して、そのコミュニティでは使用頻度が高いにも関わらず、まだ使ったことのない単語を抽出して自分専用の「単語集」をつくる。 こうやって抽出された単語集を勉強すれば、一般的な単語集を使うよりも効率がいいのではないだろうかという目論みだ。対象となる分野を選んでいるのは、たとえ
tfidf, lsi, ldaを使ったツイッターユーザーの類似度計算メモ。 tfidf, lsi, ldaを使ったツイッターユーザーの類似度計算 ツイッターの@ts_3156のフォロー情報を使って、ツイッターユーザーの類似度計算を行いました。 結論だけ先に書いておくと、プロフィール情報だけを使って類似度計算を行なっても、全然いい結果にはならないです(^^) その理由あれこれは下の方に書いてあります。 「じゃあ、正確なツイッターユーザーの類似度計算はどうやればいいの?」についても下の方に書いておきました(^^) 今回書いたプログラムは、ツイッタープロフィールだけでなく文章集合の類似度計算全般に使えるので、よかったら各自で何かしら使ってみてください(^^) サンプルコードの動作環境 python2.7(2系なら何でもOKかも) もしない場合は、「yum install python27」でイン
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く