WindowsでMeCab Pythonを使う(2010/11/21)のつづきです。形態素解析を使ってると単語が変なところで切れていたり、未知語が多かったりと不満点が出てきます。また、応用によっては、形態素ではなく、複合語単位で抽出したいということもしばしばあります。たとえば、 人工知能は、コンピュータに人間と同様の知能を実現させようという試み、あるいはそのための一連の基礎技術をさす。 人工知能という名前は1956年にダートマス会議でジョン・マッカーシーにより命名された。 現在では、機械学習、自然言語処理、パターン認識などの研究分野がある。(Wikipedia『人工知能』を改変)という文章をMeCabで形態素解析して名詞のみ取り出すと、 人工 知能 コンピュータ 人間 同様 知能 実現 試み ため 一連 基礎 技術 人工 知能 名前 1956 年 ダート マス 会議 ジョン マッカーシー
(プリキュアにあんまり関係ない記事です。興味ない方はスルーして下さい。) 先日(4/13)、当ブログを紹介していただいた朝日新聞withnews様の記事が、(数時間ですが)ヤフーのトップに掲載されました。 娘がプリキュアに追いついた日… 父のブログに涙する人が続出 当たり前の日常の中にある愛情、著者に聞く (withnews) - Yahoo!ニュース さすがにヤフーのトップ、記事中に直接リンクが貼ってあったわけではありませんが、多大な反響があり、その1日だけで「イワオ~キン骨マンの超人強度」くらいにはPVを頂きました。 はてなブックマーク、ツイッター含め、沢山のコメントを頂きまして、本当にありがとうございました。 すべてのコメントを読まさせていただきました。 その全てが、ありがたく、身に染みるものでした。 で、今回「ヤフーのトップニュースに載る」ことにより、 「自分のブログ記事の内容が”
お知らせ 当研究室の苅米志帆乃さんが情報処理学会50周年記念第72回全国大会で学生奨励賞を受賞しました 当研究室の佐々木智君がDEIM2010で学生奨励賞を受賞しました 当研究室の井上結衣さんがDEIM2010で学生奨励賞を受賞しました 藤井敦は東京工業大学に移籍しました 2009年9月1日 私の研究室で一緒に研究をしたいという,意欲ある学生を募集しています 入試情報 研究内容やプロジェクトについては,こちらのページをご覧下さい 当研究室の苅米志帆乃さんがWebDBf2009学生奨励賞と企業賞(サイボウズ賞)を受賞しました 当研究室の苅米志帆乃さんがIPA未踏ユースに採択されました 平成20年度 山下記念研究賞を受賞しました 当研究室の苅米志帆乃さんが情報処理学会第70回全国大会で学生奨励賞を受賞しました インターネットコンファレンス2007で論文賞を受賞しました 統計的機械翻訳の講習会
佐藤理史 / Satoshi Sato 名古屋大学大学院工学研究科 電子情報システム専攻 Graduate School of Engineering, Nagoya University 研究内容 自然言語処理や人工知能の技術を用いて、情報を自動的に編集することを実現する技術(「情報の自動編集」)について研究を行っています。ここで、編集とは、人間が情報を有効に使いこなすための知的作業全般を指します。編集の主な目的は、「情報を使いやすくする」ことであり、これは、おおよそ「探しやすくする」ことと「わかりやすくすること」から構成されると考えます。 (WITプロジェクト) 自動編集を実現するためには、新しい技術が必要となります。テキスト情報の自動編集には、テキストを自在に変形する「言い換え」が不可欠です。このような言い換えを機械的に実現する方法について研究しています。また、日本語の平易度の規
Yo Ehara, Ph.D. Project Assistant Professor, Tokyo Metropolitan University Speciality 自然言語処理,機械学習 非母語話者のための読解支援 (5年以上の経験),自然言語処理の教育応用 ユーザ適応(語学学習者への適応), 半教師あり学習, 能動学習 より広く,言語処理の個人化に興味があります. Journals (Refereed) Yo Ehara, Nobuyuki Shimizu, Takashi Ninomiya, Hiroshi Nakagawa. Personalized Reading Support for Second-Language Web Documents . ACM Transactions on Intelligent Systems and Technology, 4 ( 2)
この記事は第2のドワンゴ Advent Calendar 2015の24日目の記事です。 ドワンゴエンジニアの@ixixiです。 niconicoのデータをDeep Learningなアプローチで解析してみた話です。 nico-opendata niconicoの学術目的用データ公開サイト https://nico-opendata.jp が最近オープンしました。 これまでも、国立情報学研究所にて、ニコニコ動画コメントデータや大百科データが公開されていましたが、 nico-opendataでは、ニコニコ静画のイラストデータの約40万枚のイラストとメタデータが研究者向けにデータ提供されています。 今回は、ニコニコ動画コメントデータ(誰でも取得可能)を用いたDeep Learningによるコメント解析例を紹介します。 超自然言語 ニコニコのコメントデータに限らず、twitterでのtweetや
JavaScript で形態素解析もどき JavaScript で形態素解析のようなものを。 totonの日記 - すべての漢字を取り出す正規表現 「すべての漢字を取り出す正規表現」をPHPで試す:phpspot開発日誌 これらの記事を参考にして JavaScript で漢字、ひらがな、カタカナ、英数字に区切ることをしています。 ただ、文字コード的にちゃんとできるのか、よくわかりません。Seesaa はShift_jis なのでおかしくなる場合もあるかも知れないです。 下のテキストエリアに文章を入力して解析ボタンを押すと解析結果が表示されます。解析というか、単純に改行で区切っているだけですが。 サンプルは青空文庫の太宰治 走れメロスの冒頭部分。 メロスは激怒した。必ず、かの邪智暴虐(じゃちぼうぎゃく)の王を除かなければならぬと決意した。メロスには政治がわからぬ。メロスは、村の牧人である。笛
概要 本記事はWikipediaのダウンロード可能なデータについてまとめたものです。 Wikipediaではクロール行為は禁止されています(ここを見る限りでは)が、代わりに全記事の情報を圧縮したファイルが公開されています。 日本のWikipedia情報ダウンロードページ http://download.wikimedia.org/jawiki/latest/ 本記事は2009年の10月下旬に取得した情報を元に書いています。時間が経つと結果が変わる可能性があるのでご注意ください。 事前情報 2009/10/25に確認した時点では、日本語Wikipediaのダウンロードページには55個のファイルが置いてありました(うち半分は更新を通知する為のRSS)。 ファイルの形式は「XML」、「MySQLのダンプ」、「テキスト」などがあります。 詳しいデータのインポート方法は、こちらのリンク集が参考になる
PyData Tokyo Meetup #5 on May 22nd, 2015 Meetup #5 詳細:http://pydatatokyo.connpass.com/event/14557/ Meetup #5 テーマ:自然言語処理 スピーカー:サイボウズ・ラボ株式会社 中谷 秀洋さん タイトル:言語処理するのに Python でいいの? スライド:http://www.slideshare.net/shuyo/nlp-implementation-python 概要:言語処理を実装するにはどのプログラミング言語を使えばいいか。PyData だからもちろん Python! と言ってほしいところでしょうが、本当に Python で大丈夫? 言語処理に関する実装をする観点で Python と C と Java を比較し、Python を選ぶとどんなときに嬉しいのか解説してみま
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く