2. ⾃自⼰己紹介 l 海野 裕也 (@unnonouno) l unno/no/uno l 研究開発部⾨門 リサーチャー l 専⾨門 l ⾃自然⾔言語処理理 l テキストマイニング l 職歴 l 2008/4~2011/3 ⽇日本アイ・ビー・エム(株)東京 基礎研究所 l 2011/4~ 現職 2 3. 今⽇日の発表の⽬目的 l 形態素解析器の中で何が⾏行行われているか l コスト最⼩小化, HMM, MEMM, CRF etc. , l JUMAN, Chasen, MeCab, etc. l ・・・だけだとよくあるので、最新の⼿手法と過 去の⼿手法をまとめる l 現在の問題点に関してもまとめる 3
その昔、アーネスト・ヘミングウェイという人が 「六つの単語で物語を作れるかどうか」 という賭けで見事に勝利しました。 ヘミングウェイはのちのち、この物語を自分の最高傑作だと言っていたそうです。 For sale: baby shoes, never worn 売ります:赤ちゃんの靴、未使用 ちょっとタイミングが悪ければ涙するかも知れない。 これ以上削れないし、これ以上付け足せば余計になる。 そして、そのセンテンスの裏側には、読む者一人ひとりが感じる大きな物語性が潜んでます。 たった6語だけど、短いからこそ、この物語は力強さを増します。 一方、日本には昔から俳句という文化があり、短い言葉の持つ威力というのは一般に広く浸透しています。 僕は自由律俳句の種田山頭火という人が好きで、この人の俳句をたまに読み返したりします。 分け入っても分け入っても青い山 という句を読めば、青い山という言葉に託され
ホットなうちにと思ってネットから拾ったネタで書いてみる。 「ファック文芸部 あたしオートマトン」&「あたし状態遷移図」 http://neo.g.hatena.ne.jp/debedebe/20081218/1229533743 http://neo.g.hatena.ne.jp/debedebe/20081218/1229533744 ケータイ小説「あたし彼女」を形態素解析したうえで遷移図にしてしまった超力作。文章の構造上、毎回改行してあるから一個づつ抽出するのは楽といえば楽だが、それでもここまでデカいとやっぱりビビる。 文章の形態素解析で思い出されるのが「MARK.V.SHANEY」というプログラム。英語の文章を読み込んで3単語の連なりにおける「2単語に続く3個目の単語」のリスト(マルコフ辞書)を作成してから最初の二単語を決め、以降の単語は確率的に選ぶことで一見すると「それっぽく見える
はてなグループの終了日を2020年1月31日(金)に決定しました 以下のエントリの通り、今年末を目処にはてなグループを終了予定である旨をお知らせしておりました。 2019年末を目処に、はてなグループの提供を終了する予定です - はてなグループ日記 このたび、正式に終了日を決定いたしましたので、以下の通りご確認ください。 終了日: 2020年1月31日(金) エクスポート希望申請期限:2020年1月31日(金) 終了日以降は、はてなグループの閲覧および投稿は行えません。日記のエクスポートが必要な方は以下の記事にしたがって手続きをしてください。 はてなグループに投稿された日記データのエクスポートについて - はてなグループ日記 ご利用のみなさまにはご迷惑をおかけいたしますが、どうぞよろしくお願いいたします。 2020-06-25 追記 はてなグループ日記のエクスポートデータは2020年2月28
チューリングの「計算可能数について──決定問題への応用」(1936年)において提示された[2]。同様なものを同年にエミール・ポスト (Emil Post) も独立に発表している[3]。構想の理由、動機についてはポストの論文が明確だが、機械自体に関する記述はチューリングの論文が詳細である。次いで、同時代に提示された他の計算モデルも計算可能性の理論からは同等であることが確認され、チューリング=チャーチのテーゼはそれらを「計算可能」の定義とすることを提唱した。 ここでは非形式的(直感的)に述べる。理論的には形式的に述べる必要がある。 チューリングマシンには、いわゆるハードウェアに相当するものとして、 その表面に記号を読み書きできるテープ。長さは無制限(必要になれば順番にいくらでも先にシークできる[注 1])とする テープに記号を読み書きするヘッド ヘッドによる読み書きと、テープの左右へのシークを
この項目では、計算のアルゴリズムについて説明しています。 ジャミロクワイの音楽アルバムについては「オートマトン (アルバム)」をご覧ください。 機械人形については「オートマタ」をご覧ください。 ゲームメディアのAUTOMATONについては「AUTOMATON」をご覧ください。 オートマトン理論 オートマトン (単数形: 英: automaton [ɔːˈtɑməˌtɑn], 複数形: オートマタ(automata [ɔːˈtɑmətə])) とは、自動人形などとも呼ばれる「オートマタ」と同じ語であるが、計算理論において、計算モデルに関して有限オートマトンなどの総称として使われる。また特に「オートマトン理論」と呼ばれる分野では、計算機械のうち計算可能性の点でチューリングマシンよりも制限されているものを特に指して言うこともある。 有限オートマトン 決定的有限オートマトン (Determinis
はてなグループの終了日を2020年1月31日(金)に決定しました 以下のエントリの通り、今年末を目処にはてなグループを終了予定である旨をお知らせしておりました。 2019年末を目処に、はてなグループの提供を終了する予定です - はてなグループ日記 このたび、正式に終了日を決定いたしましたので、以下の通りご確認ください。 終了日: 2020年1月31日(金) エクスポート希望申請期限:2020年1月31日(金) 終了日以降は、はてなグループの閲覧および投稿は行えません。日記のエクスポートが必要な方は以下の記事にしたがって手続きをしてください。 はてなグループに投稿された日記データのエクスポートについて - はてなグループ日記 ご利用のみなさまにはご迷惑をおかけいたしますが、どうぞよろしくお願いいたします。 2020-06-25 追記 はてなグループ日記のエクスポートデータは2020年2月28
講演 「インターネット時代のハイパー読書術 差がつく本の読み方、探し方」 スポンサード リンク 講演 「インターネット時代のハイパー読書術 差がつく本の読み方、探し方」 読書について大学図書館の依頼でお話をさせていただくことになりました。一般参加もOKだそうですので、平日ではありますが、ご興味のある方はぜひご参加ください。 以下ご案内です。 お申込みはこちら http://www.lib.metro-u.ac.jp/literacy/kouenkai2007.html 講師:橋本大也氏 人気書評ブログ 情報考学 Passion For The Future 運営 「インターネット時代のハイパー読書術 差がつく本の読み方、探し方」 12月12日(水) 16:30~18:00 ---------------------------------------------------------
« Flickrの写真を時系列で走馬灯のようにスライドショー x-TimeLine | Main | 卓上液晶タイやヒラメの舞踊り PRIVATE OCEAN » 書評:脳・こころ |書評: 企画・発想| 書評:文化・文明|書評:経済・経営 |書評:子 供・教育|書 評:小説・戯曲|書評:ネット活用 |書評: 仕事・管理|書 評:メディア論|書評:その他|書評:思想・哲学 |書評 :文章・表現|書評:認知・心理 |書評:神 話・宗教|書 評:科学・技術|書評:社会・世間 |書評:教養 ・雑学 2006年度 年間オススメ書籍ランキング ノンフィクション部門 2006年度 年間オススメ書籍ランキング フィクション編 2005年度 書籍売り上げラン キング ベスト20 2005年度 年間オススメ書籍 ランキング ベスト20冊 2004年度 人気記事ベスト10 アクセス数が多かった記事とは? 20
前回の記事がわりとつっこまれてたので色々反省して,本来書きたかった趣旨と,駄目なところをあげてみる。 書きたかったこと。 そもそも言いたかったことは以下につきる。 「ニコニコ動画のタグが使いにくいのは(精度でなく)再現率が極度に低いタグが多いから」 改めて考えると,この場合に「再現率」という語句を使うのも微妙かもなー,と思ったりもするんだけど*1,要するに,dankogaiの「精度」の語句に違和感を覚えたのをきっかけに,どうしてニコニコのタグが使いづらいのかを自分なりに適合率とか再現率とかで表現してみたくなっただけなんですな。 本当,言いたかったのはここだけ。それに余計なことを付け足したのが間違い。 駄目なところ で駄目だよなあと反省した箇所が以下。 なお,語句としては精度より適合率のが自分は好きです(dankogaiのがあったから先の記事では揃えただけ)。たぶんこっちの方が分かりやすいと
ニコニコ動画というか情報学系の話題なのでニコ部でなくこっちで。すでに時期を逸して今更感ただよう例の件について。 精度と再現率 情報検索の学術用語として「精度」と「再現率」というものがある。 「精度」の定義はだいたい以下。 精度 precision 情報検索システムにおいて,ある情報要求あるいは検索質問に応じて検索を行ったとき,検索された情報に含まれる適合情報の割合.どれだけノイズが少ない検索ができたかを示しており(中略)適合性に基づく評価尺度である.(後略) (図書館情報学用語辞典, p.121-122) ひらたくいえば,ある漠然とした何かを探したい要求(これを情報要求という)をもって特定の検索を行った場合に,検索結果中に要求に合致するデータ(これを適合情報という)がどれだけの割合出てきたか,を示すもの。ちなみに適合率ともいう。 式で書くと以下のようになる。 精度 = 検索結果中の適合情報
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く