サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
ノーベル賞
www.sist.ac.jp/~kanakubo
home 数学メモ f'(x)は、f(x)をxについて微分した事を示す。f(x)が合成関数である場合、f(x)の一部g(x)を=u等とおき、連鎖律を使って微分する。 以下はy=f(x)とした場合の連鎖律を示す。y=f(x)のとき、yをxについて微分する事をdy/dxと書く。f(x)の一部をu=g(x)と置けば、これをxについて微分するのはdu/dxとなる。 普通の分数の計算と同じ様に、分母と分子が相殺されてイコールになる様子が分かる。以下は具体例である。 もう一つ、具体例を示す。 f(x)÷g(x)の商の導関数の公式は、以下のように合成関数として導く事が出来る。二段目で積の導関数の公式を使っている。 合成関数の微分については、どのような状態の式が合成関数に当たるのかを考える必要が出て来る。 例えば、全体の式が或る式のn乗になっている(冪根の場合も含めて)場合等は該当する。 また、三角関数の
トップページ→研究分野と周辺→システムの評価→ 例えば二次元で考えると、x軸y軸平面に多数の点が散らばり、これが幾つかのグループに分かれているとする。判別分析では、新たな点が与えられたとき、どのグループに属するかを判別する。 判別分析には、幾つかの方法があり、「サポートベクターマシン(SVM)」のように区分する線を引く方法もある。 ここでは、マハラノビス距離を用いた判別分析について述べる。 マハラノビス距離 最も一般的に使われる距離はユークリッド距離である。一次元(例えばx軸上)では、x座標の差がそのまま距離となる。 例えば二つのグループがあるとき、新たな点が与えられてどちらのグループに属するかを判別する際、新たな点のx座標と双方のグループの中心とのユークリッド距離を測り、短い方に属すると考える事も出来る。 しかし、この方法では、以下のような場合に問題となる。 青い点と赤い点の二つのグルー
home 数学メモ 下記の列ベクトルxに対し、それを横に倒した形の行ベクトルをxの転置ベクトルと言い、右上にダッシュを付けるか、左上にtを付けるかで表す。 列ベクトルを転置した行ベクトルの転置は、元の列ベクトルになる。 ベクトルの成分の自乗和は、転置ベクトルとベクトルの内積となる。自乗和の計算で、よく転置が登場する。 また、以下のように転置ベクトルaとベクトルbの内積は、転置ベクトルbとベクトルaの内積に等しい(掛ける順番が逆になる)。 転置行列は、元の行列のi行j列の要素が、転置行列のj行i列の要素になったものである。例えば、以下。 何行何列でも、イメージとしてはまず上下の行を反転させ、右に90度回転させる。結局、n行目に並んだ要素がn列目に並ぶ事になる(色の同じ矢印が同じ要素の組を示す)。 転置行列は、以下の公式がよく使われる。AとBが行列、kは定数。(1)はi行j列の要素が、転置行列
home 数学メモ 1からnまでの正の整数の和は、+の記号だけだと、以下のように・・・を用いて書く事になる。 これを、Σ(シグマ)記号を使うと、簡潔に書く事が出来る。Σはこのように書く事で、kを1からnまで一つずつ大きくしながら、Σの横の式にkの具体値を代入して計算をし(ここではkに代入するだけ)、足していく事を表す。 kに1からnまでを代入した全ての和を求める記号なので、総和記号と呼ばれる。 総和計算の最も基本的な展開公式として、以下のようなものがある(後ろの方に1次と2次証明を掲載する)。 さらに、非常に重要な一般的公式として、以下の一段目の二つがある。ここで、a_k、b_kとあるのはf(x)、g(x)と同じような意味で、kを含む何らかの式a、bを示している。cはkの値とは関係ない定数である。二段目、三段目に其々の例を示す。 以下は計算例である。公式を使って分解するが、数字だけになった
トップページ→研究分野と周辺→ニューラルネットワーク→ 米国の物理学者、J.Hopfield(カリフォルニア工科大)が1982年に提唱したニューラルネットワークで、最適化問題に応用出来る事で有名になった。 相互結合型ネットワークで、i番目の細胞からj番目の細胞への結合係数wjiと、j番目の細胞からi番目の細胞への結合係数wijは常に等しい(対称性。或る細胞間の双方向の結合係数が等しい)。 また、自己結合(wii等、或る細胞の出力がその細胞への入力となる結合)係数は0という条件を持ち、これら2つは連想記憶モデル(アソシアトロン)と同じとなる。 連想記憶モデルと異なるのは、状態の更新が非同期である事と、ネットワークのエネルギーという概念を導入している点だ。 非同期型ネットワーク 連想記憶モデル(アソシアトロン)では、全ての細胞が同時一斉に、其々の他の細胞からの入力刺激の総和を計算し、状態更新し
home 数学メモ 微分して得られた導関数がさらに微分可能なとき、これを微分する事を二階微分といい、得られた関数を二次導関数と呼ぶ。 三次関数の導関数、二次導関数の例は以下のようになる。 二次導関数は、fの横にダッシュを二つ付けたり、d^2y/d^2xの形で表記される。 二次導関数と導関数の関係は、導関数と元の関数との関係と同じになる。二次導関数は、或るxに於ける値の正負は、導関数の増減を示す(正なら増え、負なら減る)。 例えば、元の関数でxが時間、f(x)が移動距離を示すとすると、導関数は「速度」、二次導関数は「加速度」を求める関数となる。 図形的には導関数は元の関数の接線だったが、二次導関数はその接線の傾きが増えているか減っているかを示す。 従って、二次導関数の或る範囲での正負の符号が同じであれば、上に凸、或いは下に凸の曲線であることなどが分かる。 二次導関数の正負を調べる事で、元の関
トップページ→研究分野と周辺→ニューラルネットワーク→ 自己組織化特徴マップ(SOM)は、ヘルシンキ大学のコホーネン教授により1981年頃に発表された。教師なし学習を行なうニューラルネットワークの代表例と言える。 様々な入力データを、それらの類似度に応じて自動的に分類するクラスタリング能力に優れる。 何種類かのデータを適当に繰返し入力し続けると、いつの間にか、似たようなデータを近くに配置していく。 入力層と出力(競合)層 基本的には図のような2層構造で、入力層の細胞は全ての出力層の細胞と、出力層の細胞は全ての入力層の細胞と結合し、結合係数W1_1、W1_2・・・W3_9を持つ。結合係数は最初はランダムに与えられる(ここでは仮に0~1の間の乱数とする)。 図では入力層が3、出力層が9の細胞数だが、其々いくつでもよい。出力層の細胞は多くしておく。 勝ちニューロン(細胞)の決定 或る入力データが
トップページ→プログラミング技術等→CANVAS要素(HTML5)(導入)→ CANVASでのイベント(クリック、キー操作等)処理を行うJavaScriptの例を挙げる。 「上記のHTMLをブラウザで開く」を閲覧する際は、Google Chrome等を使用してください(IE8以前では表示されない)。 クリックされた位置に画像を貼る この場合、画面コンテクストではなく、canvasに対するaddEventListenerプロパティで設定する。 このプロパティの引数の'click'は、クリック処理を示し、その次の引数にクリックで呼び出される関数名を記述する。次の引数にはtrueと書いておく。 クリックされた時のカーソルの位置は、呼び出される関数に渡されるeventのプロパティclientX、clientYで其々x座標、y座標が得られる。 但し、これはbody全体の左上端からの座標となる。htm
トップページ→プログラミング技術等→CANVAS要素(HTML5)(導入)→ CANVAS画面上に複数の画像を置き、別々に動かすJavaScriptの例を挙げる。 「上記のHTMLをブラウザで開く」を閲覧する際は、Google Chrome等を使用してください(IE8以前では表示されない)。 複数のオブジェクトを座標変換で別に動かす 画像の数の分だけ、其々のx座標、y座標を持つ変数(ここでは配列としている)を用意する。 其々描画した後に、座標を変える。座標の変え方が違えば当然、違う動きとなる。 上記のCANVAS要素を含むHTMLファイル 上記のHTMLをブラウザで開く 複数のオブジェクトをrotate回転で別に動かす rotate回転は、CANVASの画面全体を回転させるため、配置された複数の画像は一緒に回ってしまう。 これを別々にするには、save()で回転前の画面の状態を保存し、画面
トップページ→研究分野と周辺→ニューラルネットワーク→ 誤差逆伝播法(BP:バック・プロパゲーション)は1986年、米スタンフォード大学のラメルハート教授らが発表した多層階層型ニューラルネットワークの学習方法。入力層へ或る情報が与えられたら、出力層はそれに対応した或る情報を出力しなければならない場合の学習方法となる。 最初は入力層→中間層→出力層への結合係数はランダムに与えられるので、或る入力情報に対し、出力層はそれに対応した出力をするとは限らない。望ましい出力との誤差を教師信号として与える事により、次第に結合係数を変化させ、最終的に正しい出力が得られるようにする。ここでは、結合係数を変えて行く事を学習と呼ぶ。 この学習方法には、最急降下法(勾配法)という計算方法が使われる。 最急降下法(勾配法) 図の2次関数でyの極小値を与えるxが2である事は、計算で求められる。しかし、ここでは敢えて別
トップページ→研究分野と周辺→自然言語(日本語)処理→ 国文法の詳細は、国語学者によって見解の分かれる所もあるが、ここでは自然言語処理で一般的に用いられている日本語文法(中学校レベル)をまとめておく。 日本語の品詞分類 まず、品詞として以下の十種類を用いるのが、一般的である。単語データベースでは必須の情報となる。 自立語は単独でも句(単語のまとまり)を構成し得るが、付属語は自立語と結びつかないと句にはならない。 ここでは接続先や意味の違いによって語形変化(活用)を起こす語を「活用語」、語形変化を起こさない語を「不活語」と呼んでいる。 動詞、形容詞、形容動詞は、活用を起こすので用言と呼ばれる。形容詞と形容動詞は活用の在り方が違うが、機能は似ている。コンピュータ処理では、形容詞をイ形容詞、形容動詞をナ形容詞と呼ぶ(形容動詞、という言葉は使わない)事も多い。 名詞は主語(主体)に成り得るもので、
トップページ→研究分野と周辺→記号論理→ 命題論理、述語論理を古典論理と呼び、それを拡張或いは代替する新たな論理を非古典論理と呼んで区別する事がある。 拡張系は、古典論理の定理を全て認めるが、代替系はその一部を認めない論理となる。非古典論理は、最も代表的なものだけでも、以下のように様々な種類がある。 なお、pが真のもとでp→qが真にある確率がP(q|p)の条件付確率である事を利用して、原因の推定等に応用されるベイジアンネットワークも、多値論理と共通する面を持っている。 様相論理 拡張系の非古典論理の代表格。古典論理では「解釈」で原子命題の真偽を決定した。しかし、現実の複雑な命題は、様々な状況によって、真偽が変わる事が多い。 例えば、「ラーメンは美味い」「カラオケは楽しい」という命題は、解釈する人によって真偽が変わるかもしれない。 或いは、「○○さんは空腹だ」という命題は、時間によって真偽が
トップページ→研究分野と周辺→進化型計算→ 遺伝的アルゴリズム(Genetic Algorithms:GA)は、生物界の進化の仕組みを模倣する解探索手法として、1975年にミシガン大学のJohn Hollandが提案した。解の探索を原則「偶然の変化」と「たまたま良く出来たものの採用」で行なうため、当初は「こんな偶然に頼る出鱈目な方法がアルゴリズム(計算手順)と言えるのか?」と厳しい批判にさらされたと言われる。 しかし、Holland一派の考えは間違っていなかった。1990年代に入るとGAは人工知能の主要分野に躍り出て、世界中で研究が行なわれるようになった。背景にはコンピュータの計算速度の飛躍的向上がある。生物の進化と同様、GAの進化には非常に多くの繰返しが必要な事を、批判していた人達は気付かなかったのである。 遺伝的アルゴリズムのソース・コード(プログラム)の一例 単純GAの処理の流れ 最
トップページ→研究分野と周辺→ 命題と推論を形式的に扱う方法は形式論理(記号論理)と呼ばれ、その最も基本的な論理が概略を以下に紹介する命題論理となる。 命題は、複合命題という形で複雑にしていく事が出来る。また、或る命題から推論によって、別の命題を導く事が出来る。 命題論理を拡張した述語論理の他、様相論理に代表される非古典論理等の様々な形式論理もある。また、帰納や類推のような、確実性の保証されていない推論もある。 述語論理 非古典論理 不確実な推論 命題(proposition)と論理式 真偽を決定出来る記号列(通常は文や数式等)を、「命題」と呼ぶ。「今日は7月29日だ」は真偽を決定出来る命題だが、「今日は何の日でしたっけ?」は何の命題でもない。 一つの命題(例えば「今日は火曜日だ」等)を、一つの記号p等で表し、これを命題記号という。 命題記号は其々、真(正しい、True)か偽(間違っている
トップページ→プログラミング技術等→ N進数の構造 現在の一般的なコンピュータのCPU(中央演算装置)やメモリ(記憶装置)は、0と1の二つの文字しか、直接扱う事は出来ない。これは、簡単に言えば電気の点灯(オン=1)、消滅(オフ=0)を情報の最小単位(1ビット)としているからで、コンピュータ内部では数字、文字、色、図形、音、プログラム等の全ての情報を、0と1を並べた数字で表現している。例えば、仮に「01101101」で或る情報Xを表現している。 2で桁上がりする数字を2進数といい、0と1しか出て来ない。人間は10進数に慣れているが、コンピュータの世界では2進数が基本となる。10進数では数字は0~9までしかなく、9より一つ増えたら桁上がり(桁数が一つ増える)して10となる。2進数では0と1しかないので、1より一つ増えたら桁上がりして、10となる。これは10進数の2と同じ数字を表現している。2進
home 数学メモ (1)のような行列を回転行列という。これは、二次元平面上の点(x、y)をθ度回転させた後の座標((2)の右辺)を求める。 回転する画像をCGで描く際等には必ず使われる、極めて重要な行列と言える。 何故、このような行列になるのかは、三角関数の加法定理から証明出来る。 図のP1点をP2点に移動する事を考える。回転角はβとなる(分かり易い第一象限で考えているが、二~四象限に動かす場合でも以下の計算は同じ)。 P1の(x、y)座標は、(rcosα、rsinα)、P2の座標は(rcos(α+β)、rsin(α+β))となる。 P2の座標は、加法定理から以下のように展開される。 P1の座標を(x、y)とすると、x=rcosα、y=rsinαなので、これを(3.1)(3.2)に代入すると以下のようになる。 (4.1)(4.2)の計算は、(5)の行列計算に他ならない。ここでは回転角θを
home 数学メモ 行列は、数等を縦横に並べた表のようなもので、横の並びを行、縦の並びを列という。行数、列数は様々だ。 行列の和と差は、対応する位置の数の加減となる。従って、行数と列数の一致する行列同士でないと足し算、引き算は出来ない。 行列全体に一つの数を掛ける事が出来る。各成分に平等に掛けられる。これを行列のスカラー倍という。 行列の積は、以下のような計算が基本となる。左側は行(横の並び)、右側は列(縦の並び)の組の同じ順番の数同士を掛けたものを足す。 このような演算をするので、左側の行(横の並び)の要素数(列の数)と、右側の列(縦の並び)の要素数(行の数)が等しくなければ、行列の掛け算は行えない。 逆に言えば、ここが一致すれば、縦横の数の違う行列同士でも積は作れる。 行列の積の結果は、縦に左の行数、横に右の列数の要素が用意される。そして、例えば左の2行目と右の3列目の積は、結果の2行
トップページ→研究分野と周辺→システムの評価→相関係数→ 標本調査で相関係数を求めても、その値は母集団の相関係数とは違う場合が多い。 サンプル数が少ないと、たまたま高い相関係数が得られても、母集団では無相関である事もあり得る。 しかし、標本の相関係数から母相関係数を検定したり、推定したり出来る。 無相関の検定 これは、「母相関係数が0(無相関)である」との仮定(帰無仮説)を立て、標本相関係数の値から、帰無仮説の成立する確率が低い(5%或いは1%以下等)か否かを調べる。 低ければ、帰無仮説は棄却され、「母相関係数は0(無相関)ではない」という対立仮説を採択する。 母相関係数(pとする)が0の場合は、標本相関係数(r)から求めた以下の値(t)は、自由度n-2のt分布に従う事が分かっている(nは標本数)。 t分布表で、設定した危険率(5%)と自由度の該当する値を見て、上記のt値の絶対値がそれより
トップページ→研究分野と周辺→知識表現→ 或る一つの概念と別の一つの概念の関係を或る一つの関係で定義するのは、知識表現の最も基本的な形の一つで、意味ネットワークの単位となる。 矢印の元となる概念を主語(その範囲は定義域)、関係に当たる矢印を述語、矢印の先にある概念を目的語(その範囲を値域)という事もある(フレーム構造では其々名称、属性、属性値に対応する)。 実際の脳では、関係に当たるものは、もう一つの細胞(群?)が扱っていて、或る概念と関係が発火したときに、別の概念が発火するようになっているのかも知れない。 なお、概念や関係の設定は絶対的なものが決まっている訳ではなく、設計者の考えによって、様々な種類が存在する。 体系(上位概念・下位概念:is-a) 上位概念(super-concept)と下位概念(sub-concept)の体系は、概念関係のバックボーンとしてよく用いられる。しかし、何を
トップページ→研究分野と周辺→進化型計算→遺伝的アルゴリズム→ 遺伝的アルゴリズム(GA)の選択法として、ルーレット選択(適応度比例方式)、エリート保存方式を紹介した。 また、交叉法として一点交叉、順序交叉(重複排除)法も既に取り上げた。 これ以外にも様々な選択・交叉法があり、突然変異にも多様な方法がある。交叉・突然変異は、解を構成する数字の重複を排除するために考えられたものも多い。 期待値選択方式(選択法) ルーレット選択では、適応度に比例する確率で次世代の個体が選ばれるが、あくまで確率なので、適応度の低い個体が多数選ばれる事も起こり得る。 個体数が少ない場合、偶然による影響は大きくなる。 期待値選択方式は、下図のように、偶然の要素はなく、単純に適合度に比例する数だけ、次世代の個体数を決める。 ここで、或る世代(t)に於けるi番目の個体の適応度をFiとし、一世代の適応度の総和をFsとする
トップページ→研究分野と周辺→記号論理→不確実な推論→ 決定木は木構造をした決定を行うためのグラフで、与えられたデータから適切な決定木を作成する事を、決定木の学習と呼ぶ。 決定木の学習方法には様々な種類があるが、最も単純な方法の一つであるID3アルゴリズムを紹介する。 簡単な決定木の具体例 「天気」「気温」等の天候を示す属性の値の組によって、或る事を「する」「しない」を決定する例がよく説明に使われる。 図は、「天気」「風速」「湿度」の属性値の組によって、花見に「行った」(Yes)、「行かなかった」(No)の事例データが5つあるとした場合になる。 5つのデータに基づき、まず「天気」の質問をして、「晴れ」なら「風速」の質問をするという具合に枝分かれしていく。答えが全部Yes、又は全部Noになれば、そこで打ち切る。 この例では「天気」を最初の質問にしているが、「風速」を持って来てもよい。様々な質
数学に関する簡単なメモ。
トップページ→研究分野と周辺→ システムを開発した場合(卒業研究の作品も含む)は、その有用性を客観的・定量的に評価実験する必要がある。様々な実験結果のデータは、統計処理を行なう必要もある。また、人間にしか出来ない評価の場合、主観が入る得るため、アンケート調査等は或る程度の人数の被験者に行う必要もある。 調査票の作成 アンケート用紙は、調査票と呼ばれる。回答方法には、数字や文章等を自由に記述させる自由回答と選択肢を選ばせる選択回答、選択肢に順位付けさせる順位回答等がある。選択回答には、一つだけ選ばせる単一回答と複数選択を認める複数回答がある。順位回答には、全ての選択肢を順位付けさせる完全順位付け順位回答と、上位いくつ迄を決めて順位付けさせる部分順位付け順位回答がある。 選択肢には、例えば血液型を並べる等の順位のないもの(名義尺度による選択肢)と、満足の度合い等の順位のあるもの(間隔尺度による
トップページ→研究分野と周辺→システムの評価→ 分散は、各データの偏差の自乗の総和をデータの個数で割ったものだが、標本分散は(個数-1)で割った不偏分散が用いられる。 何故、データの個数がnである場合に、n-1で割るのだろうか。 期待値 高校までに習ったように、期待値は確率と確率変数を掛けたものの総和である。 例えばサイコロの場合、各目の出る確率は其々1/6で、確率変数は各目の数(1~6)だから、期待値は1×1/6+2×1/6+3×1/6+4×1/6+5×1/6+6×1/6=3.5となる。 サイコロを3回降って、出た目が1,3,5だったとする。これはサイコロを多数振って出た目を集めた「母集団」から、3つの標本を取ったと考える事も出来る。 この3回の平均値は(1+3+5)/3=3となって、期待値とは異なる。三回とも1が出たら平均も1で、期待値(3.5)とはかなり違う。 では、サイコロを無限回
トップページ→研究分野と周辺→システムの評価→ 基本統計量 平均(算術平均)値は、(データ値の総和)÷(データ数)となる。(或るデータの値)-(平均値)を、そのデータの偏差という。偏差の絶対値の大きいデータが多ければ、そのデータ群はばらつきが大きい。データ群のばらつきの大きさを単純に偏差の総和とすると、偏差には正負があるので相殺されてしまう。 そこで、各データの偏差を二乗する(こうすれば必ず正の値になる)。(各データの偏差の二乗の総和)÷(データ数)をそのデータ群の分散と呼び、ばらつきの大きさを表す。また、分散の平方根を標準偏差という。英語では偏差はDeviation、分散はVariance、標準偏差はStandard Deviationとなるので、標準偏差はS.D.と略記される事も多い。 統計の最も基本的な量である基本統計量としては、他に最大値、最小値、範囲(最大値-最小値)、中央値(デ
トップページ→研究分野と周辺→ 群知能(swarm intelligence)は、例えば鳥や昆虫の群れに見られるように、個体間の局所的な簡単なやり取りを通じて、集団として高度な動きを見せる現象(創発、等と呼ばれる)を模倣した計算手法として近年、研究が盛んになっている。 全体を統御する指導者は無く、平等な立場の個体の相互作用が全体を決めるボトムアップな方法となる。 進化型計算のうち、遺伝的アルゴリズムは交叉という個体間の相互作用があるので、群知能の一種と言える。 群知能は進化型計算を行なうものも多いが、鳥の運動のシミュレーション等は、進化型計算ではない。 両者は共に人工生命の一種として、共通部分を持つ関係と言える。 蟻コロニー最適化(ACO) 蟻(アリ)の群れは、各個体が以下のたった2つを行なう事で、エサのある場所から巣までの最短経路を群れ全体として見つけ出すという。 ・自分が通るときに「フ
トップページ→研究分野と周辺→記号論理→非古典論理→ 高い、重い、暑い、等の形容詞で代表される概念は、例えば感覚と結びついた性質で、特定の数値とだけ結びつくわけではない。 ファジイ推論は、性質と具体的な量(数値)を結びつける推論を可能とする。 ファジイ推論に基づく機械制御は、洗濯機等の家電や地下鉄に応用される等、幅広く使われている。 メンバーシップ関数と推論のルールをいくつか設定すれば、様々な入力データに対して適切な出力値が得られる。 性質に基づくルール 例えば、「外気温が28度であれば、室温は2度下げて26度にする」といったルールは、100%正しいとは言い難い。 暑さに対する感覚は人により違うので、28度くらいで冷房を入れる必要はないと考える人もいれば、もっと下げたいと思う人もいるだろう。 これを「暑ければ室内の気温を下げる(冷房を入れる)」等と、性質だけでルールを記述し直すと、逆に正確
トップページ→研究分野と周辺→ 強化学習(Reinforcement Learning)の基本的な枠組みは、図のようになる。エージェント(行動主体)は環境の状況に基づき或る行動を選択し、行動に基づき環境が変化する。環境の変化に伴って、何らかの報酬がエージェントに与えられ、エージェントはより良い行動の選択(意志決定)を学習していく。 教師あり学習が、完全な正解を示すのに対し、強化学習の報酬は、環境の一部の変化に基づく断片的な値でしかない場合が多い。 例えばサッカーの或る場面で、ボールを或る方向へ蹴ったら、味方にパスが渡ったか否か、といった評価が報酬となる。 脳内の快楽物質ドーパミンの放出(報酬)が、動物の行動選択に大きな影響を与える事はまさに強化学習の仕組みで、実際の脳との関連も盛んに研究されている。 強化学習は環境に関する完全な理解が無くても設計出来るため、実際の問題への応用範囲は広いと言
トップページ→研究分野と周辺→自然言語(日本語)処理→ 形態素解析ツールに入力される文は、端末のボタン操作からは「ひらがなだけの文」の場合もあるし、かな漢字変換を経た後の漢字やカタカナ等が混ざった文の場合もある。 当然、「ひらがなだけの文」の方が、様々な意味に解釈出来るので、形態素解析は難しくなる。 単語の切り出し 例えば、「すもももももももものうち」というよく知られた例で考えると、以下のような具合になる。 形態素解析はまず、最初の文字から順に、「そこから始まる単語」を探っていく。システムには名詞や動詞、助詞等とその読みを収めた日本語の単語帳がある。 最初の一文字で単語になるか調べる。「す」は「巣」「酢」等が単語帳にあるので、これらが候補となる。 これで次の文字に行くのではない。まだ最初を見て、最初の二文字で単語になるか考える。「すも」で一語になる単語が単語帳に無ければ、これは無視する。
次のページ
このページを最初にブックマークしてみませんか?
『静岡理工科大学情報学部知能インタラクション(金久保)研究室のHP』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く