タグ

googleとNLPに関するhtktyoのブックマーク (2)

  • Google IMEという可能性 - nokunoの日記

    先日リリースしたSocial IMEの新しい予測変換エンジンについて書いてみたいと思います。 新変換エンジンは、Googleが提供しているデータを使って開発されました。このデータ形式はNグラムと呼ばれていて、例えば3グラムなら、次のように3つの単語と、それがWeb上に連続して現れた回数(頻度)が記録されています。 単語1単語2単語3頻度今日の天気357935ソフトウェア開発を37191GoogleのNグラムは、抽出元のWeb上の文章が200億文で、解凍後のサイズが100GB以上という大規模な統計データです。最大で7グラム、つまり単語7つの組み合わせで、頻度が20以上のものを全て記録しているので、このように大規模になります。 かな漢字変換における同音異義語の選択、予測変換における入力予測などは、変換結果を一意に決めることができないという点で質的に問題を抱えています。このような曖昧性の問題に

  • 検索エンジンの意味解析能力を考える | Moz - SEOとインバウンドマーケティングの実践情報

    ロボットと怖そうな機械グモだけど、よく頑張っていると思わない? それで知りたいのは、SEOやコンテンツの立案やウェブサイトの構築といった作業に、これがどのように関係してくるかということだよね? ここまでのことを踏まえて、いかに最適化すればいいのか僕なりに仮説を立てたので、それを挙げていこう。 サイトの構成は意味的に整理されたものに 検索エンジンが、どの語とどの語が互いに関連するというデータを活用しているのだから、サイト内のコンテンツの見取り図を作る際は、できる限り論理的に分類しておいて損はない。普通は、常識にしたがってやればうまくいくのだけど、いざというときはいつだって3つ目の図にある共起計算を利用できる。たとえば、このチキンストックのレシピは果たして「フランス料理」なのか「アメリカの伝統料理」なのか、なんてときには、すかさず共起計算をやってみよう。 関連する語/フレーズを使ったコンテンツ

    検索エンジンの意味解析能力を考える | Moz - SEOとインバウンドマーケティングの実践情報
  • 1