タグ

linguisticsに関するsstのブックマーク (65)

  • Google Japan Blog: 大規模日本語 n-gram データの公開

    メディア関係者向けお問い合わせ先 メールでのお問い合わせ: pr-jp@google.com メディア関係者以外からのお問い合わせにはお答えいたしかねます。 その他すべてのお問い合わせにつきましては、ヘルプセンターをご覧ください。

    Google Japan Blog: 大規模日本語 n-gram データの公開
    sst
    sst 2007/11/02
    Web から抽出した約200億文(約2550億単語)の日本語データから作成したn-gramデータ(1~7 gram)を公開致しました
  • ヌーラボラボ » スペルチェッカーWebAPI

    ヌーラボスペルチェッカーAPIを公開しました。 入力フォームに簡単にスペルチェック機能を付けることができます。長文を入力・取り扱うWebアプリケーションに組み込むことで、より人為的ミスを軽減することが可能です。 文字を入力して、スペルチェックボタンを押してください リファレンス スペルチェックAPIのリクエストとレスポンス spellcheck.js APIリファレンス APIダウンロード spellcheck.js JavaScriptでスペルチェッカーAPIを利用する ヌーラボスペルチェッカーAPIは、文字どおりスペルチェックをするためのAPIです。取得形式として「JSON」形式のほかに「JSONP」形式をサポートしています。 特にJSONP形式でのデータの取得を行えば、HTMLJavaScriptのみでスペルチェック機能が手軽に作成できます。 JSONPでスペルチェック JSONは

  • http://labs.keywalker.jp/search/

    sst
    sst 2007/10/19
    自然文意味解析技術により入力された言葉とWEB上の情報(言葉)を関連付け、ユーザーの検索意図を理解、その「答え」となる情報を整理し表示するという全く新しいタイプの検索エンジンです。
  • テキストの類似度を測る- livedoor キーワード

    1車椅子ユーザー様「伊是名夏子さんが叩かれて唖然、無人駅を無...オレ的ゲーム速報@... 2車椅子ユーザーが苦言 「伊是名夏子さんが叩かれて唖然。無人...痛いニュース(ノ∀`... 3【悲報】小泉進次郎さんの野望、ワールドクラスだった……!!...NEWSまとめもりー|... 4【悲報】令和納豆、閉店へ不思議.net 5【こまち闘病記1】ある日こまちに異変が起きたまめきちまめこニー... 6マッチングアプリのプロ「男性は面倒でもがんばって彼女に連絡...はちま起稿 7メンヘラ女とデキ婚して10年経ったハムスター速報 8おまえらの墓場まで持って行く秘密哲学ニュースnwk 9大山悠輔(神).280317打点OPS.801なんじぇいスタジア... 102年間毎日4のエナジードリンクを飲み続けた英学生のヤバすぎ...【2ch】ニュー速ク... 11【愕然】ワイの勤めてる会社やばい・・・・・

    テキストの類似度を測る- livedoor キーワード
  • 季語一覧

    季語一覧です

  • 専門用語(キーワード)自動抽出サービス 「言選Web」

    このページでは文章中から専門用語(キーワード)を切り出すことができます。文章中から厳選された言葉を選んでくれますからその名の通りゲンセンWebなのです! このシステムは専門用語自動抽出用Perlモジュール"TermExtract"の機能を、Web上で提供するものです。ただしスタンドアロン版と比べて利用できる機能に制限があります。 次のいずれかで専門用語(キーワード)を切り出すデータを指定します。 Web上のhtml化された文章もしくはPDFをURLで指定 文章を直接入力するか貼り付ける Windows上のテキストファイル、もしくはPDFを指定 入力ボックス下のチェックボックスから和文、英文を選択。 専門用語(キーワード)抽出ボタンをクリック しばらくすると専門用語(キーワード)が重要度の高い順に表示される。 ●URL指定は右の欄へ ●文章を入力もしくは貼り付けてる場合は下の欄へ ●お使いの

    sst
    sst 2007/10/01
    このページでは文章中から専門用語(キーワード)を切り出すことができます。文章中から厳選された言葉を選んでくれますからその名の通りゲンセンWebなのです/ことえり
  • そういえばこれも知らない人がいるんだよな - finalventの日記

    これ⇒これからの敬語(昭和27) これがけっこう面白い。 基の方針 1 これまでの敬語は,旧時代に発達したままで,必要以上に煩雑な点があった。これからの敬語は,その行きすぎをいましめ,誤用を正し,できるだけ平明・簡素にありたいものである。 2 これまでの敬語は,主として上下関係に立って発達してきたが,これからの敬語は,各人の基的人格を尊重する相互尊敬の上に立たなければならない。 3 女性のことばでは,必要以上に敬語または美称が多く使われている(たとえば「お」のつけすぎなど)。この点,女性の反省・自覚によって,しだいに純化されることが望ましい。 4 奉仕の精神を取り違えて,不当に高い尊敬語や,不当に低い謙そん語を使うことが特に商業方面などに多かった。そういうことによって,しらずしらず自他の人格的尊厳を見うしなうことがあるのは,はなはだいましむべきことである。この点において国民一般の自覚が

    そういえばこれも知らない人がいるんだよな - finalventの日記
    sst
    sst 2007/09/18
    これからの敬語(昭和27)/敬語によって「しらずしらず自他の人格的尊厳を見うしなうことがあるのは,はなはだいましむべきことである」
  • panimages.org

    This domain may be for sale!

    sst
    sst 2007/09/13
    PanImagesでは世界300以上の言語をカバーしており、ユーザーは自分の使用言語で検索クエリーに入力できる
  • ”専門用語(キーワード)自動抽出システム”のページ

    とりあえず使ってみる方はこちらから! 「言選Web」 "Gensen-Web" (Western Europe language) 「言選Web」(中文版) メインメニュー 1.専門用語(キーワード)自動抽出システムとは? 2.基システム New! 3.応用システム New! 4.関連文献 5.利用統計 2022.12.14 専門用語抽出Node.jsライブラリ termextract-nodejs のβバージョン(0.01b)をリリースしました。 2022.3.9 Python版TermExtractについて、Windows環境に合わせインストール手順を修正しました。python setup.py installからpip install .に変更します。ドキュメントの修正に合わせバージョンを0.02にアップしました。 2023.10.23 "言選Web" 静的サイト(JavaScri

  • extbody -- Blog&News本文領域抽出ツール

    ダウンロード等 extbody-0.1.1.tar.gz(右クリックで保存) ライセンスは、Apacheライセンスv2.0なので自己責任でご利用ください。 (上記ファイルはMercurialリポジトリのcloneにもなっています。) 動作に必要な環境 Python2.5 feedparser chardet また、内部でppkfを使用しております。(extbodyに内蔵しております。) インストール feedparserと、chardetをインストールしておきます。 以上が準備できれば、extbodyも以下のコマンドでインストールできます。 % python setup.py install 使用法 ayu@~% python Python 2.5.1 (r251:54863, Jun 17 2007, 08:50:55) [GCC 4.0.1 (Apple Computer,

    sst
    sst 2007/07/31
    Blogのページや、ニュース記事のページから、本文を含む領域のHTMLを抽出します。いくつもの経験則を組み合わせた抽出方法によって、80%程度の正解率で抽出できます。
  • Web単語共起

    Yahoo!ウェブ検索APIで検索結果100件を取ってきて、日語の場合は形態素解析をかけて、 単語の出現頻度をカウントして表示します。 Unigram は1語単位でのカウント、Bigram は連続2語単位でのカウント、 Trigram は連続3語単位でのカウントです。 関連記事:Webでの単語共起を調べるサイトを作った(たつをの ChangeLog

    sst
    sst 2007/07/30
    YahooSERPsを形態素解析したやつの出現頻度
  • 類語.jp 言語工学研究所類語辞書検索サイト

  • 検索エンジンの意味解析能力を考える | Moz - SEOとインバウンドマーケティングの実践情報

    ロボットと怖そうな機械グモだけど、よく頑張っていると思わない? それで知りたいのは、SEOやコンテンツの立案やウェブサイトの構築といった作業に、これがどのように関係してくるかということだよね? ここまでのことを踏まえて、いかに最適化すればいいのか僕なりに仮説を立てたので、それを挙げていこう。 サイトの構成は意味的に整理されたものに 検索エンジンが、どの語とどの語が互いに関連するというデータを活用しているのだから、サイト内のコンテンツの見取り図を作る際は、できる限り論理的に分類しておいて損はない。普通は、常識にしたがってやればうまくいくのだけど、いざというときはいつだって3つ目の図にある共起計算を利用できる。たとえば、このチキンストックのレシピは果たして「フランス料理」なのか「アメリカの伝統料理」なのか、なんてときには、すかさず共起計算をやってみよう。 関連する語/フレーズを使ったコンテンツ

    検索エンジンの意味解析能力を考える | Moz - SEOとインバウンドマーケティングの実践情報
  • データの見える化をカンタンに実現するIBM Many Eyes

    Visualizationは、通常では見えなかったデータの関連性や意味をまさに見えるようにしてくれるものだが、そのためには、これまでは専用ソフト等を使わないといけなかった。 IBMが提供をはじめたMany Eyesというサイトでは、データを投げると、可視化してサイトに表示してくれるウエブサービスだ。すでにいくつかもデータがあがっており、このデータを元に、世界地図にマッピングしたり、円グラフにしたり、することができる。 (IBM Many Eyesのトップページ) もちろん、一からデータを自分で用意して、ヴィジュアライズさせることもできる。 そこで、名スピーチとしてB3 Annexでも取り上げた、Steve Jobsのスタンフォード大学卒業式でのスピーチのトランスクリプトをデータとしてアップロードし、可視化タイプとして、TagCloudを選んで、スピーチの見える化を行った。 それで生成された

    データの見える化をカンタンに実現するIBM Many Eyes
  • [infony] - キーワードを抽出して意味をしらべます

    infonyはWebページで使用されている言葉の意味をワンクリックで調べる無料のWebサービスです【レビュー】infony登場 (1) infonyとは | エンタープライズ | マイコミジャーナル 2007-07-14処理を高速化しました2007-07-14Yahoo!形態素解析APIを導入しました2007-06-04キーワード調査結果をリスト表示するようにしました2007-04-06マイコミジャーナルで紹介していただきました2007-04-05infony公開しました 最近のキーワード調査対象Webページ[As] - (MeCab)【文のみ】『Reviews from Epinions』に含まれるキーワードと意味[head][FRP][Structure] - (MeCab)【文のみ】『International Play Company - Softplay, Indoor Pl

    sst
    sst 2007/04/08
    Webページで使用されているキーワードを抽出してWikipedia、はてなで調査
  • Visuwords™ online graphical dictionary

  • ビジネスに使える!知らないと損する英文法参考リンク集 | p o p * p o p

    いきなりですが英語の質問です。 英語においてアポストロフィー(’)を付けるケースは3パターンしかありません。それらはどのような時でしょうか? Godとgodの違いがわかるでしょうか? 「コロン(:)」を手紙の中で利用する場合、どんな手紙のどの場所に使うでしょうか? いかがでしょう。全部わかったという人は問題ありませんが、答えに詰まった、という人は下記のサイトを参考にされてはいかがでしょう(答えは末尾に)。 ここでは英語の文法に関するTipsを紹介しています。 » 40 Tips to Improve your Grammar and Punctuation – by Dumb Little Man Purdue大学が提供しているOnline Writing Labのもの。英語ネイティブの人たち向けに作られたものです。 簡単にまとまっていて非常に参考になりますよ。下記がその一覧になります。

    ビジネスに使える!知らないと損する英文法参考リンク集 | p o p * p o p
  • 音訳の部屋―読み方辞典

    視覚障害者のために録音図書を製作することを音訳(おんやく)と言います。 「音訳の部屋ー読み方辞典」は音訳者・点訳者、読みを必要としている方のために制作した多くの読み方辞典です。漢字の読み方調査、記号・単位・略語の読み方調べ等にお使い下さい。 「音訳の部屋」は個人サイトです。(音訳の部屋・制作 静岡市葵区 平松陽子) (お願い事項)

    sst
    sst 2006/12/23
    いろいろなものの読み方
  • 感性を反映したフォント自動作成システム

    感性を反映したフォント自動生成システム お名前を入力してください。 この名前は一覧ページで公開されます。 前回と同じ名前を入力すると同じ状態でシステムを使うことができます。 このシステムについて このシステムは日語のフォントを自動的に生成する研究の一環として作成されました。 フォントの曲線を直接編集するのは大変で、しかも日語だと6千文字以上の種類があります。 このシステムではフォントの印象を表す感性語を選択するだけで手軽に作成できるようにしています。 ユーザは入力した感性語にもっとも近いフォントを選択することで、 システムに自分の感性を学習させることができます。 学習が行われていないデフォルトの感性は、他の全てのユーザの感性の平均となっています。 また学習が行われた後は、自分のデータに加え、感性が似ているユーザの情報を優先して用いています。 どちらもユーザの選択した

    sst
    sst 2006/12/14
    ユーザは入力した感性語にもっとも近いフォントを選択することでシステムに自分の感性を学習させることができます
  • 自由回答データを定量的な切り口で分析するには? ― @IT情報マネジメント

    Webなどを通じて、顧客や利用者の意見を集めることが簡単にできるようになってきた。しかし、非定型の自由回答データは非常に有意義な意見を得ることができる反面、分析するのに手間が掛かる。手軽に定量分析する方法はないだろうか? Webや電子メール、ケータイの普及で、幅広くさまざまな意見を募ることが安上がりにできるようになってきました。最近ではブログやSNSなどのCGMと呼ばれる口コミ系メディアも花盛りです。 Webアンケートも広く行われていますが、アンケートの回答は「出題側の仮説に影響される」という制約があり、“意外な発見”にはなかなか結び付きません。 一方、メールなどで寄せられる自由回答や意見・要望はそうした制約もなく、何かビジネスのヒントがありそうですが定量的な分析ができないという弱みがあります。せいぜい分析者が文章を読んで主観的に解釈するぐらいにしか活用していないのではないでしょうか? あ

    sst
    sst 2006/12/05
    アンケートなどの自由回答について、、品詞・コンコーダンス・特定属性の回答を抽出、などができる