タグ

sigewoのブックマーク (641)

  • 漢字と読み方があれば、対応できるアルゴリズムがありますか? - たとえば、東京工業大学[とうきょうこうぎょうだいがく]こうなります:東... - Yahoo!知恵袋

    自然言語処理の研究をしているものです。 基的には、ご指摘のWikipediaのページ書かれているchasenかmecabを使用するのが一般的です。 商用を含め、多くの応用・研究場面で、単語に分割する目的で使用されているはずです。 自作するのは大変なので、単に単語に分割をしたいのであれば、chasenかmecab、JavaであればSen(mecabのJavaへの移植バージョン)を使用するのがよいと思われます。 http://www.mlab.im.dendai.ac.jp/~yamada/ir/MorphologicalAnalyzer/Sen.html Webサービスで利用したいのであれば、Yahooが去年、形態素解析エンジンをWeb APIとして公開していますので、それを利用するのがよいかと思います。 http://www.itmedia.co.jp/news/articles/070

    漢字と読み方があれば、対応できるアルゴリズムがありますか? - たとえば、東京工業大学[とうきょうこうぎょうだいがく]こうなります:東... - Yahoo!知恵袋
  • Taku Kudo

    Profile 名前 工藤 拓 (くどう たく) 職業 研究者 写真 お台場にて  ルスツにて 暇つぶし ウクレレ, スノーボード, ジャグリング, ダーツ Research Topics 統計的自然言語処理 形態素解析 テキストチャンキング 統計的統語解析 統計的係り受け解析 機械学習 Support Vector Machines Boosting Maximal Margine Classifiers データマイニング 半構造化データの高速マイニング テキストマイニング 評判分析 Software MeCab (次世代 形態素解析 エンジン) CaboCha (係り受け解析器) CRF++ (汎用 Tagger,Chunker based on CRF) YamCha (汎用 Tagger,Chunker based on SVM) TinySVM (SVM 学習パッケージ) Tin

  • ヴァーチャル絵画館 西洋美術史=時代と様式解説 主題解説=ギリシャ神話・聖書の物語・文学・象徴

    フィレンツェでの商業の発達は、読み書き算術の学問を広げていった。そしてエリートたちが生まれ学問・芸術は頂点へと向かう。リナシタ(再生)の時代。フィレンツェは新しいアテナイであったが、キリスト教徒でもあった。古代ギリシャ・ローマの古典とキリスト教を融和させていきながら、再生ではなく、近代人を生んでいった。

    sigewo
    sigewo 2008/11/09
  • 形態素解析エンジン言語郎 - とは?

    自然言語で書かれた文を、形態素(言語で意味を持つ最小単位)に分割する技術です。この際、辞書 (「品詞」などの情報つきの単語リスト)中の情報を参照することで、「品詞」、「活用形」、「読み」等の情報を得ることが可能です。

  • 【レビュー】MeCabで形態素解析、はてなとWikipediaが知恵袋に - infony登場 (1) infonyとは | エンタープライズ | マイコミジャーナル

    日々ネットに溢れ出る情報を収集し、フィルタリングし、振り分けて情報を摂取し続けるジャンキー達。そんな我々のための興味深いツールとしてInfolustを紹介した。InfolustはWikipediaを活用したサービスで、指定したページのコンテンツを要約して表示するWebサービスだ。Wikipediaを知識ベースとして自動的に処理をおこなうという、さながらオート編集者というべきものだ。 今回はinfonyを紹介したい。5日に公開されたサービスで、指定したページを解析してキーワードごとに解析結果を表示するというもの。Infolustを日向けにカスタマイズして開発したようなサービスだ。 テキストの形態素解析には、京都大学情報学研究科−日電信電話株式会社コミュニケーション科学基礎研究所共同研究ユニットプロジェクトにおいて開発された形態素解析エンジンである和布蕪(MeCab: Yet Anoth

  • キラ速-KIRA☆SOKU-

    VIP中心に掲載。ニュースも少々。Profile Author:Kan 9/28:お絵かき掲示板新設しました。よければ皆さん絵を投稿してみてください。 レイアウトが崩れる方は、最新のIEをインスコしてください。 広告募集中! TOP絵募集中です! 300万HIT記念絵募集中! 掲示板 お絵かき掲示板 サークルHP→Kan Production About the blog 現在の閲覧者数: SS募集中☆ 自薦他薦なんでもござれ シリーズ化予定のものから短編まで ジャンル問わず募集中です。載せてほしい作品は、datファイルを添付して送ってくれれヴぁおk。待ってます〜ヽ(゚∀゚)ノキラ速全面応援サイト

    sigewo
    sigewo 2008/11/08
  • 大学院教育で何が出来ると人が育ったと言えるのか - ニューロサイエンスとマーケティングの間 - Between Neuroscience and Marketing

    Contax T2 @Sterling Hall of Medicine, Yale University この間の「人を育てるラボの特徴」というエントリについて、ブクマコメントで頂いたこと、 >大学院教育において、どうなったら「人が育った」と評価できるのか、その基準も合わせて教えていただけると嬉しいかも。「研究を進めるための実務的な能力」が身についたということでO.K.?(pollyannaさん) について少し考えてみたいと思う。 これって「大学院教育って(受け手側からすると)何のためにあるのか」という極めて重要な課題そのもの。深遠かどうかはこのエントリの後で考えて頂くとしても、大事なテーマであることは間違いない。 で、ここでは日の大学院と米国の大学院をちょっと分けて考えてみたい。前エントリにも少し書きましたが、私個人として、某旧帝大と某Ivy schoolの間で、ラボがどうというより

    大学院教育で何が出来ると人が育ったと言えるのか - ニューロサイエンスとマーケティングの間 - Between Neuroscience and Marketing
  • 優れた検索技術はどちらか---長年の論争がついに決着:ITpro

    インターネットの膨大な情報の中から自分が求めるものを探すとき,誰しもまずGoogleなどの検索エンジンを使うだろう。この検索エンジンは,文書中のすべての文字列を検索対象にし,入力された検索語を含む文書を返す。これを全文検索という。 全文検索では,まず検索対象となる文書を短い文字列に区切る。そして,どの文書が区切った文字列を含んでいるかを対応付けた表(インデックス)を作成する。検索文が入力されると,こちらも同じように短く区切り,インデックスと比較する。つまり,両者が同じ文字列を含んでいても,その区切りが異なると正しく検索できない。 実はここに,長きにわたる論争があった。文字の区切り方に二つの有力な手法があるのだ。しかし2002年12月,この論争に決着がついたようだ。国立情報学研究所が主催する検索エンジンの評価型国際会議NTCIR(NII Test Collection for Informa

    優れた検索技術はどちらか---長年の論争がついに決着:ITpro
    sigewo
    sigewo 2008/10/27
  • 文節をどう区切るか

    日本語入力プログラムの歴史は、入力の効率を求める歴史でした。初めは「これはペンです」という文章を入力するにも、「これは」で一度変換し「ペンです」でまた変換する方式(単文節変換)や、「これは」と「ぺんです」の間に文節を区切る指示を与える方式をとっていました。やがて、単文節変換や文節ごとに区切り記号を入れる方式から、自動的に文節を区切る連文節変換(複文節変換?)へと進化し、さらには文脈に応じて適切な語を選ぶ用例変換、AI変換が花開き、日本語入力は簡単で効率的になっていきました。 このページは、文節を区切る方法について、現行の日本語入力プログラムでよく使われる方式を解説します。用例変換、AI変換は別項にて解説します。 目次 n文節最長一致法 うしろ向きn文節評価最大法 接続コスト最小法 参考文献・資料 n文節最長一致法 採用している日本語入力プログラム:ATOK、EGBRIDGE、VJEなど。

  • モンスターハンターポータブル2ndG広場

    ”モンハンポータブル2ndGの広場”は、皆で楽しむ攻略サイト 神バランスと言われたポータブル2nd のハンターライフが復活! 旧作マップの復活&新モンスターの登場など期待通りの進化を遂げるであろうMHP2G 約2倍になると言われる新たな武器&防具データ&装飾品、ナルガクルガなどの新モンスター達を、楽しく攻略していきましょう♪ MHP2Gの基礎データはこちら 久々の据え置き機PS4で2018年初頭発売!【MHW】モンハンワールド 攻略

    sigewo
    sigewo 2008/10/27
  • エクセルのデータを見やすくする5つの簡単なテクニック | コリス

    Chandoo.orgのエントリーから、条件付き書式を利用して、エクセルのデータを見やすくする5つのテクニックを紹介します。 Learn Cool Microsoft Excel Conditional Formatting Tricks テーブルの横列・縦列をハイライト 条件付き書式を使用したガントチャート セル内に配置するグラフ ミスやエラー・データ欠落などのハイライト表示 直感的に把握できるデータテーブル [ad#ad-2] エクセルデータは、Chandoo.orgのエントリーの一番下からダウンロードできます。 テーブルの横列・縦列をハイライト テーブルのデータを見やすくするために、横列・縦列を交互にハイライト表示にします。 ハイライトにするテーブル全体を選択します。 メニューより、[書式] - [条件付き書式] を選択。 「数式」を選択し、「=MOD(ROW(),2)=0」を入力し

  • スポーツ見るもの語る者~フモフモコラム:大橋のぞみちゃん(9歳・ポニョ)の投球フォームが良過ぎてワロタwww

    天才野球少女の鮮烈なデビューですね! さすが野球世界ランク1位の国・日です。全世界的には女子に対してほとんど普及していない競技であるにもかかわらず、日だけは例外。先日行われた女子野球世界選手権でも日本代表は優勝を飾ったように、日女子野球のレベルは世界の最高峰。「野球狂の詩」なんて女子野球選手のマンガもあるくらいですから、そりゃ「天才野球少女」のひとりやふたり、出てきてもおかしくないわけです。 そんな天才野球少女として、鮮烈なデビューを飾ったのは大橋のぞみちゃん(9歳)。「ポ〜ニョポ〜ニョポニョ」でお馴染みの、あの女の子です。 のぞみちゃんは、22日に行われたセ・リーグクライマックスシリーズ第2ステージ巨人VS中日戦で、始球式の大役をつとめました。まぁ小学生女子ということで、マウンドより前方で投げさせたりと、「ボールが前に飛べばいいよ」くらいの気持ちで大人たちは彼女を招待したわけ

  • カナ速

    kanasoku 【速報】日、上限価格を超える値段でロシアから石油を買う権利をG7勝ち取る。岸田!アンタ最高や!#MT2 #まとめ #2ch #kanasoku #カナ速https://t.co/SGjPX5v4J5 04-02 23:01 【悲報】ガーシー、大幅キャラ変!今後は「ドバイのおいしい店情報」発信へwwwwww#MT2 #まとめ #2ch #kanasoku #カナ速https://t.co/hu5dDXe4Os 04-02 22:31 【画像】最近の日清のCMwwwww#MT2 #まとめ #2ch #kanasoku #カナ速https://t.co/8rdf9agj82 04-02 22:00 24歳の暴力団組員「わしは法律の中だけで生きていない」 恐喝未遂容疑で逮捕#MT2 #まとめ #2ch #kanasoku #カナ速https://t.co/wEGlS9LQrG

    カナ速
    sigewo
    sigewo 2008/10/23
  • 苦情メールに返信するとき意識すること - 頭ん中

    ウェブのサービスを運営してると ご立腹の方からメールをいただくこともある。 そういうメールにご返事をする場合に これを意識しておいた方がいいな、 と思っていることをいくつか。 もちろん事情はその都度違うので いつも同じ対応をするということではないけど、 基的な考え方として。 たとえ正当な訴えでなかったり 単なる誤解に基づくものであったりしても ちょっとの配慮で穏便に済むならその方がいいですね。 できるだけ早く返信する 時間が経てば経つほど 「無視された感」が高まって 余計によろしくないことになってしまうから。 すぐにご返事できないときは 「すぐにご返事できないのであらためて」と すぐにご返事する。 できることとできないことを明確にする 何らかの対応を求められていて その要求が正当なものである場合、 できることがあるなら 何ができるかを明確に伝える。 ただし、どう考えても正当な訴えではなか

    苦情メールに返信するとき意識すること - 頭ん中
  • 世界でどのようなSNSサイトが主流になっているのか表わした地図

    以前GIGAZINEで全世界のSNS勢力分布マップという記事がありましたが、かなり詳細にSNSの勢力分布を表わしている地図ができたようです。この地図を見てみると、さまざまな国で利用されているSNSもあれば、mixiのようなその国でしか利用されていないようなSNSがたくさんあることが分かります。 また、その国固有の言葉を使用したSNSもあるため、語学勉強に参加するという使い方もできそうです。 詳細は以下より。 World Map of Top Social Networks これがSNS分布図。 このような色分けがされています。 アジアの分布図。やはり日はmixiが主流。韓国はCyWorld、中国ではXiaoneiが主流。 ヨーロッパの分布図。イギリスではFacebook、フランスではSkyrockが主流。ドイツではStudivzというSNSが主に利用されているようです。 北米の分布図。ア

    世界でどのようなSNSサイトが主流になっているのか表わした地図
    sigewo
    sigewo 2008/10/23
  • Fasterfoxが最強すぎる件 - 真性引き篭もり

    …すごい。 体感速度が目に見えるほど上がった。 ちょっと感動したので、すかさず記事にしておくー。 ※通信が早くなるだけで、起動とかは特に変わりません。 ほとんど設定不要だし、お手軽なのでとりあえず入れてみれば良いかと。Firefoxの通信関係をいじらずにデフォルトで使っている人はそうとう効果を実感できるのではないかと思います。 設定は拡張機能経由ではなくオプション経由で行う。 インストール時のデフォルトは、この『ターボ チャージャー』。 最大性能。RFC 仕様を超える設定でウェブサーバーへ接続します。 という文句がなにげに漢気だだ漏れってカンジです。 この拡張はページのレンダリング速度も測定できるので、 とりあえず比較のためにデフォルト時の性能を見てみます。 ノーマルモード時のMMトップページ読み込み速度。 ↓ターボチャージャーにしてみます。 若干はやくなっていますな。 ↓一回リロードする

  • テキストマイニング、マーケティングでも大活躍

    4-1 ネット上の書き込み分析 最近では、インターネット上の書き込みを分析するようなケースが非常に増えてきた。インターネット上の書き込みの分析は、大別すると2種類存在する。1つ目はブログデータの分析である。2つ目は、コミュニティサイトやSNSでの書き込みの分析である。 前者は、特定のキーワードで収集(クローリング)して利用するケースである。例えば、「キットカット」と入力すると、「キットカット」という単語を含んだブログのエントリ件数や、同時に出現しているキーワードを提示してくれる。 この図1を見ると、受験シーズンにキットカットの書き込みが増えていることが分かる。 ここで利用されているのもテキストマイニング技術である。ブログ中に同時に出現しているキーワードを提示してくれたり、時系列で見たときに、急増傾向にあるワードを教えてくれたりする。 そうすることで、商品名やサービス名を調べることで、それら

    テキストマイニング、マーケティングでも大活躍
  • 「問題発見能力を高める」インデックス

    問題を抱えている社内の顧客(業務部門)に対し、具体的な解決策=ソリューションを提示する「情報エキスパート」が持つべき視点や考え方について解説する。

    sigewo
    sigewo 2008/10/23
  • 形態素解析の基礎

    形態素解析の基礎 大西 祥代,廣安 知之,三木 光範 ISDL Report  No. 20070913009 2007年 8月 28日 Abstract 形態素解析とは文章を単語に区切る処理であり,自然言語処理の最も基となる処理である.報告では,形態素解析に必要な技術形態素解析ツールについて述べる. 1  はじめに 近年, 自然言語で書かれた大量の文書が電子化され利用されている. 例えば, Web上では様々な情報をテキストや写真などで記述したページがある. また, 電子化されたアンケートなどは, データマイニングを行い経営などに活かされている. このように文書は電子化され今後もますます利用されると考えられるが, より効率良く利用するためにはコンピュータによる文書の解析が必要である. コンピュータが文書を解析するためには, 自然言語解析を行うが, 日語においては, 文章を単語に分

  • 卒業研究が、科学雑誌『Nature』に掲載される (大学プロデューサーズ・ノート 【早稲田塾】)

    ページが見つかりません ページが削除されたか、名前の変更、弊社の不手際によるリンクの間違い、または、アドレスの入力間違いなどが考えられます。 お手数ですが、ホーム、またはサイトマップから目的のページをお探しください。 お知りになりたい内容がどのページに掲載されているかわからない場合は、ページ右上部の検索機能をご利用ください。