本文「chasen」を検索 - はてなブックマーク

1 - 40 件 / 1786件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

chasenの検索結果1 - 40 件 / 1786件

Ajax IME: Web-based Japanese Input Method
- 1485 users
- ajaxime.chasen.org
- 暮らし
- 2005/10/29
Webベースの日本語入力サービスです。海外からでもブラウザさえあれば日本語を入力することができます。特別なソフトは必要ありません。使い方お使いのコンピュータの日本語入力を切りかえて直接入力にします。 Alt-o (Ctrl-9) で Ajax IMEモードに変更します。(ボタンで切り替えるかえることもできます) 適当な文をローマ字で入力します。 spaceを押して漢字に変換します。続けて押すことで候補選択を行います。 returnを押す、もしくは次の入力を開始することで入力を確定します。 F9で強制的にカタカナに、F8で強制的にアルファベットに変換します。再度 Alt-o (Ctrl-9)で直接入力に戻ります海外旅行先や留学先, 海外のネットカフェなど日本語入力環境が無いパソコンからご使用ください。 Firefox と Internet Explorer で動作確認をしていま
- ajax
- ime
- 日本語入力
- webサービス
- 日本語
- japanese
- tool
- webservice
- web
- 便利
日本語形態素解析の裏側を覗く！MeCab はどのように形態素解析しているか - クックパッド開発者ブログ
- 1063 users
- techlife.cookpad.com
- テクノロジー
- 2016/05/11
こんにちは、買物情報事業部の荒引 (@a_bicky) です。前回、「検索結果の疑問を解消するための検索の基礎」で単語単位でインデキシングする前提で説明しましたが、今回は文などを単語単位で分割するために使う技術である形態素解析について触れます。形態素解析器には色々ありますが、中でもメジャーと思われる MeCab の仕組みについて説明します。 MeCab の解析精度を上げるために辞書に単語を追加したことのある方もいると思いますが、動作原理を理解することで単語を追加する際に適切な生起コストを設定できるようになったり、学習の際に適切なパラメータを設定できるようになったりするはずです。なお、MeCab は汎用テキスト変換ツールとしても使用できますが、簡単のため MeCab + IPA 辞書のデフォルト設定前提で説明します。アジェンダ形態素解析とは MeCab における最適な解析結果の推
Ajax を使った手書き文字認識
- 671 users
- chasen.org/~taku
- 暮らし
- 2005/09/19
Ajax を使った手書き文字認識です。下のキャンバスにマウスで文字を描いてみてください。デモ
- ajax
- 文字認識
- javascript
- web
- webサービス
- programming
- ime
- web2.0
- プログラミング
- tool
MeCab: Yet Another Part-of-Speech and Morphological Analyzer(形態素解析エンジン)
- 603 users
- mecab.sourceforge.net
- 暮らし
- 2006/11/08
MeCab に至るまでの形態素解析器開発の歴史等はこちらをご覧くださいメーリングリスト一般ユーザ向けメーリングリスト開発者向けメーリングリスト新着情報 2008-02-03 MeCab 0.97 マルチスレッド環境で辞書を開くときの排他制御がうまくいっていなかったバグの修正 Windows版でインストール時に辞書の文字コードを指定できるようになった一部のコンパイラで正しくコンパイルできなかった問題の修正部分解析モードを変更するAPI の追加 (Tagger::set_partial()) ラティスの生成レベルを変更するAPI の追加 (Tagger::set_lattice_level()) 温度パラメータを変更するAPIの追加 (Tagger::set_theta()) 全候補出力モードを変更するAPIの追加 (Tagger::set_all_morphs()) 2007-
Ajax IME: Web-based Japanese Input Method
- 479 users
- chasen.org/~taku
- 暮らし
- 2005/08/10
Webベースの日本語入力サービスです。海外からでもブラウザさえあれば日本語を入力することができます。特別なソフトは必要ありません。使い方お使いのコンピュータの日本語入力を切りかえて直接入力にします。 Alt-o (Ctrl-9) で Ajax IMEモードに変更します。(ボタンで切り替えるかえることもできます) 適当な文をローマ字で入力します。 spaceを押して漢字に変換します。続けて押すことで候補選択を行います。 returnを押す、もしくは次の入力を開始することで入力を確定します。 F9で強制的にカタカナに、F8で強制的にアルファベットに変換します。再度 Alt-o (Ctrl-9)で直接入力に戻ります海外旅行先や留学先, 海外のネットカフェなど日本語入力環境が無いパソコンからご使用ください。 Firefox と Internet Explorer で動作確認をしていま
- ajax
- ime
- javascript
- 日本語
- tool
- web2.0
- web
- 便利
- ツール
- webサービス
形態素解析の過去・現在・未来
- 459 users
- www.slideshare.net/slideshow
- 暮らし
- 2011/10/21
2. ⾃自⼰己紹介 l  海野　裕也 (@unnonouno) l  unno/no/uno l  研究開発部⾨門　リサーチャー l  専⾨門 l  ⾃自然⾔言語処理理 l  テキストマイニング l  職歴 l  2008/4~2011/3 ⽇日本アイ・ビー・エム（株）東京基礎研究所 l  2011/4~ 現職 2 3. 今⽇日の発表の⽬目的 l  形態素解析器の中で何が⾏行行われているか l  コスト最⼩小化, HMM, MEMM, CRF etc. , l  JUMAN, Chasen, MeCab, etc. l  ・・・だけだとよくあるので、最新の⼿手法と過去の⼿手法をまとめる l  現在の問題点に関してもまとめる 3
- 形態素解析
- 自然言語処理
- NLP
- 資料
- プログラミング
- pfi
- slideshare
- IT
- あとで読む
- mecab
Pythonでつくる検索エンジン(Webクローラ, Mecab, MongoDB, Flask) - c-bata web
- 451 users
- nwpct1.hatenablog.com
- テクノロジー
- 2014/11/12
検索エンジン自作入門 ~手を動かしながら見渡す検索の舞台裏作者:山田浩之,末永匡発売日: 2014/09/25メディア: 単行本（ソフトカバー） (この記事で紹介しているのはTF-IDFとかの計算もない簡素なものです。) はじめに Webサービスのプログラミングに必要なことのだいたいは、スクレイピングに学んだ - Line 1: Error: Invalid Blog('by Esehara' ) この前↑の記事をみかけました。クローリングやスクレイピングは、色々と応用が効きそうなのでしっかり勉強したい。 PythonではScrapyという有名なクローリング・スクレイピング用のライブラリがありますが、今回は勉強としてScrapyを使わずに実装してみる。流れとしては以下のとおり Webクローラの構築 Mecabで日本語の形態素解析検索エンジンの構築データをMongoDBに格納 Fl
- python
- スクレイピング
- 検索エンジン
- mecab
- mongodb
- flask
- crawler
- クローラ
- web
- あとで読む
TinySegmenter: Javascriptだけで実装されたコンパクトな分かち書きソフトウェア
- 449 users
- chasen.org/~taku
- 暮らし
- 2008/02/08
TinySegmenterはJavascriptだけ書かれた極めてコンパクトな日本語分かち書きソフトウェアです。わずか25kバイトのソースコードで、日本語の新聞記事であれば文字単位で95%程度の精度で分かち書きが行えます。 Yahoo!の形態素解析のようにサーバーサイドで解析するのではなく、全てクライアントサイドで解析を行うため、セキュリティの観点から見ても安全です。分かち書きの単位はMeCab + ipadicと互換性があります。デモ日本語の文章を入力し、解析ボタンをクリックしてください。ダウンロード TinySegmenterはフリーソフトウェアです. 修正BSDライセンスに従って本ソフトウェアを使用,再配布することができます. Download TinySegmenter version 0.2 使い方 <script type="text/javascript" src
- javascript
- 形態素解析
- 自然言語処理
- 分かち書き
- nlp
- library
- MeCab
- algorithm
- japanese
- 日本語
きまぐれ日記: MeCabがiPhone,OSXに載っていると言うのは止めようと思う
- 425 users
- chasen.org/~taku
- 暮らし
- 2010/04/21
iPhoneのSDKの条項に変更が加わり、Flashのクロスコンパイルを含む純正開発ツール以外で作成されたバイナリの配布が禁止となるようです。世間でも散々言われていますが、この変更は正直とても残念です。 Apple的には「製品のクオリティーが保てないから」という理由だそうですが、 Windows版iTunesが意味もなくQuickTime入れたり、Windows非標準のUIを使いまくっていて、お世辞にもクオリティーが高いとは言えないのを棚にあげて、クオリティー云々と言い訳できるのでしょうか。アプリなんて所詮玉石混淆。決めるのはユーザです。 MeCabは以前GPL/LGPLでした。Appleを含む複数の方からこのライセンスでは使いにくいと言う指摘をうけ、前職の同僚と協議をしながらBSD/LGPL/GPL のトリプルライセンスにしたという経緯があります。結果としてこの変更はうまく
- apple
- mecab
- oss
- オープンソース
- iphone
- opensource
- ライセンス
- license
- 考え方
- business
ウノウラボ Unoh Labs: PHPとMecabでキーワード自動リンクを実装する
- 407 users
- labs.unoh.net
- 暮らし
- 2008/01/07
こんにちは、山下です。今年もどうぞよろしくお願い致します。 Webサービスを開発していると、特定のキーワードを自動でURLリンクにする処理が必要になることがあると思います。今回は、このキーワード自動リンク機能を形態素解析ツールMecabを使ってPHPで実装する方法を紹介したいと思います。説明に入る前に少し補足しておくと、Trieの実装であるDouble-Array処理だけ利用したいのであれば、MecabからDouble-Array処理の部分を切り出したDartsというライブラリがあります。しかし、なぜMecabを使うかというと、PerlだとDartsのバインディングが公開されているのですが、現時点でPHP版はありません。また、最近のLinuxディストリビューションでは、Mecabのパッケージが最初から用意されているため、より簡単に利用できると思ったからです。それでは、順を追って説明
満足せる豚。眠たげなポチ。:2005年の技術的なトレンドに乗り遅れないための5つのテーマ
- 402 users
- blog.hacklife.net
- 暮らし
- 2005/12/21
年の暮れだからこそ、今年の技術的なトレンドへ乗り遅れないように復習をしたいもの。 Web2.0が脚光を浴びた2005年。とりあえずこの5つの分野から苦手分野をきっちり潰していきたいと思います。（多分にぼくの偏見と苦手分野の重視が影響している点はご了承ください。） Ajax Ruby on Rails HTML/CSS Javascript 正規表現ということで、おすすめの書籍やサイトを総括。 Ajax 2005年はこれしかないでしょう。猫も杓子もAjaxと連呼した年でした。 Ajax: Web アプリケーション開発の新しいアプローチ http://antipop.gs/docs/translations/ajax.html これがなくちゃ始まらないですから。 Ajaxの本質、「非同期メッセージ型ウェブ・アプリケーション」のススメ http://satoshi.blogs.com/life
- ajax
- javascript
- web2.0
- css
- ruby
- rails
- 2005
- 正規表現
- web
- programming
形態素解析ツールの比較 (NLP2018) - Qiita
- 386 users
- qiita.com
- テクノロジー
- 2018/03/18
NLP2018のワークショップに行ってきたのですが、そこで聞いてきたことのうち、形態素解析ツールに関することを大雑把にまとめておきます。聞いたことをまとめることが目的なので、詳細は各ツールのWebサイトやgithubページへ行ってください。間違っている部分、追加したい内容があればコメントでお願いします。追記: 2018/04/02 nlp2018の発表資料が公開されました。 Juman++ (リンク) MeCab (リンク) KyTea (リンク) Unidic (リンク) https://sites.google.com/view/nlp2018ws/ NLP2018 形態素解析の今とこれから趣旨: どういう手法・ツールをどのようなタスクに対して使うべきかを選べるように、各ツールの開発者の発表を基に比較してもらうこと。さまざまな発表がありましたが、形態素解析ツールに焦点を当ててま
Google 工藤拓さん講演「大規模ソフトウェア開発を支えるGoogleのテクノロジー」
- 375 users
- ninjinkun.hatenablog.com
- 暮らし
- 2008/10/24
NAISTにてMeCabの作者としても有名な工藤拓さんの講演が行われました。Googleの開発体制とそれを支えるツールのお話です。学校と拓さんの双方からブログへの掲載許可が得られたので、まとめを公開します。この講義はNAISTのソフトウェア開発管理講義の一環です。 iPhoneカメラしかなかったので、画像が荒くて済みません・・・。会場は大入り！工藤拓さん NAIST自然言語処理学講座出身 Googleに入社してから大規模開発やインフラを経験 MeCabを開発 NTTコミュニケーション科学基礎研究所に所属その後Googleへ研究より開発寄り Googleでの仕事日本語のウェブ検索「もしかして」機能ダジャレサーチエイプリルフールネタを1ヶ月かけて実装何千人もの開発者が単一のソースコードリポジトリの上で開発を行っている大規模開発をサポートするインフラが不可欠 Mondria
- google
- development
- codereview
- programming
- 開発
- mecab
- dev
- ソフトウェア開発
- review
- NAIST
大規模テキスト処理を支える形態素解析技術（工藤拓氏・Google） - Cafe Babe
- 343 users
- kazama.hatenablog.com
- 暮らし
- 2008/02/14
第80回知識ベースシステム研究会を開催したが，二日間で58名の方々に参加して頂き，積極的に議論に加わって頂いた．この場を借りて，参加してくれた方々に感謝したい．大変遅くなった（爆）が，Googleの工藤拓氏による招待講演「大規模テキスト処理を支える形態素解析技術」の概要を，このブログで報告しておきたい．工藤氏の専門分野は統計的自然言語処理と機械学習であるが，日本語形態素解析エンジンMeCabの開発者であり，他にも自然言語処理関連の有益なツールや，Webベースの日本語入力を可能にするAjax IMEのようなユニークなサービスを提供しているなど，時代をリードする研究開発者の一人である．彼の活動に興味があれば，彼のブログ「きまぐれ日記」は必見だろう．なお，当日は弊社側の不手際で，予定していた工藤氏の重要なデモをおこなうことができなかった．弊社はネットワーク会社であるにもかかわらず，ネットワーク
- 形態素解析
- mecab
- 自然言語処理
- nlp
- google
- search
- technology
- 日本語
- library
- programming
自然言語処理を自習したくなったら参考になりそうなサイトなど - 鴨川にあこがれる日々
- 322 users
- nzw.hatenablog.jp
- テクノロジー
- 2015/08/07
雑にですが，知ってるサイトやチュートリアルをまとめたくなったのでまとめてみました．夏ですし．適宜更新しています．最終更新 2018年02月03日チュートリアル言語処理100本ノック言語処理100本ノック 2015 東工大の岡崎先生が作られたチュートリアルです．他大学の研究室でも利用されています．簡単な内容からはじまるので，プログラミングの導入としてもいいと思います． NLPプログラミングチュートリアル Graham Neubig's Teaching Carnegie Mellon UniversityのGraham Neubig先生のチュートリアルです． Githubにサンプルコードが公開されています．各チュートリアルにはテストがついているので，実装が正しいかを確かめることができます．扱っているトピックが広いので，かなり勉強になると思います．ソフト形態素解析器日本
ChaSen.org
- 322 users
- chasen.org
- 暮らし
- 2006/06/23
サービス Ajax IME: Webベースの日本語入力。特別なソフトは必要ありません。 Ajax 手書き文字認識: Webベースの日本語手書き文字入力� 個人ページ Taku Kudo's page 本サイトの運営者です
- ajax
- ime
- 日本語入力
- 日本語
- 便利
- tool
- web2.0
- webサービス
- ツール
- webservice
『自然言語処理の基本と技術』が面白い！ - toricago
- 314 users
- toricago.hatenablog.com
- テクノロジー
- 2018/03/03
スマートスピーカーが日本で急速な普及を迎えている。Amazon Echo、Google Home、LINE WAVEなどを購入し、スマートスピーカーの様々可能性を楽しんでいる読者も多いかもしれない。何かを話しかけることで、アラーム・ストップウォッチ設定やLINEメッセージの読み上げなど、何らかのタスクを実行してくれたり、天気や時間、さらにはニュースなどの情報を提供してくれたり、簡単な会話を楽しむこともできる。今まで慣れ親しんできたPCのキーボードやスマホのタッチインターフェースとは異なる「音声インターフェース」は新鮮に感じるが、背景では様々な技術が動いている。入り口は声を認識する音声認識だが、その次のステップでは認識した文字列を文章として理解し、スピーカー側として何を実行すればよいのか判断しなければならない。何かを聞かれているのであれば、どのように返答すべきかを考えなければならない。この
- 自然言語処理
- あとで読む
- book
- NLP
- 機械学習
- 自然言語
- 書籍
- 技術
- アルゴリズム
- language
ギコ猫とデザインパターン
- 312 users
- www.hyuki.com
- 暮らし
- 2005/02/11
／‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾ ワーイスレッドヘン　1ゲト　ズザー! ＼ ‾‾‾‾‾‾|／‾‾‾‾‾‾‾‾‾‾‾ （　　 Λ_Λ ⊂ ´⌒つ゜ー゜)つ ‾‾‾‾‾‾‾ .＿＿＿＿＿＿＿＿＿＿＿ |　　　　　　　　　　　　　　　..| | ギコ猫暗号入門はこちら .｜ |＿＿＿＿＿＿＿＿＿＿＿| ∧,,∧　|| ⊂ミ.,,゜Д゜彡つ https://www.hyuki.com/cr/cat_index.html 目次はじめに登場する猫たちギコ猫とGoFのパターンたちギコ猫とマルチスレッドのパターンたちアニメGIF みなさんからのフィードバックぜひ、感想をお送りくださいこのページにリンクしてくださっている方々リンク集更新履歴はじめにこのページでは2ch.netのキャラクタ「ギコ猫」にナビゲートしてもらい、デザインパターンをいくつか紹介(?)します。といっても
Unix を使える学生は急速に減っている - 武蔵野日記
- 285 users
- komachi.hatenablog.com
- テクノロジー
- 2014/08/20
午前3時から NLP（自然言語処理）若手の会シンポジウム・情報処理学会自然言語処理研究会関係の仕事を黙々とする。大学運営関係のお仕事は9月中旬までないので、いまのうちに溜まった仕事を片付け、9月の準備をしておき、10月以降に備えたい（授業が週3コマある）。（2014-08-21 追記）タイトルだけ見て反応する人が多いので、よくあるコメントについて冒頭で説明しておく。「最近の若い者はなっとらん」と言っているだけで、教育もしていないなら当然。→8月20日に追記したが、教員なので教育するのが仕事の一部であり、研究室に配属された学生は最初週20時間（1個2時間×10個）の勉強会に出てもらい、それぞれ合計すると演習を解いたりするのに週20時間かかるようなので、合計週40時間基礎勉強に使ってもらっている。（参考: 研究室の勉強会のスケジュール）必要性がないとやらないのでは？→世の中の99%の人に
- unix
- Linux
- 学生
- 教育
- プログラミング
- nlp
- education
- コンピュータ
- web
- 文
ヤフーの日本語係り受け解析APIとサンプルプログラム「なんちゃって文章要約」
- 257 users
- chalow.net
- 暮らし
- 2008/08/21
ヤフーの日本語係り受け解析APIとサンプルプログラム「なんちゃって文章要約」 2008-08-21-1 [WebTool][NLP][Programming][Algorithm] Yahoo!デベロッパーネットワーク(YDN)に「日本語係り受け解析Webサービス」が登場しました。 Yahoo!デベロッパーネットワーク - テキスト解析 - 日本語係り受け解析 http://developer.yahoo.co.jp/jlp/DAService/V1/parse.html 「係り受けってなに？」という方もいると思うので、以下、まったくもって厳密ではない、適当な解説を試みます。 (1) 日本語をコンピューターで処理するには、まず形態素解析というのをやって、文を形態素（≒単語）単位に分割します。 YDN の「日本語形態素解析Webサービス」[2007-06-18-1] で試すことができ
- 形態素解析
- api
- yahoo
- 自然言語処理
- nlp
- perl
- yahoo!
- 自然言語
- webサービス
- language
RakutenMAによる形態素解析入門 - あんちべ！
- 231 users
- antibayesian.hateblo.jp
- テクノロジー
- 2015/01/08
概要本稿はRakutenMAというJavaScriptだけで動く学習器付きの形態素解析器を利用する入門記事です。本記事を読了すると、形態素解析の実行と形態素解析のモデルを作成・更新出来るようになります。また、本稿ははてな×PC工房との連動企画の補足をするべく書きました。「あんちべさんと一緒に Rakuten MA で形態素解析」はてなニュース連動企画第二弾！ : パソコン工房パソコン工房のPCで遊ぼう第2弾！あんちべさんと一緒に Rakuten MA で形態素解析 - はてなニュース RakutenMAを利用したエディタ判定器デモエディタ判定器 :パソコン工房【やじうまWatch】Emacs派とVim派の対立を煽る「エディタ判定器」が面白いと評判 -INTERNET Watch はじめに近年、twitterやFacebookなどのSNSやAmazonのレビューなどから得ら
デザインの「悪い方がよい」原則　The Rise of "Worse is Better"
- 227 users
- chasen.org/~daiti-m
- 暮らし
- 2005/06/24
デザインの「悪い方がよい」原則 The Rise of "Worse is Better" rpg@lucid.com 日本語訳: daiti-m@is.aist-nara.ac.jp 私や Common Lisp と CLOS のデザイナーのほとんどは、MIT/Stanford 方式の設計に親しんでいる。この方式の核心は、「正しい」やり方をせよ、ということにつきる。デザイナーにとっては、以下の点をすべて正しく満たすことが重要である。簡潔性デザインは実装と使用法の両面において単純でなければならない。このとき、使用法が単純な方が、実装が単純なことより重要である。正当性デザインはすべての点において正しいものでなければならない。誤りは許されない。一貫性デザインは一貫性を欠いたものであってはならない。一貫性を保つためには完全性は少しだけ犠牲にしてもよい。一貫性は正当性と同
- programming
- design
- 設計
- デザイン
- プログラミング
- あとで読む
- software
- development
- Lisp
- memo
wxWidgets でクロスプラットフォーム GUIアプリを作ろう
- 223 users
- 0xcc.net
- 暮らし
- 2005/03/15
最終更新日: 2004-10-08 (公開日: 2004-10-08) UNIX USER誌 2004年8月号に掲載された記事の元の原稿です。本文中の「原稿執筆時点」は「2004年 6月半ば」を指します。 wxWidgets は Linux, Windows, Mac OS X など多くのプラットフォームに対応したオープンソースの GUI ツールキットである。本稿では wxWidgets を用いてクロスプラットフォーム対応の GUI アプリケーションを開発する方法を紹介する。はじめに Unix の大きな魅力のひとつに、強力なコマンドライン処理がある。 zsh などのシェルと perl などのワンライナーを組み合せて、大量のファイルを一気に処理するときなどは、「これぞコマンドラインの醍醐味」と感じる瞬間である。一方、Unix の大きな不満のひとつに、凶悪なコマンドライン書法
- wxWidgets
- gui
- c++
- programming
- python
- プログラミング
- Linux
- wxPython
- framework
- windows
きまぐれ日記: Yahoo!の形態素解析をMeCabで無理やり再現してみる
- 222 users
- chasen.org/~taku
- 暮らし
- 2007/06/23
MeCabで形態素解析器を作りたい場合は以下の二つの言語リソースが必要です。 1. 辞書 (単語と品詞のペアの集合) 2. 入力文と、それに対応する正解出力ペア(正解データ) 現在公開している mecab-ipadic は、ipadicとRWCPコーパスという正解データを使っています。ここから分かるとおり、少なくともMeCabを使う場合は、コスト値を丹念にチューニングするといった職人芸は要りません。形態素解析への入力文とそれに対応する(理想)出力があればコスト値を機械学習的なアプローチで構築することができます。さらに、正解データを人手で作る必要は必ずしもありません。すなわち、Yahoo!の形態素解析器の出力結果を「擬似正解」とみなして MeCabの学習プログラムを走らせれば、Yahoo!の出力を高い精度で再現できる MeCab用辞書を作成することが原理的に可能です。ふだんはあま
- mecab
- 形態素解析
- 自然言語処理
- yahoo
- nlp
- Yahoo!
- api
- 言語処理
- japanese
- 日本語
形態素解析と検索APIとTF-IDFでキーワード抽出
- 209 users
- chalow.net
- テクノロジー
- 2007/02/27
形態素解析と検索APIとTF-IDFでキーワード抽出 2005-10-12-1 [Programming][Algorithm] 形態素解析器と Yahoo! Web 検索 API と TF-IDF を使ってキーワード抽出するという先日の検索会議でのデモ、KEYAPI[2005-09-30-3]。教科書に載っているような基本中の基本ですが、あらためてエッセンスを簡単な例で解説したいと思います。目的：キーワード抽出対象テキストから、そのテキストを代表するキーワードを抽出します。TF-IDF という指標を用います。（この値が大きいほどその単語が代表キーワードっぽいということでよろしく。） TF-IDF を計算するためには、 (1) キーワード抽出対象テキスト中の代表キーワード候補出現数 (TF)、 (2) 全てのドキュメント数 (N)、 (3) 代表キーワード候補が含まれるドキュメ
- TF-IDF
- 形態素解析
- 自然言語処理
- api
- nlp
- algorithm
- アルゴリズム
- mecab
- search
- 研究
ヴォイニッチ手稿について - Qiita
- 205 users
- qiita.com/shunsukeaihara
- テクノロジー
- 2016/04/23
ヴォイニッチ手稿ハッカソンという謎のイベントが開催されるので主催でもなんでもないけど勝手にそれ向けの資料をまとめていく。計算言語学の論文を書いた時に、ネタでVoynich manuscriptとRongorongoも一緒に計算対象にしたりして、サーベイをしたのでその時の知見をまとめて行く。書いた論文は別に未解決文字にフォーカスした論文ではなく面白いかどうかはわからないけどかなり真面目な内容の奴なのであしからず。 voynich maniscriptとは謎の文字と気持ち悪い絵がいっぱい書かれた変な本。何らかの未知言語で書かれているかもしれないし、適当にそれっぽく作って詐欺に使われた道具かもしれない。個人的には、アラビア語系の言語で書かれたなんらかの文書をもとに適当に作ってそれっぽい絵を付けた美術品だと思ってる。以下のページが、これまでの歴史的経緯について詳しい http://www.v
- 言語
- 言語学
- あとで読む
- 文字
- ヴォイニッチ手稿
- ネタ
- language
- 資料
- Linguistics
- technology
形態素解析 - Wikipedia
- 198 users
- ja.wikipedia.org
- 暮らし
- 2005/03/18
日本語の代表的な形態素解析の手法[編集] 英語の場合と異なり、文節を得るのが目的となることが多い。大まかに言えば文から切り出した単語が属する品詞を辞書（自然言語処理用の）を用いて調べていき、結果得られた並びから正しく文節が構成される並びであるものを正解であるとするといったような方法を取る。日本語文法では、たとえば動詞のあとに格助詞がくることはできない（「ドアを開けるを」などは不可）といったように、ほとんどの付属語について「このようなものの後には付く」「このようなものの後には付かない」という規則性があり、また動詞の活用はその後に来る品詞を制限することがある（たとえば連体形の後は名詞）。このような性質を利用することによって単語の境界の判別を行う。具体的にこの性質を利用する方法には以下の2つがある: 規則による方法確率的言語モデルをもちいる方法規則による形態素解析[編集] 長尾真らの197
歴代チャットボットと最近のLLMのまとめ - Qiita
- 187 users
- qiita.com/Ted-HM
- テクノロジー
- 2023/06/02
LLMs The History of Chatbots ELIZA (1966) 初期の人工知能プログラムのひとつ。ルールベースの簡単なパターンマッチングで返答していた。心理療法士の会話を模したELIZA(DOCTOR)が有名。 PARRY (1972) PARRYは偏執病的統合失調症患者をシミュレートしようとしたもの。 ELIZA(DOCTOR)と通信し話題となった。 Jabberwacky (1982, 1988, 1997) ユーモラスな人間同士の自然な会話をシミュレートすることを目的としていた。ユーザーとの会話の大規模なデータベースを構築し、言語と文脈を学習することができた。プロジェクト自体は1982年から開始されていたが、当初は学習機能は有していなかった。ローブナー賞を2005年(George)、2006年(Joan)に受賞している。ローブナー賞(Loebner P
- AI
- 機械学習
- あとで読む
- 人工知能
- BERT
- 学習
- techfeed
- Qiita
- 勉強
きまぐれ日記: はてなキーワードを高速に付与
- 177 users
- chasen.org/~taku
- 暮らし
- 2005/09/07
Slackを一句BOTで風流に - pixiv inside [archive]
- 173 users
- devpixiv.hatenablog.com
- テクノロジー
- 2016/07/05
おはようございます。プログラマーのhakatashiです。普段はpixivコミックやpixivノベルの開発を手伝っています。が、今回はそれとは全く関係ないSlackの話をします。一句BOTとはみなさんSlackは使っているでしょうか。普段から業務にプライベートにと幅広くSlackを使っていると、メンバーの何気ない一言に“一句”を感じることがあります。風流ですね。 pixivにはこのような日常に潜む和の心を大切にする風雅なエンジニアが多いので、平安貴族よろしく日常会話や業務連絡に5・7・5の形の川柳を混ぜて会話します。とても優雅ですね。ですが、上の画像のような完全に日常に溶け込んだ野生のステルス一句は、誰にも気づかれずにログの彼方へ流れていってしまうことも多いようです。そこで、Slackのメッセージから自動で一句を検出してReactionをつけるBOT、slack-ikkuを(1時
- slack
- bot
- 形態素解析
- pixiv
- あとで読む
- Node.js
- ネタ
- programming
忍殺語形態素解析辞書「チャドー」がリリース｜Colorless Green Ideas
- 172 users
- id.fnshr.info
- テクノロジー
- 2014/05/11
「ドーモ。自然言語処理屋＝サン。形態素解析辞書チャドーです」オジギ終了後0.7秒後。ネオサイタマのドロップボックスにアップロードされた辞書のURLが示された。「アイエエエエ！ケイタイソカイセキ！？ケイタイソカイセキナンデ！？」小説『ニンジャスレイヤー』の日本語訳 [1] では独特の言葉遣いが使われており、俗に「忍殺語」 [2] と呼ばれている。この忍殺語の形態素解析を行うための辞書「チャドー」のバージョン1.0.0が2014年5月10日公開された。今のところ、Dropboxを通じて配付されている。かつてニンジャが横行していた時代、日本の人々は文字を連ねるのみで、それを分かつことを知らなかった。古事記にもそう書いている。しかし、言葉の切れ目が分からないと実際不便である。このような状況に対して、平安時代の哲学剣士ミヤモト・マサシは、ジュージツの修行中に形態素解析という手法を発見した。
- 形態素解析
- njslyr
- 忍殺
- 言語
- nlp
- 辞書
- 言葉
- ニンジャスレイヤー
- ネタ
- software
Elasticsearchのための新しい形態素解析器「Sudachi」 - Qiita
- 170 users
- qiita.com/sorami
- テクノロジー
- 2017/12/13
tl;dr （要約） Kuromojiに代わる新しい形態素解析器「Sudachi」なにが良いの？最新の辞書企業（ワークスアプリケーションズ）による継続的な更新複数の分割単位 → 検索用途での再現率と適合率の向上プラグインによる拡張省メモリ Elasticsearchで使いたいプラグイン: WorksApplications/elasticsearch-sudachi 使い方は当記事の後半をご覧ください注: この記事の執筆者はSudachiの開発に関わっていますさまざまな形態素解析器形態素解析は、伝統的な自然言語処理（Natural Language Processing, NLP）において基盤となる技術です。そして世の中にはさまざまな形態素解析器が存在します。販売されているものもありますが、一般に公開されているものだけでもいくつか例をあげると、JUMANとRNNLMを利
MeCabをブーストさせよう - Qiita
- 168 users
- qiita.com/knknkn1162
- テクノロジー
- 2017/05/21
はじめに MeCabとは日本語の形態素解析器をいいます。ここで、形態素というのは言語で意味を持つ最小単位のことです。分割された単語をベクトル化したり、各語彙の頻度を調べたりするために、最小単位に分割するモチベーションが生じます。そもそもなぜ、形態素解析なんかやるの？っていう動機については、http://qiita.com/Hironsan/items/2466fe0f344115aff177 とかに書かれている通り、(上記の記事では、単語の分割が形態素解析に当たります)、分割された単語をベクトル化したり、各語彙の頻度を調べたりするためです。今回は、MeCabを用いて、できるだけ、精度高く分かち書きできるように頑張ります。1 追記) もう一つのMecabをブーストさせよう(Google Search Console編: https://qiita.com/knknkn1162/items/
MeCab: Yet Another Part-of-Speech and Morphological Analyzer
- 164 users
- mecab.googlecode.com
- テクノロジー
- 2012/02/13
MeCab に至るまでの形態素解析器開発の歴史等はこちらをご覧くださいメーリングリスト一般ユーザ向けメーリングリスト開発者向けメーリングリスト新着情報 2012-01-27 MeCab 0.993 MeCab::Tagger::formatNode()が正しく動いていなかった問題の修正スタックの消費を抑えるため、ほとんどのローカル変数(配列)をヒープ上に退避 2012-01-14 MeCab 0.992 ソースコード中のTypoの修正 2012-01-14 MeCab 0.991 空文字列もしくは空白文字列を解析した時に解析エラーとなる問題を修正ユーザ辞書の作成に失敗する場合がある問題を修正 2011-12-24 MeCab 0.99 MeCab::Model, MeCab::Lattice クラスを追加マルチスレッド環境でのユーザビリティの向上。複数スレッドが同一
- MeCab
- 形態素解析
- 自然言語処理
- OSS
- TDAP
- software
- NLP
- 辞書
- Linux
[を] 形態素解析と検索APIとTF-IDFでキーワード抽出
- 159 users
- nais.to/~yto
- 暮らし
- 2005/10/12
形態素解析と検索APIとTF-IDFでキーワード抽出 2005-10-12-1 [Programming][Algorithm] 形態素解析器と Yahoo! Web 検索 API と TF-IDF を使ってキーワード抽出するという先日の検索会議でのデモ、KEYAPI[2005-09-30-3]。教科書に載っているような基本中の基本ですが、あらためてエッセンスを簡単な例で解説したいと思います。目的：キーワード抽出対象テキストから、そのテキストを代表するキーワードを抽出します。TF-IDF という指標を用います。（この値が大きいほどその単語が代表キーワードっぽいということでよろしく。） TF-IDF を計算するためには、 (1) キーワード抽出対象テキスト中の代表キーワード候補出現数 (TF)、 (2) 全てのドキュメント数 (N)、 (3) 代表キーワード
kuromoji.js - Webブラウザ上で分かち書き！ MOONGIFT
- 151 users
- www.moongift.jp
- テクノロジー
- 2014/12/24
テキストから意味を読み取るというのは非常に難しく、そのための専用ソフトウェアが存在するほどです。そしてテキスト解析手法の一つとして知られているのが分かち書きです。日本語であればChasenがよく知られています。 kuromoji.jsはそんな分かち書き処理をJavaScriptで行ってしまおうというソフトウェアになります。KuromojiというApache財団のオープンソース分かち書きエンジンをJavaScriptにポーティングしています。 kuromoji.jsの使い方こちらはデモです。Webブラウザベースで動作しています。nodeでも使えます。適当な文章をリアルタイムに分かち書きできます。 kuromoji.jsは辞書ファイルをAjaxで取得しています。そのためサイズは大きくなりますが、分かち書きの精度はとても高くなります。サーバサイドで辞書を用意したり分かち書きエンジンを用意する
- 形態素解析
- javascript
- 分かち書き
- kuromoji.js
- 文章
- 日本語
- js
- library
- nlp
- apache
Ajax IME ブックマークレット
- 150 users
- chasen.org/~taku
- 暮らし
- 2006/10/17
Ajax IME ブックマークレットを作ってみました．右クリックしてブックマークに登録してみてください． Ajax IME ブックマークにアクセスするだけで現在表示しているページにある textarea と inputbox が Ajax IME 経由で入力可能になるはずです．成功すれば2秒ほどで textarea の色が変わって Ajax IME 入力状態になります．Alt-O で元に戻ります．たいていはうまくいくようですが，まだまだ完璧ではなくて CSS がらみから入力のカーソル位置が激しくずれたり，javascript のイベントがフックできなくて変化なしといったことが頻発します．気長に修正していくつもりですが，みなさんのフィードバックお待ちしております． Mixi の日記投稿や Movable Type の投稿も若干癖がありますが問題なかったです．海外からの日記更新がかなり楽にな
単語と文字の話 - Preferred Networks Research & Development
- 149 users
- tech.preferred.jp
- テクノロジー
- 2011/05/29
4月からPFIで働いてます。海野です。今日は単語の話をします。読み物的な話なので軽く読んでください。テキストデータなどの自然文を機械処理するときには、まず最初に単語に分割するということをよく行います。一般的にはMeCabやChasenといった形態素解析エンジンに投げて行います。形態素と単語の区別という話もあるのですが、ここでは大雑把に「連続した文字列の単位」くらいの意味で話します。検索という文脈ですと形態素インデックスという言葉がありますが、これは検索の最小単位を文字単位ではなくて形態素の単位にするということです。例えば「東京都」は「東京」「都」に分かれるため、「京都」というクエリに対して見つかるのを防ぐなど、精度を上げる効果があります。反面、深刻な検索漏れを引き起こす可能性があるため嫌われることが多いです。こうした漏れは検索に限らず、テキストマイニングなどの文脈でも問題となることが
- nlp
- 形態素解析
- 自然言語処理
- algorithm
- PFI
- テキストマイニング
- 検索
- 研究
- Programming
- text
きまぐれ日記: キーワード抽出: tf-idf の意味づけ
- 130 users
- chasen.org/~taku
- 暮らし
- 2005/11/06
単語の重み付けの古典的な方法に tf-idf があります。文書中の各単語の tf-idf 値計算し、値でソートすると、その文書に特徴的な単語リストを得ることができます。 http://nais.to/~yto/clog/2005-10-12-1.html tf-idf は、単なるヒューリスティックスだと考えられていましたが、最近言語モデルに基づく情報検索手法がさかんに研究されるようになり、tf*idf の解釈が明らかになってきました。言語モデルに基づく手法は、ヒューリスティックスばりばりの手法と同性能にもかかわらず、文書のランキングに理論的で合理的な説明を与えることができます。情報検索は、クエリ q に対し、もっとも適合する文書 d_opt を求めるタスクです。つまり、q が与えられたとき、文書 d が出現する確率 p(d|q) の最大化問題と解釈できます。 d_opt = argmax
- tf-idf
- nlp
- 自然言語処理
- tfidf
- algorithm
- search
- 検索
- 研究
- 数学
- programming
形態素解析の茶筅
- 129 users
- chasen-legacy.osdn.jp
- テクノロジー
- 2007/04/11
ChaSen -- 形態素解析器はじめに形態素解析器とは、入力文を単語単位に分割し品詞を付与するツールである。新着情報 2011-11-16 (wed) See JPCERT Report. 茶筌の配布ダウンロードあらかじめ iconvと Darts-0.31のインストールが必要です。 chasen-2.3.3 辞書は別配布になっています。 ipadic-2.7.0 日本語辞書 UniDic 日本語辞書 NAIST-Japanese-dic 日本語辞書（奈良先端大より公開予定） NAIST-Chinese-dic 中国語語辞書（奈良先端大より公開予定）著作権および仕様条件について茶筌システムは，広く自然言語処理研究に資するため無償のソフトウェアとして開発されたものである．茶筌の著作権は，奈良先端科学技術大学院大学情報科学研究科自然言語処理学講座(松本研究室)が保持する．本ソフ
- 形態素解析
- chasen
- 自然言語処理
- 言語処理
- 日本語
- nlp
- tool
- ツール
- japanese
- 卒論