[B! ゲ・言語処理] tk18のブックマーク

Levenshtein distance of two strings in Perl.

tk18 2025/02/22

リンク

レーベンシュタイン距離で文字列の類似度を高速に取得する

はじめに文字列の類似度について考えます。具体的には、レーベンシュタイン距離を使用して文字列の類似度を測定します。ただし、レーベンシュタイン距離では、速度が遅いため、高速化します。高速化に伴ってレーベンシュタイン距離とは別物になってしまいますが、類似度としての役割は果たせます。最終的には、文字列類似度としてレーベンシュタイン距離ではなくn-gramを使用する方法を採用しました。レーベンシュタイン距離では、高速化しても遅すぎるのとn-gramの類似度が使用目的に合致していたため、採用しました。 n-gramで文字列の類似度を測定する※ウェブページで使用したかったため、使用言語はJavaScriptですレーベンシュタイン距離の概要としては、文字列Aから文字列Bへ変更するのに、挿入・削除・置換を何回行えば変更できるかの問題を解くアルゴリズムです。オーダーは、O(N*M)で正直遅いです。ただ、

tk18 2024/11/13

ゲ・言語処理

リンク

p1atdev/open2ch · Datasets at Hugging Face

Not-For-All-Audiences This repository has been marked as containing sensitive content and may contain potentially harmful and sensitive information. View dataset card

tk18 2024/10/12

ゲ・言語処理

リンク

Inaba Lab. - 公開データ / Dataset

tk18 2024/10/12

ゲ・言語処理

リンク

青空文庫のテキストから作成したコーパスを Hugging Face で公開しました - Qiita

globis-university/aozorabunko-clean 青空文庫に含まれる注記を処理し、生のテキストのみを取り出したものです。手法で詳しく述べますが、大まかな処理としては以下の通りです。本文が重複するデータの除外ヘッダおよびフッタの削除ルビの削除外字の Unicode 文字への変換内容に影響しない注記の削除利用例 >>> from datasets import load_dataset >>> ds = load_dataset('globis-university/aozorabunko-clean') >>> ds DatasetDict({ train: Dataset({ features: ['text', 'footnote', 'meta'], num_rows: 16951 }) }) >>> ds = ds.filter(lambda ro

tk18 2024/09/23

ゲ・言語処理

リンク

青空文庫コーパス利用上の注意

tk18 2024/09/14

ゲ・言語処理

リンク

kuromojiを使ったJavaScriptだけの形態素解析 - Qiita

はじめに形態素解析というと、Pythonを使ってmecabというのが鉄板でしょうかね。辞書はneologdで。でもほかの環境でも形態素解析したい場面があり、今回はJavaScriptでやってみるお話です。使うライブラリはkuromojiのJavaScript版。ちなみに、mecabもneologdもkuromojiも、更新が止まっています。mecabは、2013/02/18 MeCab 0.996 が最新、neologdは2020/08/20 v0.0.7が最新、kuromojiは2018/11/24が最終更新日です。（2022/5/28時点）最新の単語に対応していない等の問題が出る可能性がありますので、ご使用の際にはちょっとご注意ください。作ったもの動くものを置いておきます。公式のデモとほぼ同じですが、自分で文章を作れるのがほしかった。ソースはgithubに置いておきます。

tk18 2024/06/07

リンク

GitHub - ids-cv/wrime

近藤里咲, 寺面杏優, 梶川怜恩, 堀口航輝, 梶原智之, 二宮崇, 早志英朗, 中島悠太, 長原一. テキスト正規化による日本語感情分析の性能改善. 人工知能学会第38回全国大会, 2024. 鈴木陽也, 山内洋輝, 梶原智之, 二宮崇, 早志英朗, 中島悠太, 長原一. 書き手の複数投稿を用いた感情分析. 人工知能学会第38回全国大会, 2024. 近藤里咲, 大塚琢生, 梶原智之, 二宮崇, 早志英朗, 中島悠太, 長原一. 大規模言語モデルによる日本語感情分析の性能評価. 情報処理学会第86回全国大会, pp.859-860, 2024. Haruya Suzuki, Sora Tarumoto, Tomoyuki Kajiwara, Takashi Ninomiya, Yuta Nakashima, Hajime Nagahara. Emotional Intensity Est

tk18 2024/06/01

ゲ・言語処理

リンク

レーベンシュタイン距離 - Wikipedia

レーベンシュタイン距離（レーベンシュタインきょり、英: Levenshtein distance）は、二つの文字列がどの程度異なっているかを示す距離の一種である。編集距離（へんしゅうきょり、英: edit distance）とも呼ばれる。具体的には、1文字の挿入・削除・置換によって、一方の文字列をもう一方の文字列に変形するのに必要な手順の最小回数として定義される[1]。名称は、1965年にこれを考案したロシアの学者ウラジーミル・レーベンシュタイン (露: Влади́мир Левенште́йн) にちなむ。レーベンシュタイン距離は、同じ文字数の単語に対する置換編集に使われているハミング距離の一般化であると見なすことが可能である。レーベンシュタイン距離の更なる一般化として、例えば一回の操作で二文字を変換する等の方法が考えられる。実際的な距離の求め方を例示すれば、「kitten」を「s

tk18 2024/03/17

ゲ・言語処理

リンク

レーベンシュタイン距離について分かりやすく解説します｜Non

Google検索で、検索ワードを間違えて入力し、Googleから「こちらのワードで代わりに検索しますか？」と言われたことありませんか。 Google検索検索ワードの間違いを自動で修正して、正しい（と思われる）ワードを返してくれるなんて凄くないですか。これ、レーベンシュタイン距離を使って実現されています。この記事では、ビジネスでの応用例も多い、レーベンシュタイン距離について解説していきます。また、レーベンシュタイン距離はPythonを使えば簡単に実装できます。後半ではその実装方法もご紹介していきます。 📌レーベンシュタイン距離とは簡単に言うと、ある文字列Aと別の文字列Bを比較した時に、二つの言葉がどの程度異なっているかを示す尺度です。もう少し具体的に言うと、文字列Aを文字列Bに変えるために、文字の置換・削除・挿入を何回行う必要があるか？を計算し、その回数がレーベンシュタイン距

tk18 2024/03/17

ゲ・言語処理

リンク

JavaScript

ねこいりねこ JavaScript テキスト変換古文にする反対にする津軽弁にする現代文にするへんな字にする地口を言うカタカナ語にする曖昧にする物忘れがひどくなるありえなくするつっこむヤバくする候文にする漢字を分解または結合する物理シミュレーションものかきホロスコープ星系シミュレータ潮汐シミュレータ電気回路軌道エレベーターシミュレーター動く分子模型生態系シミュレータスペースコロニーつちいじりラグランジュポイント Stable Fluids 弾道計算なにかをとばす三体問題 WebGL みずあそびいろみず立体星座図地球儀水まんじゅうシミュレータチョコミントアイス猫体シミュレーション水たまりラーメンの油をまとめるシェーダーデモもちしずくグレイスコットモデルバリウム検査機械学習ひらがなにする詩人AI 古文にするA

tk18 2020/06/02

リンク

記者はもう要らない？データから記事を自動作成、米報道の最前線

米ワシントンD.C.（Washington D.C.）にあるコンテンツ会社オートメーテッド・インサイツ（Automated Insights）で、自動生成プログラム作成した記事コンテンツを表示させたコンピューター画面（2012年7月9日撮影）。(c)AFP/Jim Watson 【7月13日 AFP】米ジャーナリズム界にさっそうと現れたその「新人記者」は、コーヒーブレークも取らず、猛烈なスピードでひたすら記事を量産するが、福利厚生は適用されない。その正体は、コンピューター・アルゴリズム。企業の業績報告書やスポーツの試合結果といった膨大な量の生データから、必要な情報だけを抽出し、文章として読める形に整えるのだ。米国の新聞紙面やニュースウェブサイトで今、こうしたアルゴリズムが生み出す記事がじわじわと数を増している。「基本的で定型の記事ならば、何にでも使える」と、メディア関連リサーチ会社アウ

tk18 2012/07/17

リンク

入門自然言語処理を禁書にすべき10の理由 | TRIVIAL TECHNOLOGIES on CLOUD

みんなのIoT/みんなのPythonの著者。二子玉近く160平米の庭付き一戸建てに嫁/息子/娘/わんこと暮らしてます。月間1000万PV/150万UUのWebサービス運営中。免責事項プライバシーポリシー「入門自然言語処理」はヤバい書籍なので禁書にすべきだ。タイトルは釣りじゃない。その理由を10個挙げる。自然言語処理のかなり基本的なことからそこそこ高度なことについて解説されてあり，自然言語処理について理解が深まり過ぎるボリュームがあるのに書き方が平易でついつい読みふけってしまう演習問題があり，自分の理解度を確かめられたりするのもケシカラン原著は欧米語のための言語処理について書かれた書籍なのに，日本語の形態素解析などについても解説してあって我慢できない必要ライブラリのインストールなど環境構築に時間が取られそうでヤバい書籍の応用でBotとか人工無能とか作ったらどうかな−，と

tk18 2010/11/17

リンク

asahi.com：コピペしたリポート、ばれちゃうぞ　検出ソフト開発 - 暮らし

tk18 2008/05/26

私のWeb上に公開しているレポートがコピペされ、それが見つかって後輩がおしおきされたそうです。まぁ、本人にとって力を付ける機会を失ったんだから、おしおきなしでも本人は気づかぬまま損しているわけですが。

リンク

グーグル先生を超える良回答連発、Powersetを使ってみた − ＠IT

2008/05/15 インターネットの検索でエポックメーキングな出来事は2度しか起こっていない。1994年にジェリー・ヤン氏らが立ち上げたヤフーがインターネットに検索をもたらしたときと、1998年にラリー・ペイジ氏らがグーグルを立ち上げ、Webページの重要度を示す「PageRank」という概念を導入したときだ。検索連動広告の発明もビジネス的には大きなステップだったが、使い勝手の向上というユーザー視点での転回点は2つだけだ。いま、ベンチャー企業の米Powersetが注目を集め、3つ目のイノベーションを起こすかどうかが注目されている。ネット検索の歴史：数から順位への転換 Powersetが解決しようとしている問題を明確にするために、インターネットの検索エンジンの歴史を少しだけ振り返ってみよう。グーグルが登場する以前、各検索サイトは、自分たちがいかに多くのWebページをクロールし、検索に対し

tk18 2008/05/16

リンク

日本語形態素解析 - Japanese Morphological Analyzer

Visited: 5294 アルゴリズムによる日本語形態素解析(Japanese Morphological Analyzer by Algorithm) このプログラムは、テスト・研究用の短いプログラムで、辞書を使わずにアルゴリズムのみで解析しているので、正確な解析はできません。語頭・語末を漢字・カタカナ・平仮名の区別を頼りに解析しているので、平仮名ばかりの文に対応できません。言語解析の困難さがこのプログラムからもお分かりになるでしょう。正しく解析するには、人間が持っている知識、すなわち日本語の規則、辞書、実世界における知識、推論などが必要です。その知識とは膨大な量のものですが、まずは部分的にも妥当な規則、辞書を作ってみることが大切でしょう。アルゴリズムだけからなるこのプログラムとは異なり、今研究中の規則や辞書の構成は言語学的にも妥当と思えるかどうか、という観点から研究しています

tk18 2008/05/13

ゲ・言語処理

リンク

きまぐれ日記

2010年04月21日 MeCabがiPhone,OSXに載っていると言うのは止めようと思う iPhoneのSDKの条項に変更が加わり、Flashのクロスコンパイルを含む純正開発ツール以外で作成されたバイナリの配布が禁止となるようです。世間でも散々言われていますが、この変更は正直とても残念です。 Apple的には「製品のクオリティーが保てないから」という理由だそうですが、 Windows版iTunesが意味もなくQuickTime入れたり、Windows非標準のUIを使いまくっていて、お世辞にもクオリティーが高いとは言えないのを棚にあげて、クオリティー云々と言い訳できるのでしょうか。アプリなんて所詮玉石混淆。決めるのはユーザです。 MeCabは以前GPL/LGPLでした。Appleを含む複数の方からこのライセンスでは使いにくいと言う指摘をうけ、前職の同僚と協議をしながらBSD/

tk18 2008/02/15

ゲ・言語処理

リンク

大規模テキスト処理を支える形態素解析技術（工藤拓氏・Google） - Cafe Babe

第80回知識ベースシステム研究会を開催したが，二日間で58名の方々に参加して頂き，積極的に議論に加わって頂いた．この場を借りて，参加してくれた方々に感謝したい．大変遅くなった（爆）が，Googleの工藤拓氏による招待講演「大規模テキスト処理を支える形態素解析技術」の概要を，このブログで報告しておきたい．工藤氏の専門分野は統計的自然言語処理と機械学習であるが，日本語形態素解析エンジンMeCabの開発者であり，他にも自然言語処理関連の有益なツールや，Webベースの日本語入力を可能にするAjax IMEのようなユニークなサービスを提供しているなど，時代をリードする研究開発者の一人である．彼の活動に興味があれば，彼のブログ「きまぐれ日記」は必見だろう．なお，当日は弊社側の不手際で，予定していた工藤氏の重要なデモをおこなうことができなかった．弊社はネットワーク会社であるにもかかわらず，ネットワーク

tk18 2008/02/15

ゲ・言語処理

リンク

TinySegmenter: Javascriptだけで実装されたコンパクトな分かち書きソフトウェア

TinySegmenterはJavascriptだけ書かれた極めてコンパクトな日本語分かち書きソフトウェアです。わずか25kバイトのソースコードで、日本語の新聞記事であれば文字単位で95%程度の精度で分かち書きが行えます。 Yahoo!の形態素解析のようにサーバーサイドで解析するのではなく、全てクライアントサイドで解析を行うため、セキュリティの観点から見ても安全です。分かち書きの単位はMeCab + ipadicと互換性があります。デモ日本語の文章を入力し、解析ボタンをクリックしてください。ダウンロード TinySegmenterはフリーソフトウェアです. 修正BSDライセンスに従って本ソフトウェアを使用,再配布することができます. Download TinySegmenter version 0.2 使い方 <script type="text/javascript" src

tk18 2008/02/08

リンク

圧縮新聞

圧縮新聞はその日の最新ニュースをマルコフ連鎖でまとめて圧縮したものです。ざっと眺めるだけでその日起こった事件が何となくわかる可能性がありますが保証はしません。リロードするたび文章は変わります。 Twitter版もできました。インタビュー特集や、映画『虹色デイズ』に出演する佐野玲於・中川大志・高杉真宙・横浜流星の座談会なども掲載。詳しい観測が必要だと皮肉った。長期間にわたり血糖値がコントロールできない状態が続くと、毛細血管がダメージを受けます。やがて目（網膜）や腎臓の毛細血管に障害が起き、網膜症や腎臓病などの合併症を発症することが理想だ。

tk18 2007/11/26

ゲ・言語処理

リンク

はてなブックマーク

タグ

関連タグで絞り込む (8)

ゲ・言語処理に関するtk18のブックマーク (26)

お知らせ

月間はてなブックマーク数ランキング（2025年4月）

今週のはてなブックマーク数ランキング（2025年4月第4週）

今週のはてなブックマーク数ランキング（2025年4月第3週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス