タグ

ゲ・言語処理に関するtk18のブックマーク (26)

  • Levenshtein distance of two strings in Perl.

  • レーベンシュタイン距離で文字列の類似度を高速に取得する

    はじめに文字列の類似度について考えます。具体的には、レーベンシュタイン距離を使用して文字列の類似度を測定します。ただし、レーベンシュタイン距離では、速度が遅いため、高速化します。高速化に伴ってレーベンシュタイン距離とは別物になってしまいますが、類似度としての役割は果たせます。 最終的には、文字列類似度としてレーベンシュタイン距離ではなくn-gramを使用する方法を採用しました。レーベンシュタイン距離では、高速化しても遅すぎるのとn-gramの類似度が使用目的に合致していたため、採用しました。 n-gramで文字列の類似度を測定する※ウェブページで使用したかったため、使用言語はJavaScriptです レーベンシュタイン距離の概要としては、文字列Aから文字列Bへ変更するのに、挿入・削除・置換を何回行えば変更できるかの問題を解くアルゴリズムです。 オーダーは、O(N*M)で正直遅いです。ただ、

    レーベンシュタイン距離で文字列の類似度を高速に取得する
  • p1atdev/open2ch · Datasets at Hugging Face

    Not-For-All-Audiences This repository has been marked as containing sensitive content and may contain potentially harmful and sensitive information. View dataset card

    p1atdev/open2ch · Datasets at Hugging Face
  • Inaba Lab. - 公開データ / Dataset

  • 青空文庫のテキストから作成したコーパスを Hugging Face で公開しました - Qiita

    globis-university/aozorabunko-clean 青空文庫に含まれる注記を処理し、生のテキストのみを取り出したものです。 手法で詳しく述べますが、大まかな処理としては以下の通りです。 文が重複するデータの除外 ヘッダおよびフッタの削除 ルビの削除 外字の Unicode 文字への変換 内容に影響しない注記の削除 利用例 >>> from datasets import load_dataset >>> ds = load_dataset('globis-university/aozorabunko-clean') >>> ds DatasetDict({ train: Dataset({ features: ['text', 'footnote', 'meta'], num_rows: 16951 }) }) >>> ds = ds.filter(lambda ro

    青空文庫のテキストから作成したコーパスを Hugging Face で公開しました - Qiita
  • 青空文庫コーパス利用上の注意

  • kuromojiを使ったJavaScriptだけの形態素解析 - Qiita

    はじめに 形態素解析というと、Pythonを使ってmecabというのが鉄板でしょうかね。辞書はneologdで。 でもほかの環境でも形態素解析したい場面があり、今回はJavaScriptでやってみるお話です。使うライブラリはkuromojiのJavaScript版。 ちなみに、mecabもneologdもkuromojiも、更新が止まっています。mecabは、2013/02/18 MeCab 0.996 が最新、neologdは2020/08/20 v0.0.7が最新、kuromojiは2018/11/24が最終更新日です。(2022/5/28時点) 最新の単語に対応していない等の問題が出る可能性がありますので、ご使用の際にはちょっとご注意ください。 作ったもの 動くものを置いておきます。公式のデモとほぼ同じですが、自分で文章を作れるのがほしかった。 ソースはgithubに置いておきます。

    kuromojiを使ったJavaScriptだけの形態素解析 - Qiita
  • GitHub - ids-cv/wrime

    近藤里咲, 寺面杏優, 梶川怜恩, 堀口航輝, 梶原智之, 二宮崇, 早志英朗, 中島悠太, 長原一. テキスト正規化による日語感情分析の性能改善. 人工知能学会第38回全国大会, 2024. 鈴木陽也, 山内洋輝, 梶原智之, 二宮崇, 早志英朗, 中島悠太, 長原一. 書き手の複数投稿を用いた感情分析. 人工知能学会第38回全国大会, 2024. 近藤里咲, 大塚琢生, 梶原智之, 二宮崇, 早志英朗, 中島悠太, 長原一. 大規模言語モデルによる日語感情分析の性能評価. 情報処理学会第86回全国大会, pp.859-860, 2024. Haruya Suzuki, Sora Tarumoto, Tomoyuki Kajiwara, Takashi Ninomiya, Yuta Nakashima, Hajime Nagahara. Emotional Intensity Est

    GitHub - ids-cv/wrime
  • レーベンシュタイン距離 - Wikipedia

    レーベンシュタイン距離(レーベンシュタインきょり、英: Levenshtein distance)は、二つの文字列がどの程度異なっているかを示す距離の一種である。編集距離(へんしゅうきょり、英: edit distance)とも呼ばれる。具体的には、1文字の挿入・削除・置換によって、一方の文字列をもう一方の文字列に変形するのに必要な手順の最小回数として定義される[1]。名称は、1965年にこれを考案したロシアの学者ウラジーミル・レーベンシュタイン (露: Влади́мир Левенште́йн) にちなむ。 レーベンシュタイン距離は、同じ文字数の単語に対する置換編集に使われているハミング距離の一般化であると見なすことが可能である。レーベンシュタイン距離の更なる一般化として、例えば一回の操作で二文字を変換する等の方法が考えられる。 実際的な距離の求め方を例示すれば、「kitten」を「s

  • レーベンシュタイン距離について分かりやすく解説します|Non

    Google検索で、検索ワードを間違えて入力し、Googleから「こちらのワードで代わりに検索しますか?」と言われたことありませんか。 Google検索検索ワードの間違いを自動で修正して、 正しい(と思われる)ワードを返してくれるなんて凄くないですか。 これ、レーベンシュタイン距離を使って実現されています。 この記事では、ビジネスでの応用例も多い、レーベンシュタイン距離について解説していきます。 また、レーベンシュタイン距離はPythonを使えば簡単に実装できます。 後半ではその実装方法もご紹介していきます。 📌レーベンシュタイン距離とは 簡単に言うと、ある文字列Aと別の文字列Bを比較した時に、二つの言葉がどの程度異なっているかを示す尺度です。 もう少し具体的に言うと、文字列Aを文字列Bに変えるために、文字の置換・削除・挿入を何回行う必要があるか?を計算し、その回数がレーベンシュタイン距

    レーベンシュタイン距離について分かりやすく解説します|Non
  • JavaScript

    ねこいりねこ JavaScript テキスト変換 古文にする 反対にする 津軽弁にする 現代文にする へんな字にする 地口を言う カタカナ語にする 曖昧にする 物忘れがひどくなる ありえなくする つっこむ ヤバくする 候文にする 漢字を分解または結合する 物理シミュレーション ものかき ホロスコープ 星系シミュレータ 潮汐シミュレータ 電気回路 軌道エレベーターシミュレーター 動く分子模型 生態系シミュレータ スペースコロニー つちいじり ラグランジュポイント Stable Fluids 弾道計算 なにかをとばす 三体問題 WebGL みずあそび いろみず 立体星座図 地球儀 水まんじゅうシミュレータ チョコミントアイス 体シミュレーション 水たまり ラーメンの油をまとめる シェーダーデモ もち しずく グレイスコットモデル バリウム検査 機械学習 ひらがなにする 詩人AI 古文にするA

  • 記者はもう要らない?データから記事を自動作成、米報道の最前線

    米ワシントンD.C.(Washington D.C.)にあるコンテンツ会社オートメーテッド・インサイツ(Automated Insights)で、自動生成プログラム作成した記事コンテンツを表示させたコンピューター画面(2012年7月9日撮影)。(c)AFP/Jim Watson 【7月13日 AFP】米ジャーナリズム界にさっそうと現れたその「新人記者」は、コーヒーブレークも取らず、猛烈なスピードでひたすら記事を量産するが、福利厚生は適用されない。 その正体は、コンピューター・アルゴリズム。企業の業績報告書やスポーツの試合結果といった膨大な量の生データから、必要な情報だけを抽出し、文章として読める形に整えるのだ。米国の新聞紙面やニュースウェブサイトで今、こうしたアルゴリズムが生み出す記事がじわじわと数を増している。 「基的で定型の記事ならば、何にでも使える」と、メディア関連リサーチ会社アウ

    記者はもう要らない?データから記事を自動作成、米報道の最前線
  • 入門 自然言語処理を禁書にすべき10の理由 | TRIVIAL TECHNOLOGIES on CLOUD

    みんなのIoT/みんなのPythonの著者。二子玉近く160平米の庭付き一戸建てに嫁/息子/娘/わんこと暮らしてます。月間1000万PV/150万UUのWebサービス運営中。 免責事項 プライバシーポリシー 「入門 自然言語処理」はヤバい書籍なので禁書にすべきだ。 タイトルは釣りじゃない。その理由を10個挙げる。 自然言語処理のかなり基的なことからそこそこ高度なことについて解説されてあり,自然言語処理について理解が深まり過ぎる ボリュームがあるのに書き方が平易でついつい読みふけってしまう 演習問題があり,自分の理解度を確かめられたりするのもケシカラン 原著は欧米語のための言語処理について書かれた書籍なのに,日語の形態素解析などについても解説してあって我慢できない 必要ライブラリのインストールなど環境構築に時間が取られそうでヤバい 書籍の応用でBotとか人工無能とか作ったらどうかな−,と

  • asahi.com:コピペしたリポート、ばれちゃうぞ 検出ソフト開発 - 暮らし

    tk18
    tk18 2008/05/26
    私のWeb上に公開しているレポートがコピペされ、それが見つかって後輩がおしおきされたそうです。まぁ、本人にとって力を付ける機会を失ったんだから、おしおきなしでも本人は気づかぬまま損しているわけですが。
  • グーグル先生を超える良回答連発、Powersetを使ってみた − @IT

    2008/05/15 インターネットの検索でエポックメーキングな出来事は2度しか起こっていない。1994年にジェリー・ヤン氏らが立ち上げたヤフーがインターネットに検索をもたらしたときと、1998年にラリー・ペイジ氏らがグーグルを立ち上げ、Webページの重要度を示す「PageRank」という概念を導入したときだ。検索連動広告の発明もビジネス的には大きなステップだったが、使い勝手の向上というユーザー視点での転回点は2つだけだ。いま、ベンチャー企業の米Powersetが注目を集め、3つ目のイノベーションを起こすかどうかが注目されている。 ネット検索の歴史:数から順位への転換 Powersetが解決しようとしている問題を明確にするために、インターネットの検索エンジンの歴史を少しだけ振り返ってみよう。 グーグルが登場する以前、各検索サイトは、自分たちがいかに多くのWebページをクロールし、検索に対し

  • 日本語形態素解析 - Japanese Morphological Analyzer

    Visited: 5294 アルゴリズムによる日形態素解析(Japanese Morphological Analyzer by Algorithm) このプログラムは、テスト・研究用の短いプログラムで、辞書を使わずにアルゴリズムのみで解析しているので、正確な解析はできません。語頭・語末を漢字・カタカナ・平仮名の区別を頼りに解析しているので、平仮名ばかりの文に対応できません。言語解析の困難さがこのプログラムからもお分かりになるでしょう。 正しく解析するには、人間が持っている知識、すなわち日語の規則、辞書、実世界における知識、推論などが必要です。その知識とは膨大な量のものですが、まずは部分的にも妥当な規則、辞書を作ってみることが大切でしょう。アルゴリズムだけからなるこのプログラムとは異なり、今研究中の規則や辞書の構成は言語学的にも妥当と思えるかどうか、という観点から研究しています

  • きまぐれ日記

    2010年04月21日 MeCabがiPhone,OSXに載っていると言うのは止めようと思う iPhoneのSDKの条項に変更が加わり、Flashのクロスコンパイルを含む 純正開発ツール以外で作成されたバイナリの配布が禁止となるようです。 世間でも散々言われていますが、この変更は正直とても残念です。 Apple的には「製品のクオリティーが保てないから」という理由だそうですが、 WindowsiTunesが意味もなくQuickTime入れたり、Windows非標準のUIを 使いまくっていて、お世辞にもクオリティーが高いとは言えないのを棚にあげて、 クオリティー云々と言い訳できるのでしょうか。アプリなんて所詮 玉石混淆。決めるのはユーザです。 MeCabは以前GPL/LGPLでした。Appleを含む複数の方からこのライセンスでは 使いにくいと言う指摘をうけ、前職の同僚と協議をしながらBSD/

  • 大規模テキスト処理を支える形態素解析技術(工藤拓氏・Google) - Cafe Babe

    第80回知識ベースシステム研究会を開催したが,二日間で58名の方々に参加して頂き,積極的に議論に加わって頂いた.この場を借りて,参加してくれた方々に感謝したい.大変遅くなった(爆)が,Googleの工藤拓氏による招待講演「大規模テキスト処理を支える形態素解析技術」の概要を,このブログで報告しておきたい.工藤氏の専門分野は統計的自然言語処理と機械学習であるが,日形態素解析エンジンMeCabの開発者であり,他にも自然言語処理関連の有益なツールや,Webベースの日本語入力を可能にするAjax IMEのようなユニークなサービスを提供しているなど,時代をリードする研究開発者の一人である.彼の活動に興味があれば,彼のブログ「きまぐれ日記」は必見だろう. なお,当日は弊社側の不手際で,予定していた工藤氏の重要なデモをおこなうことができなかった.弊社はネットワーク会社であるにもかかわらず,ネットワーク

    大規模テキスト処理を支える形態素解析技術(工藤拓氏・Google) - Cafe Babe
  • TinySegmenter: Javascriptだけで実装されたコンパクトな分かち書きソフトウェア

    TinySegmenterはJavascriptだけ書かれた極めてコンパクトな日語分かち書きソフトウェアです。 わずか25kバイトのソースコードで、日語の新聞記事であれば文字単位で95%程度の精度で分かち書きが行えます。 Yahoo!形態素解析のように サーバーサイドで解析するのではなく、全てクライアントサイドで解析を行うため、セキュリティの 観点から見ても安全です。分かち書きの単位はMeCab + ipadicと互換性があります。 デモ 日語の文章を入力し、解析ボタンをクリックしてください。 ダウンロード TinySegmenterはフリーソフトウェアです. 修正BSDライセンスに従ってソフトウェアを使用,再配布することができます. Download TinySegmenter version 0.2 使い方 <script type="text/javascript" src

  • 圧縮新聞

    圧縮新聞はその日の最新ニュースをマルコフ連鎖でまとめて圧縮したものです。 ざっと眺めるだけでその日起こった事件が何となくわかる可能性がありますが保証はしません。 リロードするたび文章は変わります。 Twitter版もできました。 インタビュー特集や、映画『虹色デイズ』に出演する佐野玲於・中川大志・高杉真宙・横浜流星の座談会なども掲載。 詳しい観測が必要だと皮肉った。 長期間にわたり血糖値がコントロールできない状態が続くと、毛細血管がダメージを受けます。やがて目(網膜)や腎臓の毛細血管に障害が起き、網膜症や腎臓病などの合併症を発症することが理想だ。