タグ

nlpに関するkat0usiのブックマーク (108)

  • 日本語の単語を適切な位置で区切って読みやすく改行してくれる軽量でオープンソースなライブラリ「BudouX」の機能&採用例&デモはこんな感じ、Chrome 119に実装予定で簡単に利用できる見込み

    語のページをブラウザで見ているとおかしな位置で改行されることが多いのですが、単語と単語の間にスペースを入れる英語などと異なり、日語では分かち書きがされていないのが原因。単語の途中で文章が折り返されてしまう原因になっています。BudouX機械学習モデルを利用して容量を抑えつつ、サードパーティーのAPIやライブラリに依存せずに分かち書きを行ってくれるオープンソースライブラリなので、読みやすい改行が実現できます。 Google Developers Japan: BudouX: 読みやすい改行のための軽量な分かち書き器 https://developers-jp.googleblog.com/2023/09/budoux-adobe.html BudouXの使用イメージは下図の通り。従来は画面幅によっては「最先端」や「テクノロジー」などの単語の途中で改行が行われてしまう事がありましたが、

    日本語の単語を適切な位置で区切って読みやすく改行してくれる軽量でオープンソースなライブラリ「BudouX」の機能&採用例&デモはこんな感じ、Chrome 119に実装予定で簡単に利用できる見込み
    kat0usi
    kat0usi 2023/10/08
  • [CEDEC+KYUSHU]雑談もできる。「NLPアドベンチャー」が解決したコマンド入力式アドベンチャーゲームの宿題

    [CEDEC+KYUSHU]雑談もできる。「NLPアドベンチャー」が解決したコマンド入力式アドベンチャーゲームの宿題 ライター:箭進一 2022年11月12日に九州産業大学で開催された,ゲーム開発者向けカンファレンス「CEDEC+KYUSHU 2022」で,「自然言語処理技術による新世代コマンド入力式アドベンチャーゲームの制作手法」と題した講演が行われた。コマンド入力式アドベンチャーゲームに,最新の技術を取り入れて長年の“宿題”を解決するというもので,スクウェア・エニックスのAIAIリサーチャーである森 友亮氏が,その手法を解説した。 スクウェア・エニックスのAIAIリサーチャーである森 友亮氏 コマンド入力式の“宿題”が長年を経て解決 森氏がデモンストレーションを行った「NLPアドベンチャー」は,コマンド入力式アドベンチャーゲームだ。プレイヤーは,相棒の「ヤス」に対し,行動指示

    [CEDEC+KYUSHU]雑談もできる。「NLPアドベンチャー」が解決したコマンド入力式アドベンチャーゲームの宿題
  • 単語の挿入と削除を用いた新時代の文生成手法が登場

    3つの要点 ✔️単語の挿入と削除を用いた新たな文生成手法を提案 ✔️従来の手法に比べて高速な計算が可能 ✔️機械翻訳タスクで性能が向上 文生成は自然言語処理において盛んに研究されている分野の一つです。文生成を用いた自然言語処理技術の代表的な応用先として、機械翻訳やチャットボットなどが挙げられます。こうした文生成には言語モデルと呼ばれる技術が用いられており、ニューラルネットワークを用いた手法であればLSTMやTransformerなどで前から順番に一単語ずつ生成していく方法が一般的です。 今回ご紹介する論文では、こうした従来の「一単語ずつ生成する」方法とは異なるアプローチで文生成を行う手法を提案しています。提案手法では一度にいくつかの単語をまとめて生成し、それを元に単語の削除や挿入といった編集操作を繰り返すことで目的の文を生成します。 従来の手法に比べて一文を出力するためにかかる計算回数が少

    kat0usi
    kat0usi 2019/12/14
  • 「赤の他人」の対義語は「白い恋人」 これを自動生成したい物語 - Qiita

    背景 「造語対義語」がちょっと面白いと思ったので、Word2Vecを応用して機械に作らせてみよう!という試み。 やりたいことは、以下のようなギャグ対義語を自動生成すること。 「赤の他人」⇔「白い恋人」 「ウサギは寂しいと死ぬ」⇔「ゴリラは孤独を背負い生き抜く」 「生きろそなたは美しい」⇔ 「死ねブス」 「冷やし中華始めました」⇔ 「おでんはもう辞めました」 「コアラのマーチ」 ⇔ 「ゴリラのレクイエム」 「やせ我慢」 ⇔ 「デブ大暴れ」 「生理的に無理」 ⇔ 「理論上は可能」 「ゲスの極み乙女」 ⇔ 「ほんのりピュア親父」 「週刊少年ジャンプ」⇔「月刊老人スクワット」 「お母さんと一緒」 ⇔ 「お父さんは別居」 「そんなんじゃ社会に出てから通用しないぞ」 ⇔ 「それだけの力があれば幼稚園では無敵だろう」 果たしてWord2Vecを活用して、このようなユーモアを生み出せるのか!? 投稿の内

    「赤の他人」の対義語は「白い恋人」 これを自動生成したい物語 - Qiita
    kat0usi
    kat0usi 2018/05/07
  • けろはりま on Twitter: "踊る人形式で解けそう あとでやってみよ♪ https://t.co/CeK6jJaNkW"

    踊る人形式で解けそう あとでやってみよ♪ https://t.co/CeK6jJaNkW

    けろはりま on Twitter: "踊る人形式で解けそう あとでやってみよ♪ https://t.co/CeK6jJaNkW"
    kat0usi
    kat0usi 2018/01/13
  • 「シーマン人工知能研究所」の斎藤由多加さんにインタビュー。『シーマン』が次世代会話エンジンのヒントになる!?

    「シーマン人工知能研究所」の斎藤由多加さんにインタビュー。『シーマン』が次世代会話エンジンのヒントになる!?2017.07.20 18:5510,335 ヤマダユウス型 1998年に発売された家庭用ゲーム機、ドリームキャストの味を決定づけた名作ソフト『シーマン ~禁断のペット~』。その開発者として知られるゲームクリエイターの斎藤由多加さんが、2017年6月に「シーマン人工知能研究所」なるサイトを立ち上げました。 「シーマンの続編のためのプロジェクトが始まったのか!?」とも思える字面ですが、サイトの説明によると、AIが用いる会話エンジンについての研究を目的としているとのこと。『シーマン』ではマイクを使って妙ちきりんな人面魚とユル~く対話したものですが、その経験がAIの会話エンジンにも活かせるのではないか?と仮説を立てたそうです。 斎藤さんがイメージする会話エンジンとはどういうものなのか、また

    「シーマン人工知能研究所」の斎藤由多加さんにインタビュー。『シーマン』が次世代会話エンジンのヒントになる!?
    kat0usi
    kat0usi 2017/09/10
    「食べたらぶっ殺す」を1ワードとしてこれを「食べる」の活用形だと定義したんです。 現在形や未来形を行き来しながら「食べたかったなー」とか「食べてないもん」とか、そういった活用形が700~800くらいあります
  • ニューラルかな漢字変換 - Qiita

    3行まとめ Recurrent Neural Networkによるかな漢字変換をTensorFlowを使って実装しました。 既存手法のN-gramと比べて高い精度(文正解率2.7ポイント向上・予測変換3.8ポイント向上)を実現しました。 RNNの特性により離れた単語の共起関係と低頻度語の扱いが改善されました。 かな漢字変換とN-gramモデルの限界 パソコンやスマートフォンで日語を入力するためのかな漢字変換には、同音異義語や単語区切りに曖昧さがあります。この問題に対処するため、現在は大規模な訓練データに基づく統計的言語モデルが主流になりました。その中でも代表的な単語のN-gramモデル1では、連続する単語列の頻度を使って言語モデルを構成し、変換候補の確率が高いほど順位が高いと考えます。 しかし、N-gramモデルには離れた単語の共起関係を考慮できないという問題点(マルコフ性)と、低頻度語

    ニューラルかな漢字変換 - Qiita
    kat0usi
    kat0usi 2016/12/04
  • [O] MeCab 用の新語辞書 mecab-ipadic-neologd を公開しました

    MeCab 用の新語辞書 mecab-ipadic-neologd を公開しました Tweet [NLP] 日語の文書を機械的に処理しようと思った時に、ほとんどの人が MeCabとIPADIC(IPA辞書)の両方、または、どちらかを使うことになります。 IPADICはとてもよく出来ていますが、更新されないまま年月が過ぎているので、例えば2015年3月上旬に急に流行ったような言葉は収録していません。そのため、今日生まれたような新しい文書(例、Apple Watch発売)を解析する時に困ります。困らない人もいますけど、僕は困ります。 その課題に対処するために、日全国津々浦々、自然言語処理に関わる全ての人は独自にMeCabの新語辞書を作って対応しているわけです。その際に元データとして使われることが多いのは Wikipedia語版やはてなキーワードなどです。 困ったことに、新語辞書を生成

    kat0usi
    kat0usi 2015/03/14
  • start [NTCIR-10 RITE2]

    RITE-2 is an evaluation-based workshop aiming to recognize entailment, paraphrase, and contradiction between sentences, which is a common problem shared widely among researchers of natural language processing and information access. By evaluating participating systems using large scale test collections of Japanese and Chinese (simplified and traditional), we expect to obtain new knowledge, promote

    kat0usi
    kat0usi 2012/09/27
  • https://jp.techcrunch.com/2012/06/20/20120619viralheat-sentiment-api/

    https://jp.techcrunch.com/2012/06/20/20120619viralheat-sentiment-api/
    kat0usi
    kat0usi 2012/06/20
  • テキストマイニング技術の活用に向けて読んでおきたい12のプレゼン資料 - コーパスいぢり 〜langstatの研究日誌〜

    「遊び」をクリエイトするAI デスピサロを相手に、効くはずのないザラキを唱えまくるクリフトを見ながら、AIというのはなんてアホなのだろうと思った。多分、それが、僕が初めてAIに出会った瞬間だったと思うのだけど、時は過ぎ、現代では生成AIを中心とした「かしこいAI」たちが世に溢れていて、…

    テキストマイニング技術の活用に向けて読んでおきたい12のプレゼン資料 - コーパスいぢり 〜langstatの研究日誌〜
  • 大規模データ時代に求められる自然言語処理

    1. 講演 2012/2/2 @ 東北北⼤大学  産学連携講義:先端技術の基礎と実践 ⼤大規模データ時代に求められる ⾃自然⾔言語処理理 株式会社Preferred Infrastructure 岡野原  ⼤大輔 hillbig@preferred.jp 今回の発表内容は個⼈人の意⾒見見であり、 会社の意⾒見見ではありません 2. ⾃自⼰己紹介 l  名前:岡野原  ⼤大輔 l  経歴: l  福島県いわき市⽣生まれ、磐城⾼高校(ラグビー部) l  東京⼤大学理理科⼀一類→同情報理理⼯工学研究科コンピュータ科学博⼠士課程 2010年年3⽉月終了了、情報理理⼯工学博⼠士(その間未踏2、ユース1) l  株式会社プリファードインフラストラクチャー 2006年年創業 l  研究開発チームのリーダー&戦略略&企画&開発&雑⽤用などいろいろ l  専⾨門分野は統計的⾃自然⾔言語処理

    大規模データ時代に求められる自然言語処理
    kat0usi
    kat0usi 2012/02/14
  • Java製形態素解析器「Kuromoji」を試してみる

    概要 Javaの比較的新しい形態素解析器、Kuromoji。 lucene-gosenやGomokuのように辞書内包で、jarを落とせばその場で利用でき、Unidicに対応していて、ソースがLuceneのtrunkにコミットされているという、何かと気になる特徴の持ち主。 複数のモードを持っているようで、Searchモードを使うと「日経済新聞」を「日 | 経済 | 新聞」のように検索で利用しやすい形にばらして解析してくれたり、Extendedモードを使うと未知語をuni-gramにしてくれたりもするらしい。 今日はそんなKuromojiさんの導入から簡易な使い方までをさらっと追いかけてみた。 導入 まずは下記ページからダウンロード。今回はkuromoji-0.7.5.tar.gzを利用。 Downloads - atilika/kuromoji https://github.com/at

    kat0usi
    kat0usi 2012/02/11
  • 日本語入力におけるN文節最長一致とはなんなのか

    Join the official community for Google Workspace administrators In the Google Cloud Community, connect with Googlers and other Google Workspace admins like yourself. Participate in product discussions, check out the Community Articles, and learn tips and tricks that will make your work and life easier. Be the first to know what's happening with Google Workspace. ______________ Learn about more Goo

    日本語入力におけるN文節最長一致とはなんなのか
    kat0usi
    kat0usi 2011/12/12
  • CRFがよくわからなくてお腹が痛くなってしまう人のための30分でわかるCRFのはなし - EchizenBlog-Zwei

    機械学習の3大有名手法といえばSVM、CRF、LDAではないだろうか(と勝手に思っている)。 SVM(Support Vector Machine)については以前記事を書いたので今回はCRF(Conditional Random Fields)について書いてみたい。 機械学習超入門IV 〜SVM(サポートベクターマシン)だって30分で作れちゃう☆〜 - EchizenBlog-Zwei といっても今回はさくっと読んでもらうのを目的にしているので手法の具体的な解説は行わない。具体的な部分は@uchumik氏の資料がとても詳しい。 uchiumi log: 間違ってるかもしれないCRFの説明 また、実装方法については高村(言語処理のための機械学習入門)がとても詳しい。 さて、具体的な解説をしないなら何をするの?ということだが、今回はそもそもCRFとは何かという話をする。過去の経験上この、そも

    CRFがよくわからなくてお腹が痛くなってしまう人のための30分でわかるCRFのはなし - EchizenBlog-Zwei
    kat0usi
    kat0usi 2011/12/07
  • 機械学習超入門III 〜機械学習の基礎、パーセプトロンを30分で作って学ぶ〜 - EchizenBlog-Zwei

    機械学習には大きく分けて「識別関数」「識別モデル」「生成モデル」の3つの種類がある。このなかで識別関数は確率を使わないので初心者が入門するのに最適。 識別関数で有名なのはSVM(Support Vector Machine、サポートベクターマシン)。名前を聞いたことがある人も多いと思う。そこで早速SVMを学ぼうとすると敷居が高くて挫折しがち。 実はSVMは(大雑把に言うと)パーセプトロンという基礎的な識別関数に「マージン最大化」と「カーネル関数」という考え方を導入したもの。なので機械学習入門者は最初にパーセプトロンを学ぶのが良いと思われる。 そこで早速パーセプトロンを作ってみよう!というのが記事の意図するところ。自分で実装できるとモチベーションが維持しやすいので、詳しく理論を学ぶ前にまずは作ってみようという考え。ちなみに実装にはperlを用いた。 参考: これからはじめる人のための機械学

    機械学習超入門III 〜機械学習の基礎、パーセプトロンを30分で作って学ぶ〜 - EchizenBlog-Zwei
    kat0usi
    kat0usi 2011/12/06
  • 統計的機械学習入門

    統計的機械学習入門(under construction) 機械学習歴史ppt pdf 歴史以前 人工知能の時代 実用化の時代 導入ppt pdf 情報の変換過程のモデル化 ベイズ統計の意義 識別モデルと生成モデル 次元の呪い 損失関数, bias, variance, noise データの性質 数学のおさらいppt pdf 線形代数学で役立つ公式 確率分布 情報理論の諸概念 (KL-divergenceなど) 線形回帰と識別ppt pdf 線形回帰 正規方程式 正規化項の導入 線形識別 パーセプトロン カーネル法ppt pdf 線形識別の一般化 カーネルの構築法 最大マージン分類器 ソフトマージンの分類器 SVMによる回帰モデル SVM実装上の工夫 クラスタリングppt pdf 距離の定義 階層型クラスタリング K-means モデル推定ppt pdf 潜在変数のあるモデル EMアル

    kat0usi
    kat0usi 2011/11/30
  • テキストマイニングのための機械学習超入門 一夜目 - あんちべ!

    テキストマイニングに必要なパターン認識と機械学習について学びます。非常に初歩的な話から始めます。対象者は「テキストマイニングに興味があり、用いられる手法の中身を知りたい(けれど高度な数学は厳しい…)」というビジネスマンや学生さんです。数式は出来る限り「使います」。使わないと意味するところは理解できません。ただし、愚直に数式の一行一行を手計算で順を追って解いていきますし、必要な数学知識はその都度説明し、前提知識は求めませんので「数式出てくるの?じゃあついていけないのでは…」という心配は不要です。この記事の特徴は「機械学習の手法をやたら冗長な数式と過剰なまでの例を用いて、くどくどと同じ話を何度も説明する」ことです。 筆者ことあんちべは純文系出身で、数学や統計学、プログラミングは全然学生時代やってこなかった上、業務でも機械学習を使うことなんて皆無、それどころか機械学習なんて言葉は就職してからよう

    テキストマイニングのための機械学習超入門 一夜目 - あんちべ!
    kat0usi
    kat0usi 2011/11/29
  • [I223] Natural Language Processing I

    シラバス 日語 English 講義資料 講義で使用した資料を公開します。 個人の学習に使う範囲において、自由に利用していただいて構いません。 但し、講義資料には誤りが含まれる可能性がありますので、 御利用はあくまで自己責任でお願いします。 また、誤りの指摘を歓迎いたします。 下記の電子メイルアドレスに御連絡下さい。 講義資料(2006年度, PDFファイル) 第1回 概要 第2回 オートマトンと言語(正規文法、文脈自由文法) 第3回 文法1 (文脈自由文法と句構造文法) 第4回 文法2 (構文解析) 前半 後半 補足資料 第5回 文法3 (素性構造と単一化) 第6回 文法4 (格文法と格フレーム) 第7回 形態素解析1 (日語の単語分割) 補足資料 第8回 形態素解析2 (英語の品詞のタギング) 第9回 辞書と概念階層 第10回 言語の統計モデル 第11回 テキスト処理1 (コーパス

    kat0usi
    kat0usi 2011/09/19
  • 日本語かな漢字変換における識別モデルの適用とその考察について - Preferred Networks Research & Development

    豊橋で豊橋カレーうどんをべてきました。徳永です。 金曜日から大変な地震が発生しています。被災地の皆様のご無事と、救助に向かわれた方のご無事をお祈りいたします。 さて、今回は、3/7〜3/11の間、豊橋技科大で行われた2011年の言語処理学会年次大会の参加報告をしたいと思います。私はC4セッション(日本語入力における言語処理(1))で、「C4-6 日語かな漢字変換における識別モデルの適用とその考察」というタイトルで発表してきました。 予稿集のPDFの方は、こちらにアップロードしておきました。→日語かな漢字変換における識別モデルの適用とその考察 発表内容に関しては、予稿のPDFと発表資料の方を見ていただければと思いますが、ここではもう少しぶっちゃけて、発表の狙いなどを書いてみたいと思います。 この発表の貢献を簡単に述べると、識別モデルを使うと変換精度が上がることが実験的に確かめられたよ、

    日本語かな漢字変換における識別モデルの適用とその考察について - Preferred Networks Research & Development
    kat0usi
    kat0usi 2011/03/23