並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 144件

新着順 人気順

出現確率 英語での検索結果1 - 40 件 / 144件

  • ネイティブと働いて分かった英語コミットメッセージの頻出動詞10つ

    ウッ ここで詰まる事は往々にしてあります. 特に急いでる時の煩わしさは甚だしいです. どうせならそれっぽい英語を使いたいのでOSSや同僚のコミットメージの語彙の出現確率を調べてみましたら、 もちろんfeatureによってコミットメッセージの付け方など数多あるものの、一定の頻出パターンは見い出せたので筆を取りました. (英語勉強しないと..) 方法 github.com/rails/railsのコミットメッセージ内における各動詞の出現確率を求め、 またOSSと仕事でのコミットメッセージの趣向も変わってくる事も勘案するため、 (仕事でDeprecateとか滅多に使わんし) 同僚に聞きつつ10つあげてみた. 以下列挙 (例は実際の同僚やOSS上でのコミットメッセージです.) Add *A to *B AをBに加える

      ネイティブと働いて分かった英語コミットメッセージの頻出動詞10つ
    • 統計の基本事項

      トップページ→研究分野と周辺→システムの評価→ 基本統計量 平均(算術平均)値は、(データ値の総和)÷(データ数)となる。(或るデータの値)-(平均値)を、そのデータの偏差という。偏差の絶対値の大きいデータが多ければ、そのデータ群はばらつきが大きい。データ群のばらつきの大きさを単純に偏差の総和とすると、偏差には正負があるので相殺されてしまう。 そこで、各データの偏差を二乗する(こうすれば必ず正の値になる)。(各データの偏差の二乗の総和)÷(データ数)をそのデータ群の分散と呼び、ばらつきの大きさを表す。また、分散の平方根を標準偏差という。英語では偏差はDeviation、分散はVariance、標準偏差はStandard Deviationとなるので、標準偏差はS.D.と略記される事も多い。 統計の最も基本的な量である基本統計量としては、他に最大値、最小値、範囲(最大値-最小値)、中央値(デ

      • 「ガチャ情報公開義務化」で,韓国ゲーム業界に激震。「実は確率0%」や「確率差8倍」など多様な問題が発覚するも,積極的な対応で信頼回復を目指す

        「ガチャ情報公開義務化」で,韓国ゲーム業界に激震。「実は確率0%」や「確率差8倍」など多様な問題が発覚するも,積極的な対応で信頼回復を目指す ライター:GAMEVU編集部 下記の記事は,GAMEVU(→リンク)に掲載された記事を,許可を得て翻訳したものです。可能な限りオリジナルのまま翻訳することに注力していますが,一部日本の読者の理解を深めるために,注釈を入れたり,本文や画面写真を追加したり変更したりしている箇所もあります。(→元記事) 韓国のゲーム利用者を保護するための「確率型アイテム情報公開義務化制度」が,施行から1か月を迎えた。 韓国政府は,ゲーム産業振興に関する法律第33条第2項及び同法施行令第19条第2項による,確率型アイテム情報公開義務化制度を,2024年3月22日から施行させている。 実は過去にも,このような内容を盛り込んだ法案が発議されたことはあった。以前から,確率型アイテ

          「ガチャ情報公開義務化」で,韓国ゲーム業界に激震。「実は確率0%」や「確率差8倍」など多様な問題が発覚するも,積極的な対応で信頼回復を目指す
        • B'zの歌詞をPythonと機械学習で分析してみた 〜LDA編〜 - 下町データサイエンティストの日常

          1. 本Part概要 前PartではB'zの歌詞を「TF-IDF」を用いた分析を行いました。 本Partではトピックモデルの一つである「LDA」を用いた分析についてお話しします。 pira-nino.hatenablog.com 2. LDAとは 2.1 LDAのイメージ 先に簡単な説明をしてしまいます。 LDAは「たくさんの文書データから単語のグルーピングを行う」モデルです。 このグループ1つ1つを「トピック」と呼びます。 例えば、大量のニュース記事にLDAを適用する例を考えます。 ニュース記事データにLDAを適用した例 LDAでは「各トピック(トピック数は予め指定)における各単語の所属確率」が算出されます。 理論的なことはさておき、文書データから単語をいくつかのグループに自動で分けてくれる手法 との理解で大丈夫です。 よく勘違いされることとして以下の2点を示します。 トピック数(いくつ

            B'zの歌詞をPythonと機械学習で分析してみた 〜LDA編〜 - 下町データサイエンティストの日常
          • 英語を学習できるソーシャルゲームの作り方 - しっきーのブログ

            【】(ページ内リンクです) 要約> 序文> ソーシャルゲームのフォーマット> 「学習」をゲームにするために 無理やり分割する> 学習内容とゲームの機能を結びつける> 誰でも成功(計画→実行→達成)できるようにする> 惰性を組み込む> 学習のインセンティブを作り出す 英語(語学)だからできること> 勝算はあるのか?> フォーマットの拡張と学習ゲームの未来> おしらせ 要約 「英語を学習できるソーシャルゲーム」の作り方を説明しながら、「ゲーム」と「学習」を結びつける方法について書いていく。 基本的な発想は既存のソシャゲの中身を「英語」にすることだが、それが「学習ゲーム」であるためには、ゲーム内のキャラクターのみならず「プレイヤー自身のステータス」を明確に定めなければならない。そのため、学習内容を無理やり分割してデータベースをつくる作業が必要になる。 キャラクターのスキルやクエストの構成を考える

              英語を学習できるソーシャルゲームの作り方 - しっきーのブログ
            • 第3回 ベイジアンフィルタを実装してみよう | gihyo.jp

              さらに詳細な利用方法が知りたい方は、Yahoo!デベロッパーズネットワークのマニュアルを参照してください。 ベイジアンフィルタの実装 ここから本格的にベイジアンフィルタの実装に入っていきます。 その前に、まずは先程のリスト1のコードを利用して入力された文章をわかち書きし、単語の集合を返す関数を作成しnaivebayes.pyとして保存しましょう。こちらも先程のmorphological.pyと同様にutf-8で保存してください。 リスト2 文章の分割をする関数(naivebayes.py) # -*- coding: utf-8 -*- import math import sys #yahoo!形態素解析 import morphological def getwords(doc): words = [s.lower() for s in morphological.split(doc)

                第3回 ベイジアンフィルタを実装してみよう | gihyo.jp
              • Joi Ito Web - JP

                番組ではAIの目覚ましい進化について引き続きお届けしています。そして今回は初めてオリエンタルラジオ中田敦彦さんとの会話をお届けしました。中田さんと話していると、以前番組に出演していただいたキングコングの西野亮廣さんのことを思い出しました。二人は師弟関係にあたるそうですね。 中田さんのyoutube大学では、「学び」に対する意欲を持つ人々に焦点を当てています。これは私が運営するポッドキャストのテーマの1つでもあり、共感する部分が多くありました。 彼の物事に対するアプローチは、私とは真逆のことが多いのですが、よくよく見ると似たようなことをしていたり、共通の興味を持っていたりするのが、面白くて楽しいです。 とても楽しい会話ができました。皆さんも楽しんでいただけることを願っています。 - Joi テクノロジーは面白い! ここからはシナダがお届けして参ります。 正直に言います。シナダの人生において、

                • ChatGPT の仕組みを理解する(前編) - ABEJA Tech Blog

                  こんにちは!株式会社 ABEJA で ABEJA Platform 開発を行っている坂井(@Yagami360)です。世間では ChatGPT などの大規模言語モデル(LLM)による対話型 AI が盛り上がってますね。クオリティーも凄いし AI 業界以外でも盛り上がってると嬉しいですよね。この数年で一段と AI の社会実装が業界以外の人にも目に見える形で進んできたなあと実感しております。 自分は普段業務では ABEJA Platform という AI プロダクトやその周辺プロダクトのバックエンド開発とフロントエンド開発をやっているのですが、AI 業界所属していながら ChatGPT などの LLM 全然追いかけれていない状態になっちゃてて自責の念にかられているので、このブログ執筆という良い機会に ChatGPT の仕組みについて調べてみました。 本記事の対象読者としては、以下のようになりま

                    ChatGPT の仕組みを理解する(前編) - ABEJA Tech Blog
                  • 異空間への埋め込み!Poincare Embeddingsが拓く表現学習の新展開 - ABEJA Tech Blog

                    ABEJAでResearcherしている白川です。 今回ご紹介するのは、Poincaré Embeddings [1]という手法です。その内容に驚愕し、個人的に調べたり実装したり勉強会でお話したりしていたところ、最近運良く自分の実装をredditで取り上げてもらえたので、これを機にその驚愕の内容を共有できればと思います。 正直、自分の中ではまだ煮詰まりきっていない技術なので、現況の共有はしますが、ところどころ私の憶測や展望、期待が入り混じっていることをご容赦ください。 www.reddit.com Poincaré Embeddingsは大雑把に言えばword2vecを異空間で実現する技術で、双曲空間(Hyperbolic Space)という、おなじみのEuclide空間(2点$x,y$の間の距離を$\sqrt{(x_1 - y_1)^2 + (x_2 - y_2)^2 + ... + (

                      異空間への埋め込み!Poincare Embeddingsが拓く表現学習の新展開 - ABEJA Tech Blog
                    • ランキングのつくりかた:Kenn's Clairvoyance

                      遅ればせながら、あけましておめでとうございます。 先週には、ベイエリアの友人たちがやっているEchofonがPostUpに買収されるなど、幸先のよい新年のスタートとなりました。 さて、最近ホットなマーケットといえばソーシャルゲームですが、ゲームといえばリーダーボード。ハイスコアのランキングで友人や見知らぬ人たちと競うのは、ビデオゲームが誕生した1970年代から欠かせない要素でした。 ところが、インターネット経由で100万人規模のプレイヤーがつながるようになってきた現在、その全体をランキングづけするのは、技術的にも大きなチャレンジとなってきました。 今回は、そのリーダーボードのつくりかたについて、ぼくらの作っているソーシャルゲーム・プラットフォームであるPankiaの運用で得られた知見を共有したいと思います。 自分の順位を知る方法 リーダーボードの基本的な考え方はシンプルで、それはつまり「ユ

                        ランキングのつくりかた:Kenn's Clairvoyance
                      • 再帰型ニューラルネットワーク: RNN入門 - Qiita

                        再帰型ニューラルネットワーク(RNN)は自然言語処理の分野で高い成果をあげ、現在最も注目されているアルゴリズムの一つです。しかしながら、その人気が先走りして実際にRNNがどのように動くのか、構築するのかを解説する書籍は限られているように思います。この投稿はその部分にフォーカスを当てて友人のDenny(WildMLブログの著者)と一緒に書きました。 さてRNNベースの言語モデルを解説したいと思います。言語モデルの用途は2つあります。1つ目は文章が実際にどのくらいの確率で現れるのかのスコアリングをすること。このスコアは文法的に、セマンティクス的に正しいかどうかの判断基準となります。このようなモデルは例えば機械翻訳などに使われています。次に2つ目ですが、言語モデルは新たなテキストを生成することができる点 (ちなみに個人的にこちらの方がよりCoolな用途だと思っています)。また、英語ですがAndr

                          再帰型ニューラルネットワーク: RNN入門 - Qiita
                        • Apache Mahoutの使い方:テキスト分類のアルゴリズムを活用する

                          ビッグデータ活用:その分析実装として注目されるMahout 長年蓄積した企業内データや、ソーシャルネットワークサービス、センサ端末から集められる膨大なデータを活用し、企業における利益向上やコスト削減などに活用する動きが活発になってきました。 データの分析手段として最近とみに注目されている技術として「機械学習」があります。大規模データの処理を得意とする大規模分散処理基盤「Apache Hadoop」の強みを生かし、簡単に機械学習を行うためのライブラリが、「Apache Mahout」(以下、Mahout)です。 本稿ではMahoutを用いたデータ分析の例として「文書分類」を取り上げます。マシンを用いて分析実行する際の手順や陥りがちなポイント、チューニング方法の一例を紹介します。 Mahoutとは? MahoutとはApache Software Foundationが公開しているOSSの機械

                            Apache Mahoutの使い方:テキスト分類のアルゴリズムを活用する
                          • 自然言語処理による文書分類の基礎の基礎、トピックモデルを学ぶ - Qiita

                            自然言語においても、最近は生ビールを頼む感覚で「とりあえずディープラーニング」となることが多いです。実際ディープラーニングは高精度を記録できることが多いですが、実はその精度は基礎的なモデルでも記録できたり、あげく負けるようなこともあったりします。 研究機関として名高いDeepMindの発表した論文でも、こうした事態がありました。 文章を読み、理解する機能の獲得に向けて-Machine Comprehensionの研究動向-より また、最近はベースラインとして良く利用されているモデルでも最高精度を達成できるといった論文もありました。このように、ベースラインとして足蹴にされているモデルでも存外隅には置けないのです。 今回は自然言語処理における基本的な手法の一種であるトピックモデルを取り上げてみます。これは文書分類などに使用されるモデルですが、文書分類の際に著者の存在を仮定するなど(オーサートピ

                              自然言語処理による文書分類の基礎の基礎、トピックモデルを学ぶ - Qiita
                            • ナイーブベイズを使って1日で100万件の投稿をジャンル分けした話 - AppBrew Tech Blog

                              こんにちは、AppBrewでアルバイトをしている@Leoです。 自然言語処理の研究室に最近入った大学生で、趣味はKaggleと競技プログラミングです。 AppBrewでは、LIPSの投稿を使ったデータ分析をしています。 今日の記事では、弊社のアプリLIPSにて投稿ジャンルを機械学習を使って自動推定した方法を紹介します。 自然言語処理・確率関係全然わからない!という人でも読みやすい内容になっていると思うので、最後まで読んでいただけると幸いです! LIPSにおけるジャンル 教師データの作成 ナイーブベイズ 単語分割 モデルの実装 分類結果 おわりに LIPSにおけるジャンル 最近、LIPSにジャンル機能が追加されました。 これは投稿されたクチコミにジャンルを設定できる機能です。 適切にジャンルを設定すると、投稿を検索するときにジャンルを使って絞り込めるなどの利点があります。 ジャンルは7種類(

                                ナイーブベイズを使って1日で100万件の投稿をジャンル分けした話 - AppBrew Tech Blog
                              • γ符号、δ符号、ゴロム符号による圧縮効果 - naoyaのはてなダイアリー

                                通常の整数は 32 ビットは 4 バイトの固定長によるバイナリ符号ですが、小さな数字がたくさん出現し、大きな数字はほとんど出現しないという確率分布のもとでは無駄なビットが目立ちます。 Variable Byte Code (Byte Aligned 符号とも呼ばれます) は整数の符号化手法の一つで、この無駄を幾分解消します。詳しくは Introduction to Information Retrieval (以下 IIR) の第5章に掲載されています。(http://nlp.stanford.edu/IR-book/html/htmledition/variable-byte-codes-1.html で公開されています) Variable Byte Code はその名の通りバイトレベルの可変長符号で、1バイトの先頭1ビットを continuation ビットとして扱い、続く 7 ビット

                                  γ符号、δ符号、ゴロム符号による圧縮効果 - naoyaのはてなダイアリー
                                • トピックモデルを利用したアプリケーションの作成 | Tech-Sketch

                                  最近、「機械学習」や「自然言語処理」、といったキーワードを聞くことが多くなってきていると思います。 反面、すごそうだけどなんだか難しいもの、というイメージもあるのではないかと思います。そこで、今回は「自然言語処理」の一種であるトピックモデルを取り上げ、その仕組みを紹介するとともに、その実装方法について解説していきたいと思います。 (「機械学習」の方については、以前開催した勉強会の資料がありますので、興味があればそちらもご参照ください。) トピックモデルとは トピックモデルは、確率モデルの一種になります。つまり、何かが「出現する確率」を推定しているわけです。 トピックモデルが推定しているのは、文章中の「単語が出現する確率」になります。これをうまく推定することができれば、似たような単語が出てくる文章(=似たようなモデルの文書)が把握でき、ニュース記事などのカテゴリ分類を行ったりすることができま

                                    トピックモデルを利用したアプリケーションの作成 | Tech-Sketch
                                  • 麻雀の役一覧(出現確率ランキング順)

                                    麻雀の役を「出現頻度順」に並べた一覧です。一般的な麻雀ルールや雀ナビ麻雀オンラインなど代表的なネット麻雀で採用されている役を掲載しています。 37位までありますが、実際のゲームで登場するのは上位12位ぐらいで9割以上を占めます。初心者の人は12位の「一気通貫」ぐらいまでを目安にマスターしてください!クリックするとより詳細な解説に飛びますよ。 一覧表ではなく一から順番に麻雀役を丁寧に覚えていくコーナーはこちら ・麻雀役を覚える講座|初心者のための麻雀講座 点数順に並べた一覧もご用意していますので、興味のある方は御覧ください! ・麻雀役一覧(点数順) 正式名称:立直 点数:1飜 英語名:Riichi/Reach 出現割合:45.1% (基本的にどのような組み合わせでも自由です) あがりの1歩手前(テンパイ)の時点で「リーチ」と宣言すること ポン・チーするとリーチができない リーチするには100

                                    • 単純ベイズ分類器 - Wikipedia

                                      単純ベイズ分類器(たんじゅんベイズぶんるいき、英: Naive Bayes classifier)は、単純な確率的分類器である。 概要[編集] 単純ベイズ分類器の元となる確率モデルは強い(単純な)独立性仮定と共にベイズの定理を適用することに基づいており、より正確に言えば「独立特徴モデル; independent feature model」と呼ぶべきものである。 確率モデルの性質に基づいて、単純ベイズ分類器は教師あり学習の設定で効率的に訓練可能である。多くの実用例では、単純ベイズ分類器のパラメータ推定には最尤法が使われる。つまり、単純ベイズ分類器を使用するにあたって、ベイズ確率やその他のベイズ的手法を使う必要はない。 設計も仮定も非常に単純であるにもかかわらず、単純ベイズ分類器は複雑な実世界の状況において、期待よりもずっとうまく働く。近頃、ベイズ分類問題の注意深い解析によって、単純ベイズ分

                                      • 実によくなじむッ! 1日10円で“至高の”日本語入力環境を――まだまだ進化する「ATOK 2010」

                                        実によくなじむッ! 1日10円で“至高の”日本語入力環境を――まだまだ進化する「ATOK 2010」:“最高にハイな気分”で文字を打つ(1/4 ページ) 筆者は以前、常用する日本語入力システムとして、MS-IMEから「ATOK 2008」へ乗り換えた理由を書いた(参考記事:最近の「MS-IME」は目に余る――よろしい、ならば「ATOK」だ)。それから2年。今回は最新版のATOK 2010を取り上げ、ATOK 2008からバージョンアップをするべきなのか、OS標準のMS-IMEや無料のGoogle日本語入力ではなく、有料のATOKを使うべきかどうかについて考えていく。 前述の記事を書いた時点では、日本語入力システムは「無料(OS標準付属)のMS-IME」 vs. 「有料のATOK」という図式がしばらく続くものだと思われていた。ところが、ここにきてGoogleからGoogle日本語入力、百度か

                                          実によくなじむッ! 1日10円で“至高の”日本語入力環境を――まだまだ進化する「ATOK 2010」
                                        • 再帰型ニューラルネットワーク: RNN入門 - Qiita

                                          再帰型ニューラルネットワーク(RNN)は自然言語処理の分野で高い成果をあげ、現在最も注目されているアルゴリズムの一つです。しかしながら、その人気が先走りして実際にRNNがどのように動くのか、構築するのかを解説する書籍は限られているように思います。この投稿はその部分にフォーカスを当てて友人のDenny(WildMLブログの著者)と一緒に書きました。 さてRNNベースの言語モデルを解説したいと思います。言語モデルの用途は2つあります。1つ目は文章が実際にどのくらいの確率で現れるのかのスコアリングをすること。このスコアは文法的に、セマンティクス的に正しいかどうかの判断基準となります。このようなモデルは例えば機械翻訳などに使われています。次に2つ目ですが、言語モデルは新たなテキストを生成することができる点 (ちなみに個人的にこちらの方がよりCoolな用途だと思っています)。また、英語ですがAndr

                                            再帰型ニューラルネットワーク: RNN入門 - Qiita
                                          • うめのんブログ

                                            ChatGPTを使い始めて一年が経ちました。主に、プログラミングと言語翻訳に使ってるんだけど、特に、翻訳作業がびっくりするほど捗ります。 最近、自分の読み上げアプリVoicepaperを20ヶ国語まで一気に対応させることができました。ListTimerとZenyも、12ヶ国語に対応できた。厳密にはChatGPTを使ってスクショや文章を多言語化していく作業自体は、めちゃ優秀な人に手伝ってもらってるんだけど、翻訳部分はAIに任せるので、以前と段違いにスピードもコストも下がった。 Google翻訳時代と何が違うかというと、翻訳制度が全然違う。英語を日本語にしても、違和感が格段に低いし、反対も同じ。これじゃちょっと使えないなあっていうレベルから、これなら実用範囲だわってなったので、全面的に使うようになった。 DeepLも比べたけど、個人的にはChatGPTの方が制度も使いやすさもかなり良い。何より

                                              うめのんブログ
                                            • doryokujin's blog

                                              blog.esuteru.com 読みました。今回は以前のコンプガチャの問題に比べるとイージーな問題だと思いました。 doryokujin.hatenablog.jp 私はグラブル,というかこの手のゲームをやったことが無いので問題を簡易的なものに置き換えて考察していきます。実際のケースには今回の考察を参考に考えてみてください。さて,今回の騒動の「アンチラ」の出現確率についての噂: 「アンチラ」の出現確率って他に比べてめちゃくちゃ低いのでは? 「アンチラ」の出現確率がアップするとどれだけ試行回数が経るのか? について簡単に検証してみます。以下は引用した2252回の試行におけるSSRキャラの出現回数をまとめたもののようです。 引用元:【悲報】『グラブル』の申年限定キャラを手に入れるためガチャを2522連(75万6000円)回したツイッター民をご覧ください : はちま起稿 1. 「アンチラ」の出

                                                doryokujin's blog
                                              • 2016年にブックマークしたURLでよかったもの集めた(上半期編) - Really Saying Something

                                                (導入部を初出から全面的に書き直しています) なぜか2013年から毎年12月末に、「その年にブックマークしたURLでよかったもの集めた」として当年のブックマークを振り返ることを始めました。 これまでの歴史 2013-12-29 - 真夏に悪い夢を見る 2014-12-30 - 真夏に悪い夢を見る 2015-12-31 - 真夏に悪い夢を見る だいたい10日~1週間くらいかけて1年分を振り返ってきたのですが、今年はなんと12/30まで手がつけられませんでした。だいぶ高速に粗く何も推敲せずに抜き出すことを心がけても、2日間では半年分が限界だったため、今回は上半期編・下半期編の2つに分けて公開しようと思います。なお、これまではてなダイアリーだったのがはてなブログになった理由は、「プレビューがあること」に尽きます。3年やってさすがに限界がきました。 基本的には、以下の基準で選出しています。 当年に

                                                  2016年にブックマークしたURLでよかったもの集めた(上半期編) - Really Saying Something
                                                • 「日本語入力 T-Code のススメ」〜 Google 日本語入力 TechTalk ライトニングトーク

                                                  2010-10-23 (土) に、Google が主催する「Google 日本語入力 TechTalk」に参加した。 Google Japan Blog: イベントのお知らせ「Google 日本語入力 TechTalk 2010」 そして、飛び入りでライトニング・トークをやってきた。5 分ほどのライトニング・トークだったけど、発表資料と質問の答えをエントリーにしておく。 T-Code って何? T-Code は、いきなり漢字を直接入力する日本語入力。漢字変換の必要がない。 その入力する様はまるで「ルパン三世のタイトル入力」のように見える。 補足説明 ぼくらは英語入力をする時、26 のアルファベットと 10 の数字、あと少しの記号の位置を記憶して入力を行なっている。つまり、「a」という文字を打つには「a」というキーがどこにあるかを憶えていて、その対応関係を思い出して「入力」を行なっている (

                                                  • NLTK Bookで教師なし形態素解析 - nokunoの日記

                                                    意外と知られていないようなので、NLTK BookのSegmentationの節にある教師なし形態素解析(単語分割)について紹介してみます。 この手法では、テキストを「単語の辞書」と「単語IDの列」で表したときにその合計サイズが最小になるように単語分割の位置を最適化します。言い換えれば、単語の出現確率に一様分布を仮定して圧縮したときに、その圧縮効率を最大とするように単語を分割します。持橋さんの研究よりはるかに単純なモデルですが、原理としては近いものになります。最適化にはシミュレーテッドアニーリング(焼きなまし法)を使っていて、適当に初期化してからランダムに単語分割位置を変えて、評価関数にかけて良い結果になったら採用する、という操作を繰り返し行うものです。 NLTK Bookでは、英語のテキストからスペースを取り除いたものを用いて単語を抽出しています。これはかなり恣意的に選ばれたテキストで、

                                                    • BARTを用いた新しい固有表現抽出手法の紹介

                                                      input,output 山田太郎は10月にXX株式会社に入社しました。,山田太郎は人名です。 山田太郎は10月にXX株式会社に入社しました。,10月は時間表現です。 山田太郎は10月にXX株式会社に入社しました。,XX株式会社は組織名です。 山田太郎は10月にXX株式会社に入社しました。,10月にXXは固有表現ではありません。 山田太郎は10月にXX株式会社に入社しました。,入社しましたは固有表現ではありません。 山田太郎は10月にXX株式会社に入社しました。,山田太郎は10月は固有表現ではありません。 加藤部長は昨日つけ麺を食べました。,加藤は人名です。 …… 学習 やっていることはすごく単純で、先ほど作ったデータセットのinputの文を入力としてoutputの文を出力するようにBARTを学習します。 推論 推論するときは全てのスパンでそれぞれテンプレートを埋めてみて、どれが一番しっく

                                                        BARTを用いた新しい固有表現抽出手法の紹介
                                                      • Google主催のAdSense実践セミナー参加レポ | アフィリエイト野郎!

                                                        9/14に六本木ヒルズにあるGoogle日本オフィスで行われたGoogle主催のAdSenseセミナーに参加してきました。事前にAdSense利用者にメールで告知され、抽選方式だったので半ば諦めていたのですが、運よく当選する事が出来ました。 先に感想を述べると、特にこれは凄かったという事は無いのですが、写真をアップしなければセミナーの内容をブログに書いてもOKとの回答を頂いたので、全体の流れや雰囲気、感想などを時系列で書き綴って行きたいと思います。まとめる事無く垂れ流し状態にするので、暇な人は読んであげて下さい。 God damn SEOさんもレポっていますので、そちらも併せてどうぞ。 »Googleへ行ってきました セミナー開始前 受講証と名刺を提示し胸に貼る赤いシールを貰う ゲートを通過し27階にあるGoogle社へ向かう Googleの内部へ潜入 流れ作業で秘密保持契約書にサインさせ

                                                          Google主催のAdSense実践セミナー参加レポ | アフィリエイト野郎!
                                                        • 「人工知能」の表紙に関するTweetの分析 | 人工知能学会 (The Japanese Society for Artificial Intelligence)

                                                          172 人 工 知 能  29 巻 2 号(2014 年 3 月) 1.は じ め に 人工知能学会では,学会誌名を「人工知能学会誌」か ら「人工知能」に変更するとともに,表紙のデザインを クラウドソーシングによって公募し決定した.その結果, 背景に「日常生活にある人工知能」を人の姿として描く デザインが採用され,本を片手に掃除を行っている女性 型人工知能搭載エージェントが描かれる表紙が掲載され た.しかしながら, ● エージェントが女性型である ● エージェントが腰部あたりからコードにつながれて いる ● 家事労働を行っている ● エージェントの表情が明るいものではない といった観点から女性蔑視につながるとして問題視され た [朝日 14](以降,本件を表紙問題と呼ぶ). それに伴い,Web 上では表紙問題に関する多くの意見 が投稿され話題となった.投稿された記事はジェンダー と人工知

                                                          • Embeddingについてまとめた。 - For Your ISHIO Blog

                                                            下記の日本OR学会の論文を参考に、Embeddingについて整理しました。 Word Embeddingモデル再訪 オペレーション・リサーチ学会 2017年11月号 20190621追記 こちらの記事もご覧ください。 ishitonton.hatenablog.com 目次 Embeddingとは何か Embeddingの各種アルゴリズム One-hot表現 共起関係の利用 LSI(Latent Semantic Indexing) Word2vec Glove fastText Character-based Embedding Word Embedding モデルのアンサンブル 日本語環境下でのEmbedding ファインチューニング Embeddingとは何か 自然言語処理におけるEmbedding(埋め込み)とは、「文や単語、文字など自然言語の構成要素に対して、何らかの空間における

                                                              Embeddingについてまとめた。 - For Your ISHIO Blog
                                                            • 実現確率に基づいた辞書攻撃をしてみた話 - やねうらおブログ(移転しました)

                                                              昨日、4月1日に3月末に退社した社員のパスワード(ここに詳しくは書けない)がわからなくなって困っているという相談をあるお客さんから受けた。 その社員は、そこの上司に個人的な怨恨があるらしく「死ね!」と言い残して辞めていったのだそうだ。パスワードを教えなかったのは何かの腹いせなのだろうか。 ともかく、その社長の許可を取り、私はダメ元で総当り攻撃をしてみることにしたが、1時間ほどやってみて、無理そうだから切り上げ。 次に辞書攻撃をしてみることにした。辞書は英語辞書やWikipedia等から集めてきた私のお手製のものだ。これも1時間ほどやって無理そうだから切り上げ。 辞書の単語の組み合わせも試してみることにした。 私が攻撃に使う辞書はそれぞれの単語のIDなどに出現する頻度を統計的に求めてある。 これを使って、例えば、10%で出現する単語flowerと20%で出現する単語catを組み合わせたflo

                                                                実現確率に基づいた辞書攻撃をしてみた話 - やねうらおブログ(移転しました)
                                                              • ミュウツーの戦闘開始直後の捕獲成功率は0.5%など、ポケモンの捕獲確率を調べられる「Catch Rate Calculator」

                                                                By Bart ゲーム「ポケットモンスター」シリーズは、1996年に「ポケットモンスター 赤・緑」が発売され、それから17年が経過した2013年には最新作の「ポケットモンスター X・Y」がリリースされている超人気ゲームタイトルの1つです。また、「ポケットモンスター ルビー・サファイア」をリメイクした「ポケットモンスター オメガルビー・アルファサファイア」が2014年11月に発売予定となっています。 ポケモンシリーズの大きな魅力であるのがポケモンを捕獲して育成するというゲームシステム。ポケモンを捕獲するにはモンスターボールやスーパーボールなどを使用する必要があります。ただし、モンスターボールを使えばポケモンを必ず捕まえられるというわけではなく、ポケモンの残りHPやステータス異常などさまざまな要素が関係してきます。そのポケモン捕獲のアルゴリズムは判明しており、公開しているサイトも存在しますが、

                                                                  ミュウツーの戦闘開始直後の捕獲成功率は0.5%など、ポケモンの捕獲確率を調べられる「Catch Rate Calculator」
                                                                • 『ポケットモンスター スカーレット・バイオレット』にて、「簡単な色違いポケモン出現法」が発見される。しかしつらめ - AUTOMATON

                                                                  ホーム ニュース 『ポケットモンスター スカーレット・バイオレット』にて、「簡単な色違いポケモン出現法」が発見される。しかしつらめ 『ポケットモンスター スカーレット・バイオレット』にて、レアな色違いポケモンを効率的に入手できるという手法が発見されたようだ。方法としては、ポケモンを倒してピクニックを繰り返すだけのシンプルさ。この方法はYouTuberによって紹介され、コミュニティや海外メディアなどの注目も集めている。 『ポケットモンスター スカーレット・バイオレット』は、『ポケットモンスター』シリーズ最新作だ。本作では、 オープンワールドを採用。フィールド上にはポケモンたちが生息しており、個性豊かな姿で闊歩している。プレイヤーは、そうしたポケモンに通常のターン制バトルを仕掛けたり、あるいは本作の「レッツゴー」システムによって、ポケモンを送り出しバトルをお任せすることも可能。また、時として一

                                                                    『ポケットモンスター スカーレット・バイオレット』にて、「簡単な色違いポケモン出現法」が発見される。しかしつらめ - AUTOMATON
                                                                  • Swype式キーボードを改良する | POSTD

                                                                    私がこのブログ記事を書いたきっかけは、Russell Brandにバナナを投げる女性を見たことでした。しばしお付き合いいただければ幸いです。 そう、果物を使ったこの攻撃的行為を目撃した私はすぐ、友人にメッセージを打って知らせました。その際、携帯電話で「banana」と「Brand」という単語を最新のSwype式キーボードで打つのが信じられないほどイライラする作業だったのです。可哀想な親指は、画面上の「A」と「N」の間を何時間も行ったり来たりしているかのようでした。もっといい方法があるはずだ、と思いました。親指を動かす距離を最小限に抑えて、左手に起きてしまうであろう反復性ストレス障害(RSI)の発症を遅らせてくれるような方法が。 本記事では、英語のQWERTYキーボードのレイアウトを最適化することについてお話ししていきます。目標は、単語を打つために指が移動する平均距離を最小化することです。そ

                                                                      Swype式キーボードを改良する | POSTD
                                                                    • 機械翻訳 - Wikipedia

                                                                      機械翻訳(きかいほんやく、英: machine translation)とは、ある自然言語を別の自然言語に翻訳する変換を、コンピュータを利用して自動的に行おうとするものである。 機械翻訳という発想は20世紀半ばには生まれていた。#歴史 2010年代後半には、AIのディープラーニング技術により、急速に成長し、特定の用途に限った翻訳においては人間の手で補助することで、ある程度の解決がみられるようになっていて、日常生活における異言間のコミュニケーションに大きな影響を与えることが期待されるようになっていた[1]。 2022年11月に大規模言語モデルによるchatGPTが登場し、それまでとは次元が異なる高性能の翻訳を行えるようになり、機械翻訳業界の状況がそれまでとは一変した。#大規模言語モデル方式AIの機械翻訳 歴史[編集] 1629年に、ルネ・デカルトは、単一の記号をもって異なった言葉での同一の概

                                                                        機械翻訳 - Wikipedia
                                                                      • 資料2-1:豊田先生御講演資料

                                                                        鈴鹿医療科学大学 豊田長康 2024/04/22 日本学術会議 「研究力強化と学術会議への期待」 2024/04/22 1 日本の研究競争力低下の因果推論 (事前配布資料) 資料2-1 論文データ Clarivate社の文献データベース(以下DB)であるWeb of Science Core Collection のデータを、分析ツール InCites Benchmarking & Analytics(以下InCites)を 用いて分析 なお、発表者はInCitesとSciValの両方を利用できる環境にある が、所期の目的の分析はSciValでは困難なため、InCitesで分析 した。 文部科学省 科学技術・学術政策研究所(以下NISTEP) の分析データ 他のデータ OECD.Statの公開データ 文部科学省、国立大学法人等のデータ 2 本発表のデータの入手元 2024/0

                                                                        • http://www.cs.kyoto-wu.ac.jp/~konami/statistics/Statistics.pdf

                                                                          — 統計学講義ノート— 小波秀雄 April, 2009 i はじめに 多数のデータから意味のある情報を抽出するのが統計的手法であり,その理論が統計 学 (statistics) である。統計学は,確率論を基礎にして,不確実性を含む多数のデータ から,一定の確実さをもった判断を下すことを目的にしている。 統計学は,社会や人間に関わるさまざまな事象の分析と多数のデータの定量的な取り扱 いを可能にすることから,社会科学や医学などの人間集団を相手にした学問研究分野,心 理学や教育学などの人間行動の分野,品質管理などの生産現場,保険や経営といったマ ネージメント分野,また政策決定のための指針作成など,さまざまの分野で広範に活用さ れている。 自然科学の分野でも,不確実性を含む自然現象 — 生物,気象,放射線など— において はデータの統計的な取り扱いが必要になる。また情報理論の中でも確率論とその

                                                                          • MeCabより高精度?RNNLMの形態素解析器JUMAN++

                                                                            JUMAN++とは 外国人参政権? RNNLM 大規模語彙知識 JUMANやMeCabとの比較 精度 速度 MeCab JUMAN JUMAN++ JUMAN++とPythonバインディングのインストール JUMAN++の使い方 コマンドライン Pythonから使用する まとめ 参考 日本語は、英語と違ってスペースで単語が区切られていない。 だから、日本語の自然言語処理においては、まず単語の境界と品詞を推定することから始めることが多い。 このテキストを単語に分割して品詞や意味を推定することを、「形態素解析」という。 本記事では、その形態素解析をニューラルネットワークの一種であるRNNLM(Recurrent Neural Network Language Model)で構築された、JUMAN++を紹介する。 本記事を読むと、 JUMAN++とRNNLMについて MeCabなど他の形態素解析

                                                                              MeCabより高精度?RNNLMの形態素解析器JUMAN++
                                                                            • ACL 2019 参加レポート - Preferred Networks Research & Development

                                                                              PFNでは自然言語処理(NLP)による研究開発にも取り組んでいます。 自然言語は人にとって最も身近なインターフェースのうちの一つです。 弊社ではこれまでにもロボットへの言語指示(ICRA 2018, CEATEC 2018)などの研究開発の成果を発表してきました。 先日7/28-8/2にイタリアのフィレンツェにて、自然言語処理のトップ国際会議ACL 2019が開催され、弊社からも佐藤元紀と小林颯介が参加しました。今回はその様子を論文紹介とともにお伝えしたいと思います。本記事は2名で協力し執筆しています。 (写真:会場となったバッソ要塞) また、佐藤元紀が東北大学の鈴木潤氏・清野舜氏と執筆した論文 “Effective Adversarial Regularization for Neural Machine Translation” を口頭発表しました。この論文についても紹介します。 ※佐

                                                                                ACL 2019 参加レポート - Preferred Networks Research & Development
                                                                              • 感情語辞書を用いた日本語テキストからの感情抽出

                                                                                修 士 学 位 論 文 感情語辞書を用いた 日本語テキストからの感情抽出 Affect Extraction from Japanese Text using Emotional Dictionary 菅原 久嗣 東京大学 大学院 情報理工学系研究科 電子情報学専攻 指導教員 石塚 満 教授 目 次 概要 2 1 背景と関連研究 3 1.1 感情抽出手法の研究動向 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 1.1.1 コーパスと分類器を用いた手法 . . . . . . . . . . . . . . . . . . . . . . . . . 4 1.1.2 感情語辞書を用いた手法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

                                                                                • Rogue

                                                                                  NEW! DL Rogue 5.4 DL Moria 5.5 DL Rogueとは Rogueは、1980年代初頭よりある、コンピュータRPGの元祖とも言えるものです。 ローグ (Rogue) は、ダンジョン探索型のコンピュータRPGである。その初版が公表された のは1981年とコンピュータRPGの黎明期であり、世界初のコンピュータRPGともされる。 それまでの、状況を全て文章で表示するテキストアドベンチャーとは異なり、Cursesライ ブラリを採用することでダンジョンなどの視覚的表現を実現した。 ゲーム自体は比較的簡素であるが、プレイを繰り返しても飽きがこないよう工夫されてお り、また様々な戦術を考える余地があるなど奥の深いものになっている。こういったこと から数多くの熱狂的ファンが生まれることになった。 後に、ローグを基に新たなアイデアやルールを盛り込んだゲームも多数作られ、現在もそ