並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 10 件 / 10件

新着順 人気順

chasenの検索結果1 - 10 件 / 10件

  • Macで完全ローカルで1万6千字の記事の作成から日本語訳まで行う|shi3z

    今、故あってTGVに乗っている。 TGVは、フランス版新幹線のようなものだが、日本の新幹線に比べると通信のつながりがそんなに良くない。したがって、AIに自由にアクセスするのも一苦労である。こんな時、ローカルで全て完結するLLMがあると非常に便利だ。 ちなみにコーディング支援にはmlx-community--codegemma-7b-it-8bitを使った。原稿生成と日本語訳にはshi3z/mlx-LongWriter-llama3.1-8b-8bitを使用。MacBook Pro M2 32GBを使用。ただし原理的にはM1でも動くと思われる MacBook M1以降のApple Siliconで使えるMLXというニューラルネット高速化ツールを使い、Macで完全ローカルでありながら1万6千字の記事を自動生成することに成功した。簡単にいえば、MacBookさえあればChatGPTなどへのAPI

      Macで完全ローカルで1万6千字の記事の作成から日本語訳まで行う|shi3z
    • Zipfの法則って結局どういう扱いなんだっけ?今更他人に聞けないのでPiantadosi (2014)を読んでこっそり勉強 - 草茫茫

      背景 言語学分野では、Zipfの法則(Zipf's law)と呼ばれる統計的普遍性質が知られています。 Zipfの法則とは、出現頻度が $r$ 番目に多い単語について、その出現頻度がおおよそ $\dfrac{1}{r}$ に比例するという経験則です。 すなわち $r$ 番目の単語の出現頻度を $f(r)$ としたとき、 $$ f(r) \propto r^{-\alpha} $$ が成り立つという経験則です(ここで $r \approx 1$ ですが、厳密には $\sum_{r=1}^{\infty} f(r) < \infty$ となるために $r>1$ である必要があります)。 その名の通り、この経験則は言語学者 George K. Zipf によって発見されました。 式だけ見てもピンと来ないという方は、ぜひWikipediaの当該記事をご覧ください。 この記事によれば、なんと30ヶ国

        Zipfの法則って結局どういう扱いなんだっけ?今更他人に聞けないのでPiantadosi (2014)を読んでこっそり勉強 - 草茫茫
      • 神戸大学石川慎一郎研究室/Dr. Shin Ishikawa, Kobe University

        コーパス言語学入門 ■コーパスとは何か? Collins COBUILD英英辞典によると, 「コーパス(corpus)」とは,「言語研究に使用するために大量に収集された書き言葉および話し言葉のテキスト("a large collection of written or spoken texts that is used for language research")」と定義されています。しかし,今日「コーパス」という場合,とくに,機械で処理できるような("machine-readable"な)「電子化テキスト資料」を指す場合が大半です。英語では,すでに,5億語超のBank of Englishや,1億語のBritish National Corpusなどが電子データとして整備されています。 ■コーパスを使うには? 時には数億語にも及ぶ大量の電子資料を直接読むことは不可能ですので,コーパスを

        • コレスポンデンス分析(対応分析)とは?KH Coderでの分析手順~主成分分析・数量化Ⅲ類との違いまで徹底解説

          「コレスポンデンス分析」は聞き慣れないわかりにくい言葉でしょう。日本語で表現すると 「対応分析」 。 …一体なんのことやら、と思う方は少なくないです。 この手法、テキストマイニングで使われる分析のひとつです。 アンケート、ニュース、SNS投稿などから特定のテーマで書かれた記事(単語に分解)が年代、新聞社、特定のグループなどの単位でどのように異なるかを散布図のかたちでアウトプットし、示唆を得る手法です。 この記事では、コレスポンデンス分析(対応分析)の基礎知識や主成分分析・数量化Ⅲ類との違い、KH Coderでの実行手順について、わかりやすく解説していきます! 自力でコレスポンデンス分析をおこなえるようになりますので、最後まで読んでいただければ幸いです。 KHCoder 初心者は必読! 開発者による公式入門書 動かして学ぶ! はじめてのテキストマイニング: フリー・ソフトウェアを用いた自由記

          • 論文や技術メモの一覧(随時更新)

            #Pocket Issue Date: 2024-10-11 One Initialization to Rule them All: Fine-tuning via Explained Variance Adaptation, Fabian Paischer+, N_A, arXiv24 Comment元ポスト:https://x.com/paischerfabian/status/1844267655068516767?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #Pocket Issue Date: 2024-10-11 GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models, Iman Mirzadeh+, N_A, arXi

            • テキストデータに対しての前処理|キータ@python/データ分析の修行

              〇データの確認 ・columnを調べる。 → df.columns ・ユニークな値を確認→ df.[ ].unique( ) ・データの大きさ  → df.shape 〇テキストデータの内容を確認する。 In [1]: # ライブラリのインポート import pandas as pd # データの読み込み df_data = pd.read_csv('Shinzo Abe Tweet 20171024 - Tweet.csv') df_data['Tweet Text Size Block'].values Out[1]: array(['選挙期間中、自民党の候補者たちは全国各地で我々の経済政策を、安全保障を、そして日本の将来を担っていく決意と地域を支える想いを皆様に訴えかけさせていただきました。 「この国を、守り抜く。」自民党はこれからも皆様とともに歩みを進めて参ります。本当に12日間

                テキストデータに対しての前処理|キータ@python/データ分析の修行
              • 「2050年の東京の暮らし」とは?「空飛ぶクルマ」の都内初飛行もレポート! SusHi Tech Tokyo2024 ショーケースプログラム<後編>|東京ベイeSGプロジェクト

                「2050年の東京の暮らし」とは?「空飛ぶクルマ」の都内初飛行もレポート! SusHi Tech Tokyo2024 ショーケースプログラム<後編> 空飛ぶクルマが東京の空を初フライト! 観客からも歓声世界共通の都市課題解決に向けて東京からイノベーションを創出し、未来の都市モデルを発信する国際イベント「SusHi Tech Tokyo2024」。東京ベイエリアを舞台に4月末から5月末まで約1カ月にわたって開催され、大盛況のうちに幕を閉じました。 会期中、大きな話題を集めたのが空飛ぶクルマの都内初飛行でした。 都内初飛行を披露した機体「HEXA(ヘクサ)」空飛ぶクルマは、電動垂直離着陸機(electric Vertical Take-off and landing=略称eVTOL)と呼ばれ、従来の自動車でも航空機でもヘリコプターでもない新しい概念の乗り物です。100年に1度の移動革命ともいわ

                  「2050年の東京の暮らし」とは?「空飛ぶクルマ」の都内初飛行もレポート! SusHi Tech Tokyo2024 ショーケースプログラム<後編>|東京ベイeSGプロジェクト
                • MeCabをpython3で使いたいが 'utf-8' codec can't decode 'utf-8' codec can't decodeというエラーが出てしまう

                  MeCabをMacにインストールする手順 上記リンク先の手順通りにMeCabをインストールして、pip3 install mecab-python3をpython3で import MeCab mecab = MeCab.Tagger("-Ochasen") print(mecab.parse("ダックスフンドが歩いている。")) としたところ'utf-8' codec can't decode bytes in positionというエラーが出てしまいました。どなたかご教授お願い致します。 [~] mecab -D 13:23:03 filename: /usr/local/mecab/lib/mecab/dic/ipadic/sys.dic version: 102 charset: utf8 type: 0 size: 392126 left size: 1316 right siz

                    MeCabをpython3で使いたいが 'utf-8' codec can't decode 'utf-8' codec can't decodeというエラーが出てしまう
                  • pythonで形態素解析をやってみよう【収益化したサンプルコードあり】|python-manブログ

                    形態素解析とは自然言語処理の一種です 今回はpythonで形態素解析を行なっていきたいと思います pythonで形態素解析エンジンMeCabを使用する方法についても併せて解説していきますので、参考にしてみてください また、僕自身が収益化したサンプルコードも載せています こんなあなたにおすすめ pythonで形態素解析を行いたい pythonでデータ分析の引き出しを増やしたい pythonのMeCabを使ってみたい 独学で収益を出した方法は以下の記事から pythonを独学で学び収益を出す方法【無料特典あり】pythonを独学で学び始めて筆者が、どのように収益5桁を達成したのかを具体的に解説していきます。この順番に進めていけば、一年以内にpythonを使って収益化できるようになります。... まずは完成しているサンプルコードから サンプルコードの解説は記事の後半でしていきます import

                    • 無償配布の日本語・英語対訳コーパスのデータを綺麗にする - StatsBeginner: 初学者の統計学習ノート

                      ★めぼしいコーパスをまとめてダウンロードしてクリーニングして統合するPythonのコードを最後にのせてます。 ★少しソースを増やして、最終的には後日のエントリに書いてあるようなコーパス構成にしました。 日英対訳の(なるべく)綺麗なデータを得たい Transformerで機械翻訳をやろうと思ったのですが、てっとり早く試すだけの場合、綺麗な演習用データが配布されてる「英語-ドイツ語」や「英語-フランス語」のデータセットを使う人が多いんじゃないでしょうか。 でもそれだと、性能が実感できないので、なんとか「英語 ⇒ 日本語」の機械翻訳を実践したいと思いました。 そこでネックになるのが、 品質がよくて 分量が十分で 無償配布されている という条件をみたす対訳コーパスが、都合よくあるわけではないということです。 下記のページにいろいろまとまってるのですが、少なくとも私が確認した無償のものに関しては、ど

                        無償配布の日本語・英語対訳コーパスのデータを綺麗にする - StatsBeginner: 初学者の統計学習ノート
                      1