タグ

ブックマーク / srad.jp (196)

  • Re: GoogleのBERTは漢文に返り点を打つことができるのか | yasuokaの日記 | スラド

    私(安岡孝一)の一昨日・昨日の日記の読者から、このツイートをお教えいただいた。ちょうど手元に工藤拓『形態素解析の理論と実装』(近代科学社、2018年9月)が届いて、ざっと読み始めたところだったのだけど、そっちはとりあえずおいといて、私個人としては、BERTの事前学習モデルに古典中国語(Classical Chinese)がほしい。ただ、現時点では「We do not plan to release more single-language models」らしいので、やるなら自分でやらねばならない、ということのようだ。 古典中国語のWikipediaは正直アテにならないので、事前学習の元ネタとしては、まあ、四書五経を中心とした古典群ということになる。kanripoで言えば、周易・尚書・毛詩・禮記・春秋左傳・孟子・論語あたりから始めて、適宜、テキストを拾ってくることになるだろう。ただ、古典中国

  • GoogleのBERTは漢文に返り点を打つことができるのか | yasuokaの日記 | スラド

    『漢文の依存文法解析と返り点の関係について』(日漢字学会第一回研究大会(2018年12月1日)発表予定)の発表準備をしていたところ、返り点程度ならGoogleのBERTを使えば打てるのではないか、という趣旨の御意見をいただいた。まあ、打てるかもしれないな、と思って、ここ5日間ほどBERT-Baseの2つのモデルと戯れてみたが、現時点での私(安岡孝一)の感触では、漢文の返り点はBERTの適用事例としては、かなり難しいのではないかと思える。 そもそもMultilingualモデルにもChineseモデルにも、古典中国語(Classical Chinese)が含まれておらず、いずれのvocab.txtもちょっとつらい。しかも不思議なことに、Chineseモデルのvocab.txtに「しにはとんとんワークケートを」なんていうvocabularyが含まれていて、どうなってるのかイマイチわからない。

  • GoogleのBERTの元データは本当にWikipediaなのか | yasuokaの日記 | スラド

    私(安岡孝一)が調べた限りでは、これら7つのvocabularyは、ワークゲートの求人情報から取られたものだ。濁点が落ちている上に、漢字との間にムリヤリ「語境界」が入れられているため、かなり探しにくかったのだが、以下の文の一部だろう。 お問い合せからご連絡ください。 お仕事探しにはどんどんワークゲートを利用してください♪ この条件の求人/求人情報以外にも 検索するとあなたにもっとマッチした求人/求人情報もみつかっちゃうかも。 求人情報ならワークゲートへ! ワークゲートの求人はすべて募集中。

  • Linux カーネル開発者の高齢化が進んでいる | スラド

    LWN.net の編集長 Jonathan Corbet 氏は「Linux カーネルの開発者は高齢化が進んでおり、若い開発を惹きつけていない」と指摘したそうだ (InformationWeek の記事、japan.internet.com、家 /. 記事より) 。 これは 4/14 〜 16 の日程でサンフランシスコで開催されていた Linux Foundation Collaboration Summit のパネルディスカッションでの発言。Linux カーネルの開発者 Andrew Morton 氏も開発者の高齢化を認めており、それと共に開発者らが「疲れてきており、以前のようなやる気や熱気で開発に取り組む人々は減った」と指摘する。ただし、これは開発者がより深いレベルでカーネルを理解し、修正に伴う複雑さに取り組む姿勢があることも意味しているという。コードも人も複雑になり、現在の開発プロセ

    sassano
    sassano 2016/11/15
  • PuTTYの秘密鍵が独自形式な理由 | dodaの日記 | スラド

    PuTTY では認証に使う秘密鍵の保存に独自の形式(PPK形式)を使いますが、これはなぜか、 あと関連して ssh の公開鍵認証のやりとりと OpenSSH の ssh クライアントの挙動に ついての話です。 結局のところはここに書いてあるように PPK 形式の方が優れている (OpenSSH の秘密鍵の形式には欠点がある)という事なんですが。 ssh での公開鍵認証のやりとりは以下のような流れです。 1. クライアントが「公開鍵認証だけどこの公開鍵は使える?」と公開鍵を送る 2. サーバが「その鍵は使えるよ/使えないよ」と答える 3a. 「使えないよ」と返ってきた場合、1 に戻って他の公開鍵を試したり、別の認証方式を試す 3b. 「使えるよ」と返ってきた場合、「この公開鍵で認証するよ、署名はこれね」と公開鍵と、 認証用のデータを秘密鍵で署名してその署名を送る。 4. サーバは公開鍵と署名

    PuTTYの秘密鍵が独自形式な理由 | dodaの日記 | スラド
    sassano
    sassano 2015/09/17
  • 「巫」が人名用漢字に追加される | スラド

    今日付けの官報で戸籍法施行規則が改正され、「巫」1字が人名用漢字に追加された。これで、人名用漢字は862字となり、常用漢字2136字と合わせ2998字が、子の名付けに使えることとなった。 松阪市の夫婦が、出生届の追完届の受理を巡って争っていたもので、昨年8月に名古屋高裁が「巫」を常用平易な漢字として認めた。裁判所命令で追加された人名用漢字としては、以下に示すとおり「巫」が10例目となる。 「悠」東京家裁1973.11.30審判1976.7.30施行「琉」那覇家裁1997.11.18審判1997.12.3施行「曽」最高裁三小2003.12.25決定2004.2.23施行「獅」横浜家裁2004.5.6審判2004.6.7施行「駕」大阪家裁2004.6.10審判2004.7.12施行「毘」名古屋家裁2004.6.18審判2004.7.12施行「瀧」広島高裁2004.6.23決定2004.7.12

    sassano
    sassano 2015/01/07
  • 5/22 NL研&SLP研 まとめ | aitoの日記 | スラド

    ■学生セッション1:自然言語解析(10:00-12:00) (1) 係り受け解析におけるLeft-corner型遷移 能地 宏,宮尾 祐介 人間の文処理のモデル(left to rightで逐次構文木を生成する)。従来法は句構造対象だったが、この研究では係り受けを対象とした。人間が文を理解するときの認知的負荷の性質(右枝分かれと左枝分かれは同じぐらい難しく、それよりも埋め込み文の方が難しい)と似た性質を持つ解析法としてleft-corner parserに注目して、left-corner解析を使った係り受け解析法を考案。18の言語に対して係り受け解析を行い(treebankの正解をもとに解析する)、スタックの深さの分布を調べたところ、他の解析方法に比べてスタックサイズが小さく抑えられ、また言語依存性が小さかった(ので、人の解析方法に近いと主張したいようだ)。言いたいことは比較的明確な気がす

    sassano
    sassano 2014/05/22
  • 3月15日 音声ドキュメント処理ワークショップ | aitoの日記 | スラド

    9:45-11:00 索引付け 距離順STDにおける索引の検索効率改善と複数検索語の同時検出 ○大野哲平, 秋葉友良(豊橋技科大) あらかじめ認識音節列と全音節との距離マトリクスを作っておいて,検出時に距離の近いところから投票により単語候補を見つけ,最後にDTWで検証する方法.基的な方法では,最初の検出時には音節の挿入脱落は考えていないので,音節挿入脱落によって性能が下がることがある.そこで投票方法を工夫することによって 第1段階で候補が漏れてしまうことを防ぐ.DTW全探索とほぼ同じ性能で速度は30倍.また,複数の検索語を同時に検出して距離順に提示するアルゴリズムを提案. 前の手法に対して,「投票時に工夫するのではなく,投票結果の時系列の集計の仕方で同じことができるのではないか」という中川先生の指摘.鋭い(けど,よく考えるとちょっと違うような). Suffix Arrayを用いた高速ST

    sassano
    sassano 2014/03/15
  • 3月14日 音声ドキュメント処理ワークショップ&中川聖一先生退職記念講演・討論会 | aitoの日記 | スラド

    10:20-12:00 音声ドキュメント処理 Automatic Speech Recognition and Machine Translation System for MIT English Lectures using MIT and TED Corpus ○Veri Ferdiansyah, Seiichi Nakagawa(Toyohashi Univ. of Tech.) MITコースウェアに字幕を付けるため,音声の自動書き起こしと翻訳を行う.MIT OpenCourseWareの音声で適応(30人,5時間).適応手法,言語モデルの学習データ(WSJ, MIT OpenCourseWare)を比較.翻訳モデルでは,日語側でCSJ, TED Talks, JENAADを組み合わせて利用.認識ではWSJに対してMAP推定でMITコーパスを適応させたものがよかった.翻訳の学習デー

    sassano
    sassano 2014/03/14
  • 3/12 日本音響学会春季研究発表会 音楽音響SS | aitoの日記 | スラド

    第5会場 スペシャルセッション 音楽音響 [音楽音響と音楽関連産業] 午前-前半(9:15~10:30)[音楽音響と音楽関連産業II] 座長 三浦 雅展 副座長 安井 希子 3-5-1 (招待講演)音楽情報検索の現状および音楽産業への展開について ○帆足 啓一郎(KDDI研究所) 音楽検索関連研究の「失敗」の紹介。 ・2000年代前半ぐらいに開始(それまではテキスト検索だったが、Googleの出現で終了) ・「にたうた検索」 手持ちのMP3と似た楽曲を検索する Query-by-Example、適合フィードバックによる個人嗜好適応 実験サイトでの公開→格採用に至らず ユーザニーズとの乖離 未知の楽曲を探す、という行動をユーザがするのか? 特定の楽曲を探すなら厳密検索の方が適切 検索プロセスが面倒だった 「結局、検索は一つの機能に過ぎない」「検索は楽しくない」→技術だけでサービスが実現でき

    sassano
    sassano 2014/03/12
  • 『大正新脩大蔵経』の著作権は切れているのか | yasuokaの日記 | スラド

    昨日の私(安岡孝一)の日記を読んだ人はウスウス感づいていると思うが、『大正新脩大蔵経』(1923年~1934年、大正一切経刊行会、全88巻)の著作権は、当に切れているのか。もちろん、収録されている各経典の原著作権は、とっくの昔に切れていると考えられるが、二次的著作物としての『大正新脩大蔵経』の著作権は、現時点では必ずしも切れていない。わかりやすい例として、『大正新脩大蔵経』第13巻(大集部)所収の「般舟三昧經三卷」を見てみよう。 「般舟三昧經三卷」の原典は、いわゆる白文であり、返り点はおろか句読点すらついていない。言い方は悪いが、単なる漢字の羅列である。三~七世紀頃に成立したものらしいので、原著作権はとっくの昔に切れている。一方、『大正新脩大蔵経』所収の「般舟三昧經三卷」には、句点や返り点や註が付されており、原典とはかなり様相の異なる二次的著作物となっている。この「般舟三昧經三卷」に点を

    sassano
    sassano 2014/01/10
  • 「出生届」の「よみかた」欄 | yasuokaの日記 | スラド

    一昨日の日記の読者から、「出生届」の子の氏名に「よみかた」の欄が追加されたのはいつなのか、という主旨の質問をいただいた。私(安岡孝一)の知る限り、1972年2月14日付の法務省民事甲第905号通達「出生届書中事件人の氏名欄に「よみかた」欄を設けること等について」以降のことだろう。一部、抜粋してみよう(cf.『戸籍』第308号pp.61-70、第309号pp.72-73)。 「よみかた」欄を設ける届出事件は、出生、就籍、帰化、氏名の変更とする。 「よみかた」欄は、右各届書中事件人の氏名欄の上部に設ける。 「よみかた」については、住民基台帳の事務処理上記入させるものであり、名の傍訓とは異なるものであることを明らかにするため、記入上の注意として、届書用紙の欄外適宜の箇所に「よみかたは、戸籍には記載されません。住民票の処理上必要ですからかいてください。」との趣旨の文言をあらかじめ印刷しておく

    sassano
    sassano 2013/10/06
  • 紙のサイズとQWERTY配列 | yasuokaの日記 | スラド

    『キーボード配列QWERTYの謎』(NTT出版、2008年3月)の読者から、橋毅彦の『「ものづくり」の科学史』(講談社学術文庫、2013年8月)を読んでみてほしい、と連絡があった。読んでみたのだが、ヨーロッパにおける紙のサイズの標準化に関して、かなりヒドイことが書いてあって驚いた。 アメリカで紙のサイズが決定されたのと同じ頃、ドイツにおいてA、Bの紙のサイズの規格が提案され、標準として定められた。 (中略) ちなみに、A0というサイズの二辺はそれぞれ一一八九ミリと八四一ミリ、掛け合わせてちょうど一平方メートルになるように定められている。 第一次大戦後の荒廃したドイツでこのサイズが提案され国家規格として採用されると、その規格は速やかにヨーロッパ各国で採用され、紙サイズの国際規格となっていった。現在このような紙のサイズを国内規格として定めている国は、米国とカナダ以外のすべての国になる。(pp

    sassano
    sassano 2013/09/05
  • 名大でElsevier社刊行学術誌の包括契約廃止が検討される | スラド

    この件、つい最近うちの教授から話が出たばかりなので、その内容をそのまままとめます。 多分、知っている人はみんな知っているのだと思いますが、自分は知りませんでした。 「奥の間」のリンクの内容もわかりやすいですね。 : 出版社のビジネスモデルは、 書籍のみだった時代はほしい雑誌だけ購入するシンプルな形態だったが、 電子化したのでコピーが容易になりそのぶん利益確保が不確実になるという口実で 曖昧に「1流から5流までセットメニューで何億円です」として売っている。 一部以外はjunkばかり。ほしい物を買うにはセットを買わないといけない。 ケーブルテレビのシステムと同様。 振り返って雑誌の内容というのはなにか? TeX入稿が主流の今、それは出版会社の作ったものではない… 研究者が大学内で自分らで頑張って編集して出したものが大学に売られている… (日なら)国の税金で作ったものを、論文掲載の御札つけをす

    sassano
    sassano 2013/08/06
  • 『キーボードQWERTY配列の真実』における「真実」 | yasuokaの日記 | スラド

    牧野武文の『業界標準と互換機戦略 キーボードQWERTY配列の真実』(レトロハッカーズ、2013年6月11日)を読んだのだが、かなりひどいシロモノだった。私(安岡孝一)の目にとまった間違いを、ざっと挙げておくことにしよう。

    sassano
    sassano 2013/07/08
  • Windowsのシェアは今後急速に低下する? | スラド

    今後のPC市場におけるWindowsの占有率は、皆が思っているよりも速く低下していくとの予測が明らかになった。現在、Windowsのシェアは2013年第1四半期で60%。2012年の第4四半期の75%から比べると15%シェアが低下している。今年中にシェアが50%を割り込む可能性は非常に高いという(Asymcoブログ、Slashdot BI、家/.)。 iOSのと競合を考えると、MicrosoftWindowsタブレットを急成長させてシェアを維持するのは非常に難しいという。ただ、市場シェアはMicrosoftにとってそれほど重要ではないという。仮にWindowsの市場シェアが20%にまで縮小しても、ビジネス用途向けのWindowsとOfficeのバージョンアップによる収益で経営的には十分な余裕がある。Microsoftは会社を倒産させるようなリスクは負わずに、(初期のXboxのような)赤

  • 鍋島藩における和文モールス符号 | yasuokaの日記 | スラド

    確かにこの「主婦」のおっしゃる通りで、武雄市には、もう蘭学館は不要だと思います。同様に、武雄市には、もう武雄鍋島文庫は不要なので、他機関に移管すべきでしょう。 とコメントしたところ、なぜ武雄鍋島文庫にそうまで粘着するのか、という趣旨の御叱正をいただいた。私(安岡孝一)が「粘着」しているとすれば、それは武雄鍋島文庫だけではなく、いわゆる「大」鍋島文庫全体だと思う。 『文字符号の歴史 欧米と日編』(共立出版、平成18年2月)の図1には、「日初の和文モールス符号」というキャプションを打ってある。実は、この図を『江戸』大正7年12月号で発見した際に、私が最も気にしたのは、これが当に「日初の和文モールス符号」なのかどうかだった。この和文モールス符号は、安政2年7月2日(1855年8月14日)の浜御殿での実験で、小田又蔵と勝海舟が使ったものだから、もちろん、かなり初期のものであるのは間違いない

    sassano
    sassano 2013/03/26
  • 当用漢字の「享」、人名用漢字の「亨」 | yasuokaの日記 | スラド

    『都内電話帳に現れた名の漢字出現度数』(国語審議会固有名詞部会、昭和26年3月20日)の「享 ― 10」は、「亨 ― 10」の誤りではないか、との御質問をいただいた。たぶん、その通りだ。 実は一週間後の部会資料『人名に使われる漢字』(国語審議会固有名詞部会、昭和26年3月27日)では、「享」の代わりに「亨」が記されていて、この誤り(?)は訂正されている。ただ、この資料では、今度は「寅」の代わりに「⿳宀由八」が記されているなど、なかなかに手書きガリ版資料の扱いにくさを見せつけてくれる。でも、この資料にも「禰」は含まれているので、人名用漢字になる可能性はあったはずなのに、どうして昭和26年の人名用漢字別表に入らなかったんだろ。

    sassano
    sassano 2013/01/31
  • XマスとXmasとX'mas | yasuokaの日記 | スラド

    『タイプライターに魅せられた男たち』のネタを探すべく、古新聞をチェックしていたところ、東京朝日新聞の第18570号(1937年12月20日)に「お祭り騷ぎは止めよ 内務省のXマス取締方針」という記事を見つけた(p.10)。 もしや、と思って、東京朝日新聞をもう少し遡ってみたところ、毎年のように「Xマス」が記事に現れており、第9850号(1913年12月24日)の「Xマス御案内」(p.5)まで遡れたが、それより古いものは見つけられなかった。もちろん、いずれも縦書きだ。一方、国会図書館の蔵書では、川路柳虹の『温室の花』(交蘭社、1922年7月)に「Xマス夜に歌へる」という詩が収録されていて、まあ、大正時代には一般化していたのだろう、と思えた。 以前、議論したイギリスでの「X'mas」とは違い、戦前の日では「クリスマス」が主流で、時々ちぢめて「Xマス」、さすがに「X'マス」は見つけられなかった

    sassano
    sassano 2012/12/21
  • 平成17年以降に子供の名づけに使えるようになった第2水準漢字 | yasuokaの日記 | スラド

    思うところあって、平成17年以降の戸籍法施行規則改正で新たに「常用平易」だと認められた漢字のうち、JIS X 0213の第2水準漢字に含まれる29字をチェックしてみた。具体的には、平成16年の人名用漢字部会において用いられた漢字出現頻度数調査(文化庁、平成12年3月)と全国出生届不受理調査(平成2~15年)の結果を、これら29字について調べてみた。とりあえず、漢字出現頻度数調査における出現順位(カッコ内は出現回数)および不受理法務局数とともに、以下に示す。 瘍 1497(2850)0 諧 1746(1791)1 嗅 1971(1191)0 2125(906)0 喩 2234(773)2 嘲 2313(690)0 哺 2335(669)0 璧 2351(650)0 彙 2410(590)0 毀 2423(571)0 慄 2456(535)0 貪 2467(522)0 羞 2472(519

    sassano
    sassano 2012/12/21