
ZAF 2023 年 2 月 22 日
<本日のテーマ>
ChatGPT 話題ですね
目次
- [6:30 - 7:00] 前座 ポッドキャストについて、あれこれ
- [7:00 - 8:00] パート1 Transformer を完璧に理解する!
- [8:00 - 9:00] パート2 音声合成
- 今日のおわりに
- 総合目次
YouTube のアーカイブ・ビデオはこちら
(
https://youtube.com/live/dBtz5ATfvJ0)

(前座)
ポッドキャストについて、あれこれ
ポッドキャストについて、あれこれ
- ポッドキャスト、日々、続けています
- その活動の、この1ヶ月のなかで起こったはなし、など
ZENKEI AI ポッドキャストをアップグレード!
- ZAP こと ZENKEI AI ポッドキャストの公開スケジュールを変更します
(https://twitter.com/zenkeiaif/status/1625697590347182083) - つまり
毎週1エピソード公開から
毎週2エピソード公開にアップグレード!
- 毎週、水曜日と日曜日の正午にリリース
- その心は?
ZAF から遅れすぎなので、少し追いつくぞ!
- イメージとしては、半年くらいの時間差で進行しようと思ってましたが、
- 現在、 ZAP はシーズン29として ZAF-2205 をリリースしようとしているところ
- つまり9ヶ月遅れ
- 6ヶ月程度になるまで、週2本ペースで進める予定です
- 2月末 (ZAF-2303)〜 : ZAP S29 (ZAF-2205), ZAP S30 (ZAF-2206)
- 3月末 (ZAF-2303)〜 : ZAP S31 (ZAF-2207), ZAP S32 (ZAF-2208)
- 4月末 (ZAF-2304)〜 : ZAP S33 (ZAF-2209), ZAP S34 (ZAF-2210)
大雑把には、5月末には、週1ペースに戻る予定ですね

もう1つのポッドキャスト
音楽と数理 🎼 ♾ ポッドキャスト
音楽と数理 🎼 ♾ ポッドキャスト
- ぼくの趣味100%のポッドキャストである「音楽と数理 🎼 ♾ ポッドキャスト」
- こちらは、今年 2023 年から、金曜日の夜10時に 定期的にリリースすることにしました
- というのは、既に告知してますが、
今日のアナウンスは、
これまでリリースされた全39エピソード
書き起こしがつきました!
例えば、こんな感じ(S01E01)
- とはいえ、
まだほとんどの回は Whisper (large-v2) の出力そのままで、
校正はできてません(こちらは、マイペースでやっていく予定)
- とはいえ、
まだほとんどの回は Whisper (large-v2) の出力そのままで、
- この「音楽と数理 🎼 ♾ ポッドキャスト」の書き下ろしは、どこに向かっているのか?
パート1
Transformer を完璧に理解する!
- 2023 年の今(通りいっぺんの情報通を超えたレベルで)
押さえておきたい AI 技術は
Transformer
Diffusion models
- 5年前とかは、これが
Convolutional Neural Networks (CNN)
Recurrent Neural Network (RNN)
- 未だに、そのレベルにとどまっていないか?というはなし
- 5年前とかは、これが
これまでの試み、その1
Transformer
- ZAF-2108 HuggingFace Transformers 眺める
- ZAF-2109 Transformer 論文読む
- (付記)この「構想」が良くなかったか……
- Transformer 論文を読んだけど、ピンとこなかったので、
- LSTM with Attention に降りてみたのだが、
- その結果、戻れなくなってた(良くあるパターン)
これまでの試み、その2
Diffusion models
改めて、素朴に
プログラマ的に
Transformer 入門
Transformer 入門
- 前回 (ZAF-2301) も、
世間の喧騒に嫌気がさして、純粋にコードと対話したい気分になった時
- ということで、重い腰を上げて、
先日やっと Andrej Karpathy の YouTube ビデオ を見ました!
Andrej Karpathy とは
- Andrej Karpathy (karpathy.ai)
といえば
- それは 2015 年のことだったみたい(?)
- (あるいは、 2017 年とかの FastAI で jeremy が紹介してたかな)
- The Unreasonable Effectiveness of Recurrent Neural Networks (May 21, 2015)
- そこではスクラッチから RNN を実装していて、
character ベースの Language Model を作ってた - その「応用例」として、
定番の、誰かのブログを学習させて、 その人が書いた文章みたいなものを生成させてみたり - もっと面白かったのは(この辺が記憶に残ってる)
LaTeX のソースファイル(テキストファイル)を学習させると、 LaTeX で書かれた文書(論文)を生成した、とか - 今回、見直してて「おぉ 2015 年にこんなことやってたんだ」と思った
GitHub の Linux のレポジトリ (https://github.com/torvalds/linux) のソースコードを学習させると、 プログラムを生成した、とか
- それは 2015 年のことだったみたい(?)
- 昨年の春ごろだったかな、
- Tesla を辞めて
(サバティカル的に)
「先のことは決まってないけど数ヶ月休む」
みたいなツイートしてました
(https://twitter.com/karpathy/status/1547332300186066944) - それが、先頃(今年に入って)
「OpenAI に行くことに決めた」
とツイートしてた
(https://twitter.com/karpathy/status/1623476659369443328)
- Tesla を辞めて
- そういうことなので、
今 Transformer を(GPT を)スクラッチから書いて解説するのに
多分、世界で一番最適な人だと思います- 「GPT をスクラッチから書く」こと自体は、
1年くらい前だったかな、 minGPT というコードを github に 既に公開してた(のは、知ってた)
(https://twitter.com/karpathy/status/1295410274095095810)- github: karpathy/minGPT
- github: karpathy/minGPT
- ……けど、「勉強しよう、勉強しよう」と言ってて、
結局、今まで見れてなかった
- 「GPT をスクラッチから書く」こと自体は、
いざ、スクラッチから GPT を実装!
- ぼくは「スパルタン」なので(ご承知の通り、だよね)
みなさんに
ノートブックとかソースコードとかは
共有しません!
スクリーンショットを示します
画面を見て、自分でタイプしましょう!
- あ、ちなみに、ぼく自身、今回の Andrej Karpathy のビデオを
一時停止しながら、 Jupyter Notebook に写経しました - その結果、1つ、間違い(多分)を見つけました
- (些細なことですが)
- あ、ちなみに、ぼく自身、今回の Andrej Karpathy のビデオを
Character Level の GPT
- まず、ぼくが Andrej Karpathy のビデオをみながら板書を取った
コードの最終形をみておく
- パラメータなど。
データセットは shapespeare - tokenizer はお手製の char-level のもの
dataloader もお手製のもの - ここからがモデルの定義
- 最初に一番のコアである Head
- ここ、多分 Andrej のコード、間違ってると思う
- wei の normalization が、
C という x のチャンネル数が使われていたが、
(彼自身、解説部分で説明していた通り)
k, q, v とかのテンソルのチャンネル数とすべき - (とはいえ、多分、影響するのは学習の初期の収束性くらいかな?)
- 以下、 MultiHeadAttention, FeedForward, Block と続く
- 下らない修正(タイポ)
- Andrej のコードは FeedFoward ってなってた
- 以上をまとめて、モデル全体
- お手製の学習ループで学習させた結果
- ほぼ、 Andrej の結果と同じ
- (seed も同じなので、本当なら完璧に一致すべきところだが、
normalization の bug fix の影響かな?)
- パラメータなど。
tiktokes
- OpenAI が提供している Tokenizer の tiktoken を使ってみる
- GPT で、今や世界を征服したと言っても過言ではない OpenAI さんの
謹製 tokenizer なので、これ使っとけ場いいだろう的な
(日本語がぁ、とかも、当然、気にしなくていいだろうし) - github: openai/tiktoken
- GPT で、今や世界を征服したと言っても過言ではない OpenAI さんの
- Character level のモデルとどれくらい性能が違うのか、
あと、当然のこととして日本語を使いたいので、試してみる
D-Adaptation
- Facebook AI Research が、パラメーターフリーな(自動でパラメータ調整してくれる)
optimizer を発表したらしい
https://twitter.com/_akhaliq/status/1616266295330185218- arxiv: 2301.07733
(local copy)
Learning-Rate-Free Learning by D-Adaptation (Aaron Defazio, Konstantin Mishchenko) - github: facebookresearch/dadaptation
- arxiv: 2301.07733
(local copy)
- ちょうどいい機会なので、試してみた
青空文庫
- せっかく tiktoken を使ったので、
日本語に挑戦
日本語のデータセットといえば「青空文庫」ですね- ZENKEI AI FORUM でも NLP の話で、昔、データセット作りました
cf. Qiita: 青空文庫の外字をPythonでUnicodeに置換 (@kichiki posted at 2018-10-23 updated at 2018-10-24)
- ZENKEI AI FORUM でも NLP の話で、昔、データセット作りました
- データセットの準備
- Language Model 用のデータセットなので、
(作家別にまとめてあったけれど)
今回は手元にあった14作家を全員まとめて1つのデータとした
- Language Model 用のデータセットなので、
- パラメータなどは、先の tiktoken の時と同じ
- データのサイズはこれくらい
- 学習の結果
- もっと学習させた結果
GPT をスクラッチから実装
まとめ
- GPT (Transformer の decoder 部分)のコードは全部書いて、動作確認できた
- subword タイプの tokenizer である tiktoken を使ってみた
- Language Model を、いくつかのセータセットに対して(簡単に)学習させてみた
- RNN (LSTM) の時に受けた印象を、ことさら上回るのもは(残念ながら) 感じなかった
- しかし architecture を考えると、
RNN 部分に本質はなく、
attention の方できちんと学習すれば、いいのだ、ということは分かった
- この architecture の単純さは Transformer の「スケーリング」に
つながっているのだろう
- つまり、今の小さいデータセットで、小さいモデルサイズでみると
RNN 世代のものと質的に違いを感じられないが、 - 大きなデータセット、 大きなモデルサイズにスケールアップすれば、 そのまま性能もスケールアップしていく
- そのことは、実は、結局、リソースを持っているものが圧倒的に有利なゲーム、 ということなんだなぁ
- つまり、今の小さいデータセットで、小さいモデルサイズでみると
その他の情報
- GPT-2
- GPT-3
- arxiv: 2005.14165
(local copy)
Language Models are Few-Shot Learners (Tom B. Brown, et al.)
- arxiv: 2005.14165
(local copy)
- Transformer カタログ
https://twitter.com/xamat/status/1626081981246341120My Transformers Catalog has become one of my most popular posts ever. Some of you told me that you turned into a pdf for easier reading. I thought I should make it into an arXiv preprint. Here you go: 60 Transformers in 36 pages 🤖 🎉 https://arxiv.org/abs/2302.07730
- arxiv: 2302.07730
(local copy)
Transformer models: an introduction and catalog (Xavier Amatriain)
- arxiv: 2302.07730
(local copy)
- https://twitter.com/Yamkaz/status/1625639281430786049
30分で完全理解するTransformerの世界
- 30分で完全理解するTransformerの世界 (株式会社ZENKIGEN)
- 30分で完全理解するTransformerの世界 (株式会社ZENKIGEN)
- スケーリング
- https://twitter.com/ImAI_Eruel/status/1627191853983612928
今思うと、この時のツイートに ChatGPT登場以降のゲームのルールが凝縮されていた感じがあります
- https://twitter.com/ImAI_Eruel/status/1346273648651321344
議論の余地はあるとはいえ,かなり凄いことが書かれてます ・Transformerの性能はたった3つの変数のべき乗則に支配される ・理論上,3つの変数を上げ続ければTransformerの性能は無限に上昇 ・Transformerを利用する多くの分野が「お金をどれだけ払えるか?」の問題になる可能性
- ディープラーニングブログ (Ryobot)
OpenAIが発見したScaling Lawの秘密 (2021-01-05)
- https://twitter.com/ImAI_Eruel/status/1346273648651321344
- 先の「30分で完全理解するTransformerの世界」にも言及がありましたね
- arxiv: 2001.08361
(local copy)
Scaling Laws for Neural Language Models
(Jared Kaplan, et al. OpenAI) - arxiv: 2010.14701
(local copy)
Scaling Laws for Autoregressive Generative Modeling
(Tom Henighan, et al. OpenAI)
- https://twitter.com/ImAI_Eruel/status/1627191853983612928
- https://twitter.com/rasbt/status/1626588781594955776
GPT in 60 Lines of NumPy -- a simple yet complete technical introduction to the GPT as an educational tool. https://jaykmody.com/blog/gpt-from-scratch/ I love this! It reminds me why coding in Python can be so much fun!
- Jay Mody: GPT in 60 Lines of NumPy (January 30, 2023)
- 「Numpy で GPT を 60 行で」というのは、 inference 部分
- 学習するには Numpy を JAX にして(するだけで、いいのか!) できる(らしい)
- Jay Mody: GPT in 60 Lines of NumPy (January 30, 2023)
-
MetaFormer ----------- https://arxiv.org/abs/2111.11418 MetaFormer Is Actually What You Need for Vision Weihao Yu et al. Toolformer ----------- https://arxiv.org/abs/2302.04761 Toolformer: Language Models Can Teach Themselves to Use Tools Timo Schick et al.
- https://twitter.com/Yamkaz/status/1627106567350022147
すごい!! 自律的にAPIを呼び出し情報を得るToolformerを、 微調整なし、Zero/Few-shotプロンプトで再現した 「Toolformer zero」が公開 http://toolformerzero.com https://github.com/minosvasilias/toolformer-zero
- https://twitter.com/Yamkaz/status/1627106567350022147
ChatGPT とは?
- ChatGPT どれほどのものよ?(技術的な話)
- Instruct GPT
- OpenAI: Aligning Language Models to Follow Instructions (January 27, 2022)
- arxiv: 2203.02155
(local copy)
Training language models to follow instructions with human feedback
(Long Ouyang, et al.)
- ChatGPT
- PPO
- OpenAI: Proximal Policy Optimization
- arxiv: 1707.06347
(local copy)
Proximal Policy Optimization Algorithms
(John Schulman, et al.)
HuggingFace の RLHF
- HuggingFace: Illustrating Reinforcement Learning from Human Feedback (RLHF)
- (1) Pretraining language models
- (2) Reward model (RM) training
- (3) Fine-tuning with RL
- Open-source tools for RLHF
- PyTorch でのもの
- TRL - Transformer Reinforcement Learning
(https://github.com/lvwerra/trl)
- HuggingFace ecosystem 内の LMs に対して PPO で fine-tuning できる
- TRLX (https://github.com/CarperAI/trlx)
- TRL の拡張で、より大きな LMs に対して Online/Offline 学習できる
- PPO に加え、 Implicit Language Q-Learning (ILQL - https://sea-snell.github.io/ILQL_site/) も使える
- RL4LMs (https://github.com/allenai/RL4LMs)
- よりたくさんの RL algorithms (PPO の他、 NLOP, A2C, TRPO)、 reward functions や metrics が使える
- TRL - Transformer Reinforcement Learning
(https://github.com/lvwerra/trl)
- PyTorch でのもの
HuggingFace の RLHF に対するコメント
by Khanh X. Nguyen
- https://twitter.com/khanhxuannguyen/status/1627446913275404289
The RLHF page of HuggingFace (http://huggingface.co/blog/rlhf) misses many important citations. Here are some classical RLHF papers that you should cite and why. (0/7) To some people, RLHF means "learn a reward model from human rankings and RL on it". But the term literally conveys a much broader meaning: any RL method that can learn from any type of human scalar feedback. (1/7) In terms of RL for text gen, cite Ranzato+15 (http://arxiv.org/abs/1511.06732) and Shen+ (http://arxiv.org/abs/1512.02433) who pioneer training text generators to optimize rewards, and Bahdanau+17 (https://arxiv.org/abs/1607.07086) who attempt the first actor-critic solution. (2/7) In those works, rewards given to the model were dense and computed automatically (BLEU). Sokolov+15,16,17 (http://arxiv.org/abs/1601.04468, http://arxiv.org/abs/1606.00739, aclanthology.org/P16-1152) is one of the first to really think about learning from human ratings, modeling the problem as bandit learning. (3/7) "Bandit" is important because naturally you could only ask a human to give one rating for a whole text. Sokolov formulation characterizes how difficult the problem is compared to video-game dense-reward RL problems. (4/7) Our 2017 paper (http://arxiv.org/abs/1707.07402) is first to present and simulate the risk of using user ratings for training text generators. People have different opinions; one's opinion varies over time. We show RL is robust to granularity, skew in rewards but not variance. (5/7) Julia Kreutzer is a veteran on this topic. She authors so many papers that analyze the feasbility of learning translation systems from human feedback (those with Sokolov, and http://arxiv.org/abs/1804.05958, http://arxiv.org/abs/1805.01553, arxiv.org/abs/2011.02511). (6/7) All of these works happened before or around the time of Christiano+17 (http://arxiv.org/abs/1706.03741) who introduce the now well-known method for learning from rankings, and Stiennon+20 (https://arxiv.org/abs/2009.01325) who apply the method with real humans on text summarization. (7/7) I hope this tweet conveys a better snapshot of the history of RLHF. Thanks for reading :) I should say that the scope of this tweet is text gen. The history of RL from humans of course dates way further back than this (e.g. TAMER by Knox and Stone, Littman et al., etc.)
- papers:
- arxiv: 1511.06732
(local copy)
Sequence Level Training with Recurrent Neural Networks (Marc'Aurelio Ranzato, et al.) - arxiv: 1512.02433
(local copy)
Minimum Risk Training for Neural Machine Translation (Shiqi Shen, et al.) - arxiv: 1607.07086
(local copy)
An Actor-Critic Algorithm for Sequence Prediction (Dzmitry Bahdanau, et al.) - arxiv: 1601.04468
(local copy)
Bandit Structured Prediction for Learning from Partial Feedback in Statistical Machine Translation (Artem Sokolov, et al.) - arxiv: 1606.00739
(local copy)
Stochastic Structured Prediction under Bandit Feedback (Artem Sokolov, et al.) - aclanthology.org/P16-1152
(local copy)
Learning Structured Predictors from Bandit Feedback for Interactive NLP (Artem Sokolov, et al.) - arxiv: 1707.07402
(local copy)
Reinforcement Learning for Bandit Neural Machine Translation with Simulated Human Feedback (Khanh Nguyen, et al.) - arxiv: 1804.05958
(local copy)
Can Neural Machine Translation be Improved with User Feedback? (Julia Kreutzer, et al.) - arxiv: 1805.01553
(local copy)
A Reinforcement Learning Approach to Interactive-Predictive Neural Machine Translation (Tsz Kin Lam, et al.) - arxiv: 2011.02511
()
Offline Reinforcement Learning from Human Feedback in Real-World Sequence-to-Sequence Tasks (Julia Kreutzer, et al.) - arxiv: 1706.03741
()
Deep reinforcement learning from human preferences (Paul Christiano, et al.) - arxiv: 2009.01325
(local copy)
Learning to summarize from human feedback (Nisan Stiennon, et al.)
- arxiv: 1511.06732
(local copy)
- Mathematica で有名な Stephen Wolfram のポストに対する意見
- https://twitter.com/jeremyphoward/status/1627481905125003264
It's wrong though. By failing to mention instruction tuning / RLHF it gives completely the wrong understanding of what's actually going on. ChatGPT isn't an LLM. Yes, it's based on one, but instructions tuning turns it into something very different.
- https://twitter.com/jeremyphoward/status/1627481905125003264
パート2
音声合成
音声合成
- 前回 (ZAF-2301)
- 要するに
3秒の音声を準備すれば、
自分の声で喋ってくれるという VALL-E
とガッカリしたけど、それでも、なんとかならないの?と調べた結果、
ESPnet2
- 今回は、そのつづき。
- 要するに
- 【情報1】
もみあげコレクション 「ESPnetで高森藍子の声を錬成した (2022-12-15)」 - 【情報2】
ESPnet 入門 - 音声合成 (npaka 2020年11月14日 17:17) - 【情報1】に戻る
- 【情報3】
github: jaywalnut310/vits
VITS: Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech
(Jaehyeon Kim, Jungil Kong, and Juhee Son)- arxiv: 2106.06103
(local copy)
Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech (Jaehyeon Kim, et al.)
- arxiv: 2106.06103
(local copy)
- 【情報1】に戻る
- ということで、 ESPnet2 をセットアップして、実際に試してみることにする
ESPnet2
- 本家の情報
- github: espnet/espnet
- Qiita: ESPnet2で始めるEnd-to-Endテキスト音声合成
(@kan-bayashi posted at 2020-09-19 updated at 2020-09-19)ESPnet 開発チームの一員の林知樹さん自身による Qiita への解説記事 音声合成のモデルに VITS が振れられてない(導入される前の記事かな?)
- ESPnet2で始めるEnd-to-End音声処理
(林 知樹 Sep 15, 2020)
- github: espnet/espnet
- ESPnet2 で、自分でデータセット作って学習させる手順
(1) ESPnet2 のインストール
- 【全体公開】 誰でも簡単に高品質な音声合成を作れる方法について考える【機械学習】
(February 6th, 2022 11:03) - google colab: ESPnetTest6.ipynb
「ESPnetをターミナルを使わずに回してみる」 - Jupyter Notebook のターミナルから、インストール
(2) データセットの準備
- Qiita: [Whisper+ESPnet2(VITS)]音声合成システムを作った備忘録
(@3253 posted at 2022-10-28 updated at 2022-11-02)- ここでは、 OpenAI の書き起こしモデル Whisper を使って、
(ラベルなしの)音声ファイルだけから、 EPSnet の学習に必要なデータセットを作る手順が紹介されている
- ここでは、 OpenAI の書き起こしモデル Whisper を使って、
- この記事を参考にして、以下のように、 ZAF-2301 の音声情報からデータセットを作った
(3) 学習
- モデルの学習は、
先に紹介した google colab
Qiita: ESPNetで作るキャラクター音声合成
(@RRR_troisR posted at 2021-12-31 updated at 2022-07-09) - この記事の最初の部分(セットアップ)は、
既に(1)インストールのところで実行済
- このあと、TTS レシピの step 1 から step 5 に相当する、
学習のための準備を行う
- ここでの本題である(3)学習は、 TTS レシピの step 6 に相当する。
(4) 推論
- 次に、 TTS のレシピの step 7
- この記事では、以下の部分
- ここで紹介されている記事
Qiita: ESPnetの日本語TTSモデルで簡易的にアクセント指定できるスクリプトを作ってみた。
(@seichi25 posted at 2021-12-05 updated at 2022-09-04)
- この記事では、以下の部分
- さて、実験台には(学習には使ってない)「音楽と数理 🎼 ♾ ポッドキャスト」
を使うことにします
- 最新回
S02E07
「〈トーク〉柄にもなく時事評論、など」
- ちなみに、これが正解(というか、ぼくが実際に喋ってるもの)
- Jupyter Notebook で
- で、お待ちかねの
テキスト音声合成の
結果です!
ドヤ!(ぼくが自慢することでもないですが)
- 最新回
S02E07
「〈トーク〉柄にもなく時事評論、など」
- ということで、この kengo モデルを使えば、
テキストを与えるだけで
すきなだけ kengo さんに
喋ってもらうことができます!
やったー、これでラクできるー!
(今の AI の話題は、ほぼ全て、こういう「ラクできる」ってはなしですよね)
おまけ
VTuber けんごさん
VTuber けんごさん
- 声が合成できたのなら、
顔も合成してしまおう、
つまり(本当の)バーチャル YouTuber ができるかどうか、 実験してみよう! - ちなみに、使うものは
ZAF-2301
で紹介した One-Shot Talking Face
(colab)
音声ファイルと、画像ファイル1枚から、動画を作ってくれる AI モデルです - そのときの結果はこちら
- 毎度同じ顔でビデオ作るのも面白くないので、今回は10年以上前の
「けんごさん」に登場してもらうことにしました!
- この One-Shot Talking Face のコラボノートブックの使い方のポイント
- 画像ファイルは 256x256 で PNG にしましょう
- 音声ファイルは30秒程度にしましょう
- そのノートブックは、セルが2つだけで
- (1)環境設定、ツールのインストールなど
- (2)データの解析、合成
- 複数の音声ファイルを取っ替え引っ替えしたいときとかの注意点
- 音声ファイルは pocketsphinx と言うツールで 発音の解析を行い、結果を JSON ファイルに出力している
- 動画の合成時には、画像ファイル、音声ファイルに合わせて
JSON ファイルも指定するので、
音声ファイルと JSON ファイルの整合性に注意すること
- ということで、
テキストと画像1枚だけから作られた
VTuber けんごさん
です!
- 素材
テキスト 画像 ああ、あのあれだ。そう、あのね、僕Amazonプライムに入ってるんで、 Amazonプライムにある映画とかドラマとか見れるんですが、 ちょっとネットで話題になってたやつ、ボザロね。 なんだろうと思ったら、Botch the Rockっていう漫画がっていう話があって、 連続アニメで。もう終わっててAmazonプライムにはもう全話入ってたんで、 見ましたけども、これ結構良かったね。 良かったし、俺はYouTuberとして負けてるなと思いましたね。ひとりちゃんに。 ギター買えるほど、っていうか収益化できてないもんね。 っていうか、そもそもサブスク数が足してないから話にならないんだけども。 っていう意味で負け負けですけどもね。いや、面白かったね、あれね。 あれ見たら、
- 結果
- 比較として、正しい音声を使った One-Shot Talking Face の結果
- 素材
- 付録:時事ネタとして
- 数日前のはなし(昨日だったっけ?) 暖炉の前でイケメンが喋ってるビデオが、 AI が生成したものだ、という話題があった
- それはそれとして「フゥン」と思ってたけど、
どうも怪しいという話が
https://twitter.com/nomtats/status/1628233243916136450 - 現状、 DIY 的と言うか、 Poor man’s なアプローチというか、
上で示したようなことは、もう既にできますね、ということで - ってか、 Microsoft の VALL-E って、 いつ使えるようになるんだろう?
今日のおわりに
……
今後の予定
- 次回 ZAF は 2023 年 3 月 29 日開催の予定です。
- ZAF 講演者、 ZAM 執筆者、絶賛、大募集中です!
お気軽にお問い合わせください!
総合目次
- 前座 ポッドキャストについて、あれこれ
- 第1部
Transformer を完璧に理解する!
- これまでの試み
- プログラマ的に Transformer 入門
- Andrej Karpathy とは
- スクラッチから GPT を実装!
- その他の情報
- GPT-2, GPT-3, Transformer カタログ, 「30分で完全理解するTransformerの世界」, スケーリング, 「GPT in 60 Lines of NumPy」, MetaFormer, Toolformer
- ChatGPT とは?
- 第2部 音声合成
- 今日のおわりに