ZENKEI AI FORUM (2023/02/22)

...♦...

ZAF 2023 年 2 月 22 日

＜本日のテーマ＞

ChatGPT 話題ですね

...♦...

[6:30 - 7:00] 前座ポッドキャストについて、あれこれ
- ZENKEI AI ポッドキャストをアップグレード！
- 音楽と数理 🎼 ♾ ポッドキャスト
[7:00 - 8:00] パート１ Transformer を完璧に理解する！
[8:00 - 9:00] パート２ 音声合成
今日のおわりに
総合目次

YouTube のアーカイブ・ビデオはこちら

( https://youtube.com/live/dBtz5ATfvJ0)

...♦...

（前座）
ポッドキャストについて、あれこれ

ポッドキャスト、日々、続けています
その活動の、この１ヶ月のなかで起こったはなし、など

...♦...

ZENKEI AI ポッドキャストをアップグレード！

ZAP こと ZENKEI AI ポッドキャストの公開スケジュールを変更します
(https://twitter.com/zenkeiaif/status/1625697590347182083)
つまり

毎週１エピソード公開から

毎週２エピソード公開に

アップグレード！
- 毎週、水曜日と日曜日の正午にリリース
その心は？

ZAF から遅れすぎなので、少し追いつくぞ！
- イメージとしては、半年くらいの時間差で進行しようと思ってましたが、
- 現在、 ZAP はシーズン２９として ZAF-2205 をリリースしようとしているところ
- つまり９ヶ月遅れ
- ６ヶ月程度になるまで、週２本ペースで進める予定です
  - ２月末 (ZAF-2303)〜 : ZAP S29 (ZAF-2205), ZAP S30 (ZAF-2206)
  - ３月末 (ZAF-2303)〜 : ZAP S31 (ZAF-2207), ZAP S32 (ZAF-2208)
  - ４月末 (ZAF-2304)〜 : ZAP S33 (ZAF-2209), ZAP S34 (ZAF-2210)
現在の仕込み状況：

...♦...

もう１つのポッドキャスト
音楽と数理 🎼 ♾ ポッドキャスト

ぼくの趣味１００％のポッドキャストである「音楽と数理 🎼 ♾ ポッドキャスト」
こちらは、今年 2023 年から、金曜日の夜１０時に定期的にリリースすることにしました
というのは、既に告知してますが、
今日のアナウンスは、

これまでリリースされた全３９エピソード
書き起こしがつきました！

例えば、こんな感じ（S01E01）
- とはいえ、まだほとんどの回は Whisper (large-v2) の出力そのままで、
  校正はできてません（こちらは、マイペースでやっていく予定）
この「音楽と数理 🎼 ♾ ポッドキャスト」の書き下ろしは、どこに向かっているのか？
- それは、もちろん
  
  技術書典１４
- つまり
  
  文庫本を出す！
  
  エッセイ　音楽と数理
  ポッドキャストは自由にする（仮）
- （サブ）タイトルは仮で、もう１つの案
  エッセイ　音楽と数理
  Conversations with Myself（仮）
  
  と、悩み中

（トップに戻る、詳細目次へ）

...♦...

パート１
Transformer を完璧に理解する！

2023 年の今（通りいっぺんの情報通を超えたレベルで）押さえておきたい AI 技術は

Transformer
Diffusion models

に、間違いない（むしろ、今更という感じ）
- ５年前とかは、これが
  
  Convolutional Neural Networks (CNN)
  Recurrent Neural Network (RNN)
  
  だったわけ
- 未だに、そのレベルにとどまっていないか？というはなし

...♦...

これまでの試み、その１

Transformer

ZAF-2108 HuggingFace Transformers 眺める
ZAF-2109 Transformer 論文読む
（付記）この「構想」が良くなかったか……
- Transformer 論文を読んだけど、ピンとこなかったので、
- LSTM with Attention に降りてみたのだが、
- その結果、戻れなくなってた（良くあるパターン）

...♦...

これまでの試み、その２

Diffusion models

ZAF-2209 Diffusion Model レビューペーパー出てる
ZAF-2211 Diffusion Model ちょっと分かります
このあと、また止まっている
- 岡野原さんの本がもうすぐ届くので、
- その前に、自分で目処をつけておきたいとは思っているが……

...♦...

改めて、素朴に

プログラマ的に
Transformer 入門

前回 (ZAF-2301) も、世間の喧騒に嫌気がさして、純粋にコードと対話したい気分になった時
ということで、重い腰を上げて、
先日やっと Andrej Karpathy の YouTube ビデオを見ました！

...♦...

Andrej Karpathy とは

Andrej Karpathy (karpathy.ai) といえば
- それは 2015 年のことだったみたい（？）
  - （あるいは、 2017 年とかの FastAI で jeremy が紹介してたかな）
- The Unreasonable Effectiveness of Recurrent Neural Networks (May 21, 2015)
- そこではスクラッチから RNN を実装していて、
  character ベースの Language Model を作ってた
- その「応用例」として、
  定番の、誰かのブログを学習させて、その人が書いた文章みたいなものを生成させてみたり
- もっと面白かったのは（この辺が記憶に残ってる）
  LaTeX のソースファイル（テキストファイル）を学習させると、 LaTeX で書かれた文書（論文）を生成した、とか
- 今回、見直してて「おぉ 2015 年にこんなことやってたんだ」と思った
  GitHub の Linux のレポジトリ (https://github.com/torvalds/linux) のソースコードを学習させると、プログラムを生成した、とか
昨年の春ごろだったかな、
- Tesla を辞めて
  （サバティカル的に）
  「先のことは決まってないけど数ヶ月休む」
  みたいなツイートしてました
  (https://twitter.com/karpathy/status/1547332300186066944)
- それが、先頃（今年に入って）
  「OpenAI に行くことに決めた」
  とツイートしてた
  (https://twitter.com/karpathy/status/1623476659369443328)
そういうことなので、
今 Transformer を（GPT を）スクラッチから書いて解説するのに
多分、世界で一番最適な人だと思います
- 「GPT をスクラッチから書く」こと自体は、
  １年くらい前だったかな、 minGPT というコードを github に既に公開してた（のは、知ってた）
  (https://twitter.com/karpathy/status/1295410274095095810)
  - github: karpathy/minGPT
- ……けど、「勉強しよう、勉強しよう」と言ってて、
  結局、今まで見れてなかった

...♦...

いざ、スクラッチから GPT を実装！

ぼくは「スパルタン」なので（ご承知の通り、だよね）

みなさんに
ノートブックとかソースコードとかは
共有しません！

その代わり

スクリーンショットを示します

つまり（分かりますね？）

画面を見て、自分でタイプしましょう！
- あ、ちなみに、ぼく自身、今回の Andrej Karpathy のビデオを
  一時停止しながら、 Jupyter Notebook に写経しました
- その結果、１つ、間違い（多分）を見つけました
  - （些細なことですが）

...♦...

Character Level の GPT

まず、ぼくが Andrej Karpathy のビデオをみながら板書を取ったコードの最終形をみておく
- パラメータなど。
  データセットは shapespeare
- tokenizer はお手製の char-level のもの
  dataloader もお手製のもの
- ここからがモデルの定義
- 最初に一番のコアである Head
  - ここ、多分 Andrej のコード、間違ってると思う
  - wei の normalization が、
    C という x のチャンネル数が使われていたが、
    （彼自身、解説部分で説明していた通り）
    k, q, v とかのテンソルのチャンネル数とすべき
  - （とはいえ、多分、影響するのは学習の初期の収束性くらいかな？）
- 以下、 MultiHeadAttention, FeedForward, Block と続く
  - 下らない修正（タイポ）
  - Andrej のコードは FeedFoward ってなってた
- 以上をまとめて、モデル全体
- お手製の学習ループで学習させた結果
  - ほぼ、 Andrej の結果と同じ
  - （seed も同じなので、本当なら完璧に一致すべきところだが、
    normalization の bug fix の影響かな？）

...♦...

tiktokes

OpenAI が提供している Tokenizer の tiktoken を使ってみる
- GPT で、今や世界を征服したと言っても過言ではない OpenAI さんの
  謹製 tokenizer なので、これ使っとけ場いいだろう的な
  （日本語がぁ、とかも、当然、気にしなくていいだろうし）
- github: openai/tiktoken
Character level のモデルとどれくらい性能が違うのか、
あと、当然のこととして日本語を使いたいので、試してみる
- パラメータを調整
  （メモリーの問題で batch_size と block_size を減らした）
- encoder, decode はこれまでのコードがそのまま使えるように
  （データセットは shakespeare のまま）
- いい機会だったので、モデルの名前を tinyGPT にしておく
- 結果

...♦...

D-Adaptation

Facebook AI Research が、パラメーターフリーな（自動でパラメータ調整してくれる） optimizer を発表したらしい
https://twitter.com/_akhaliq/status/1616266295330185218
- arxiv: 2301.07733 (local copy)
  Learning-Rate-Free Learning by D-Adaptation (Aaron Defazio, Konstantin Mishchenko)
- github: facebookresearch/dadaptation
ちょうどいい機会なので、試してみた

...♦...

青空文庫

せっかく tiktoken を使ったので、
日本語に挑戦
日本語のデータセットといえば「青空文庫」ですね
- ZENKEI AI FORUM でも NLP の話で、昔、データセット作りました
  cf. Qiita: 青空文庫の外字をPythonでUnicodeに置換 (@kichiki posted at 2018-10-23 updated at 2018-10-24)
データセットの準備
- Language Model 用のデータセットなので、
  （作家別にまとめてあったけれど）
  今回は手元にあった１４作家を全員まとめて１つのデータとした
パラメータなどは、先の tiktoken の時と同じ
データのサイズはこれくらい
学習の結果
もっと学習させた結果

...♦...

GPT をスクラッチから実装
まとめ

GPT (Transformer の decoder 部分）のコードは全部書いて、動作確認できた
subword タイプの tokenizer である tiktoken を使ってみた
Language Model を、いくつかのセータセットに対して（簡単に）学習させてみた
- RNN (LSTM) の時に受けた印象を、ことさら上回るのもは（残念ながら）感じなかった
- しかし architecture を考えると、
  RNN 部分に本質はなく、
  attention の方できちんと学習すれば、いいのだ、ということは分かった
この architecture の単純さは Transformer の「スケーリング」につながっているのだろう
- つまり、今の小さいデータセットで、小さいモデルサイズでみると
  RNN 世代のものと質的に違いを感じられないが、
- 大きなデータセット、大きなモデルサイズにスケールアップすれば、そのまま性能もスケールアップしていく
- そのことは、実は、結局、リソースを持っているものが圧倒的に有利なゲーム、ということなんだなぁ

（トップに戻る、詳細目次へ）

...♦...

その他の情報

GPT-2
- OpenAI: Better Language Models and Their Implications (February 14, 2019)
- paper: PDF (local copy)
GPT-3
- arxiv: 2005.14165 (local copy)
  Language Models are Few-Shot Learners (Tom B. Brown, et al.)

Transformer カタログ
https://twitter.com/xamat/status/1626081981246341120

My Transformers Catalog has become one of my most popular posts ever.
Some of you told me that you turned into a pdf for easier reading.
I thought I should make it into an arXiv preprint. Here you go:
60 Transformers in 36 pages 🤖 🎉 

https://arxiv.org/abs/2302.07730

arxiv: 2302.07730 (local copy)
Transformer models: an introduction and catalog (Xavier Amatriain)

https://twitter.com/Yamkaz/status/1625639281430786049
```
30分で完全理解するTransformerの世界
      
```
- 30分で完全理解するTransformerの世界 (株式会社ZENKIGEN)
スケーリング
- https://twitter.com/ImAI_Eruel/status/1627191853983612928
```
今思うと、この時のツイートに
ChatGPT登場以降のゲームのルールが凝縮されていた感じがあります
	  
```
  - https://twitter.com/ImAI_Eruel/status/1346273648651321344
```
議論の余地はあるとはいえ,かなり凄いことが書かれてます
・Transformerの性能はたった3つの変数のべき乗則に支配される
・理論上,3つの変数を上げ続ければTransformerの性能は無限に上昇
・Transformerを利用する多くの分野が「お金をどれだけ払えるか？」の問題になる可能性
	      
```
  - ディープラーニングブログ (Ryobot)
    OpenAIが発見したScaling Lawの秘密 (2021-01-05)
- 先の「30分で完全理解するTransformerの世界」にも言及がありましたね
- arxiv: 2001.08361 (local copy)
  Scaling Laws for Neural Language Models
  (Jared Kaplan, et al. OpenAI)
- arxiv: 2010.14701 (local copy)
  Scaling Laws for Autoregressive Generative Modeling
  (Tom Henighan, et al. OpenAI)
https://twitter.com/rasbt/status/1626588781594955776
```
GPT in 60 Lines of NumPy
-- a simple yet complete technical introduction to the GPT
as an educational tool.

https://jaykmody.com/blog/gpt-from-scratch/

I love this!
It reminds me why coding in Python can be so much fun!
      
```
- Jay Mody: GPT in 60 Lines of NumPy (January 30, 2023)
- 「Numpy で GPT を 60 行で」というのは、 inference 部分
- 学習するには Numpy を JAX にして（するだけで、いいのか！）できる（らしい）

MetaFormer
-----------

https://arxiv.org/abs/2111.11418
MetaFormer Is Actually What You Need for Vision
Weihao Yu et al.



Toolformer
-----------

https://arxiv.org/abs/2302.04761
Toolformer: Language Models Can Teach Themselves to Use Tools
Timo Schick et al.

https://twitter.com/Yamkaz/status/1627106567350022147

すごい！！
自律的にAPIを呼び出し情報を得るToolformerを、
微調整なし、Zero/Few-shotプロンプトで再現した
「Toolformer zero」が公開
http://toolformerzero.com
https://github.com/minosvasilias/toolformer-zero

...♦...

ChatGPT とは？

ChatGPT どれほどのものよ？（技術的な話）
Instruct GPT
- OpenAI: Aligning Language Models to Follow Instructions (January 27, 2022)
- arxiv: 2203.02155 (local copy)
  Training language models to follow instructions with human feedback
  (Long Ouyang, et al.)
ChatGPT
- OpenAI: ChatGPT: Optimizing Language Models for Dialogue
PPO
- OpenAI: Proximal Policy Optimization
- arxiv: 1707.06347 (local copy)
  Proximal Policy Optimization Algorithms
  (John Schulman, et al.)

...♦...

HuggingFace の RLHF

HuggingFace: Illustrating Reinforcement Learning from Human Feedback (RLHF)
(1) Pretraining language models
(2) Reward model (RM) training
(3) Fine-tuning with RL
Open-source tools for RLHF
- PyTorch でのもの
  - TRL - Transformer Reinforcement Learning (https://github.com/lvwerra/trl)
    - HuggingFace ecosystem 内の LMs に対して PPO で fine-tuning できる
  - TRLX (https://github.com/CarperAI/trlx)
    - TRL の拡張で、より大きな LMs に対して Online/Offline 学習できる
    - PPO に加え、 Implicit Language Q-Learning (ILQL - https://sea-snell.github.io/ILQL_site/) も使える
  - RL4LMs (https://github.com/allenai/RL4LMs)
    - よりたくさんの RL algorithms (PPO の他、 NLOP, A2C, TRPO)、 reward functions や metrics が使える

...♦...

HuggingFace の RLHF に対するコメント
by Khanh X. Nguyen

https://twitter.com/khanhxuannguyen/status/1627446913275404289

The RLHF page of HuggingFace (http://huggingface.co/blog/rlhf)
misses many important citations.
Here are some classical RLHF papers that you should cite and why.

(0/7) To some people, RLHF means
"learn a reward model from human rankings and RL on it".
But the term literally conveys a much broader meaning:
any RL method that can learn from any type of human scalar feedback.

(1/7) In terms of RL for text gen,
cite Ranzato+15 (http://arxiv.org/abs/1511.06732)
and Shen+ (http://arxiv.org/abs/1512.02433)
who pioneer training text generators to optimize rewards,
and Bahdanau+17 (https://arxiv.org/abs/1607.07086)
who attempt the first actor-critic solution.

(2/7) In those works,
rewards given to the model were dense and computed automatically (BLEU).
Sokolov+15,16,17 (http://arxiv.org/abs/1601.04468,
http://arxiv.org/abs/1606.00739,
aclanthology.org/P16-1152)
is one of the first to really think about learning from human ratings,
modeling the problem as bandit learning.

(3/7) "Bandit" is important because
naturally you could only ask a human to give one rating for a whole text.
Sokolov formulation characterizes how difficult the problem is
compared to video-game dense-reward RL problems.

(4/7) Our 2017 paper (http://arxiv.org/abs/1707.07402)
is first to present and simulate the risk of using
user ratings for training text generators.
People have different opinions; one's opinion varies over time.
We show RL is robust to granularity, skew in rewards but not variance.

(5/7) Julia Kreutzer is a veteran on this topic.
She authors so many papers that analyze the feasbility of
learning translation systems from human feedback
(those with Sokolov,
and http://arxiv.org/abs/1804.05958,
http://arxiv.org/abs/1805.01553,
arxiv.org/abs/2011.02511).

(6/7) All of these works happened before or around the time of
Christiano+17 (http://arxiv.org/abs/1706.03741)
who introduce the now well-known method for learning from rankings,
and Stiennon+20 (https://arxiv.org/abs/2009.01325)
who apply the method with real humans on text summarization.

(7/7) I hope this tweet conveys a better snapshot of the history of RLHF.
Thanks for reading :)

I should say that the scope of this tweet is text gen.
The history of RL from humans of course dates way further back than this
(e.g. TAMER by Knox and Stone, Littman et al., etc.)

papers:
- arxiv: 1511.06732 (local copy)
  Sequence Level Training with Recurrent Neural Networks (Marc'Aurelio Ranzato, et al.)
- arxiv: 1512.02433 (local copy)
  Minimum Risk Training for Neural Machine Translation (Shiqi Shen, et al.)
- arxiv: 1607.07086 (local copy)
  An Actor-Critic Algorithm for Sequence Prediction (Dzmitry Bahdanau, et al.)
- arxiv: 1601.04468 (local copy)
  Bandit Structured Prediction for Learning from Partial Feedback in Statistical Machine Translation (Artem Sokolov, et al.)
- arxiv: 1606.00739 (local copy)
  Stochastic Structured Prediction under Bandit Feedback (Artem Sokolov, et al.)
- aclanthology.org/P16-1152 (local copy)
  Learning Structured Predictors from Bandit Feedback for Interactive NLP (Artem Sokolov, et al.)
- arxiv: 1707.07402 (local copy)
  Reinforcement Learning for Bandit Neural Machine Translation with Simulated Human Feedback (Khanh Nguyen, et al.)
- arxiv: 1804.05958 (local copy)
  Can Neural Machine Translation be Improved with User Feedback? (Julia Kreutzer, et al.)
- arxiv: 1805.01553 (local copy)
  A Reinforcement Learning Approach to Interactive-Predictive Neural Machine Translation (Tsz Kin Lam, et al.)
- arxiv: 2011.02511 ()
  Offline Reinforcement Learning from Human Feedback in Real-World Sequence-to-Sequence Tasks (Julia Kreutzer, et al.)
- arxiv: 1706.03741 ()
  Deep reinforcement learning from human preferences (Paul Christiano, et al.)
- arxiv: 2009.01325 (local copy)
  Learning to summarize from human feedback (Nisan Stiennon, et al.)

...♦...

Mathematica で有名な Stephen Wolfram のポストに対する意見

https://twitter.com/jeremyphoward/status/1627481905125003264

It's wrong though.
By failing to mention instruction tuning / RLHF
it gives completely the wrong understanding of what's actually going on.

ChatGPT isn't an LLM.
Yes, it's based on one,
but instructions tuning turns it into something very different.

（トップに戻る、詳細目次へ）

...♦...

パート２
音声合成

前回 (ZAF-2301)
- 要するに
  
  ３秒の音声を準備すれば、
  自分の声で喋ってくれるという VALL-E
  
  しかし、まだ実際に使うことができなかった……
  とガッカリしたけど、それでも、なんとかならないの？と調べた結果、
  
  ESPnet2
  
  というものを使えば、できそうだ、と言うところまで分かった。
- 今回は、そのつづき。
【情報１】
もみあげコレクション「ESPnetで高森藍子の声を錬成した (2022-12-15)」
- ここに、 ESPnet2 を使って、データセットを使って、音声合成モデルを作った話が紹介してある
- 読んでみると
- この辺りでいろいろ情報を書いてくれている npaka さんが、 ESPnet2 について紹介しているらしい。
【情報２】
ESPnet 入門 - 音声合成 (npaka 2020年11月14日 17:17)
- ESPnet は ASR （自動音声認識）と TTS （テキスト音声合成）の両方をカバー
- TTS の方法は、音響モデルとボコーダーに分かれるらしい
【情報１】に戻る
- そこでは、最初 Tacotron と ParallelWaveGAN を使ったが、
  その後、新しいモデル VITS を使った、とある
【情報３】 github: jaywalnut310/vits
VITS: Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech
(Jaehyeon Kim, Jungil Kong, and Juhee Son)
- arxiv: 2106.06103 (local copy)
  Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech (Jaehyeon Kim, et al.)
【情報１】に戻る
- そこでは、最初 VITS をスクラッチから学習して、うまくいかなかったようだが、
  その後、 ESPnet2 を使うと（簡単に） fine-tuning できることが分かったらしい。
ということで、 ESPnet2 をセットアップして、実際に試してみることにする

...♦...

ESPnet2

本家の情報
- github: espnet/espnet
- Qiita: ESPnet2で始めるEnd-to-Endテキスト音声合成
  (@kan-bayashi posted at 2020-09-19 updated at 2020-09-19)
```
ESPnet 開発チームの一員の林知樹さん自身による Qiita への解説記事
音声合成のモデルに VITS が振れられてない（導入される前の記事かな？）
	  
```
- ESPnet2で始めるEnd-to-End音声処理
  (林知樹 Sep 15, 2020)
ESPnet2 で、自分でデータセット作って学習させる手順

...♦...

（１） ESPnet2 のインストール

【全体公開】誰でも簡単に高品質な音声合成を作れる方法について考える【機械学習】
(February 6th, 2022 11:03)

少し古いかな？

現在では誰でも自分の声を音声合成にできる
【MYCOE(https://coeiroink.com/mycoeiroink)】が公開されており、
サポートもしっかりされているので
自分の声を音声合成にしたい場合は、こちらをおすすめしています。

この記事ので紹介されている colab ノートブックを参考にする。

google colab: ESPnetTest6.ipynb
「ESPnetをターミナルを使わずに回してみる」
Jupyter Notebook のターミナルから、インストール

...♦...

（２）データセットの準備

Qiita: [Whisper+ESPnet2(VITS)]音声合成システムを作った備忘録
(@3253 posted at 2022-10-28 updated at 2022-11-02)
- ここでは、 OpenAI の書き起こしモデル Whisper を使って、
  （ラベルなしの）音声ファイルだけから、 EPSnet の学習に必要なデータセットを作る手順が紹介されている
この記事を参考にして、以下のように、 ZAF-2301 の音声情報からデータセットを作った

...♦...

（３）学習

モデルの学習は、
先に紹介した google colab 及び、以下の記事
Qiita: ESPNetで作るキャラクター音声合成
(@RRR_troisR posted at 2021-12-31 updated at 2022-07-09) を参考に、進めた。
この記事の最初の部分（セットアップ）は、既に（１）インストールのところで実行済
- 具体的には以下
このあと、TTS レシピの step 1 から step 5 に相当する、学習のための準備を行う
- この記事では、以下の部分
ここでの本題である（３）学習は、 TTS レシピの step 6 に相当する。
- この記事では、以下の部分
- ここで、使ってるマシンの GPU (RTX-2080 Ti) のメモリの関係で、記事の通り batch_bins を調整する必要があった
- 学習には１５時間ほどかかる（予定） ...

...♦...

（４）推論

次に、 TTS のレシピの step 7
- この記事では、以下の部分
- ここで紹介されている記事
  Qiita: ESPnetの日本語TTSモデルで簡易的にアクセント指定できるスクリプトを作ってみた。
  (@seichi25 posted at 2021-12-05 updated at 2022-09-04)
さて、実験台には（学習には使ってない）「音楽と数理 🎼 ♾ ポッドキャスト」を使うことにします
- 最新回 S02E07 「〈トーク〉柄にもなく時事評論、など」の終わりの方のセクションを Whisper で書き起こした文章を kengo モデルに喋ってもらいましょう！
- ちなみに、これが正解（というか、ぼくが実際に喋ってるもの）
- Jupyter Notebook で
- で、お待ちかねの
  
  テキスト音声合成の
  結果です！
  
  ドヤ！
  （ぼくが自慢することでもないですが）
ということで、この kengo モデルを使えば、

テキストを与えるだけで
すきなだけ kengo さんに
喋ってもらうことができます！

やったー、これでラクできるー！

（今の AI の話題は、ほぼ全て、こういう「ラクできる」ってはなしですよね）

...♦...

おまけ
VTuber けんごさん

声が合成できたのなら、
顔も合成してしまおう、
つまり（本当の）バーチャル YouTuber ができるかどうか、実験してみよう！
ちなみに、使うものは ZAF-2301 で紹介した One-Shot Talking Face (colab)
音声ファイルと、画像ファイル１枚から、動画を作ってくれる AI モデルです
そのときの結果はこちら
毎度同じ顔でビデオ作るのも面白くないので、今回は１０年以上前の「けんごさん」に登場してもらうことにしました！
この One-Shot Talking Face のコラボノートブックの使い方のポイント
- 画像ファイルは 256x256 で PNG にしましょう
- 音声ファイルは３０秒程度にしましょう
- そのノートブックは、セルが２つだけで
  - （１）環境設定、ツールのインストールなど
  - （２）データの解析、合成
  と、全部込み込みな形になってますが、
- 複数の音声ファイルを取っ替え引っ替えしたいときとかの注意点
  - 音声ファイルは pocketsphinx と言うツールで発音の解析を行い、結果を JSON ファイルに出力している
  - 動画の合成時には、画像ファイル、音声ファイルに合わせて JSON ファイルも指定するので、
    音声ファイルと JSON ファイルの整合性に注意すること

ということで、

テキストと画像１枚だけから作られた

VTuber けんごさん

です！

素材

テキスト	画像
ああ、あのあれだ。そう、あのね、僕Amazonプライムに入ってるんで、 Amazonプライムにある映画とかドラマとか見れるんですが、ちょっとネットで話題になってたやつ、ボザロね。なんだろうと思ったら、Botch the Rockっていう漫画がっていう話があって、連続アニメで。もう終わっててAmazonプライムにはもう全話入ってたんで、見ましたけども、これ結構良かったね。良かったし、俺はYouTuberとして負けてるなと思いましたね。ひとりちゃんに。ギター買えるほど、っていうか収益化できてないもんね。っていうか、そもそもサブスク数が足してないから話にならないんだけども。っていう意味で負け負けですけどもね。いや、面白かったね、あれね。あれ見たら、

テキスト

画像

ああ、あのあれだ。そう、あのね、僕Amazonプライムに入ってるんで、
Amazonプライムにある映画とかドラマとか見れるんですが、
ちょっとネットで話題になってたやつ、ボザロね。
なんだろうと思ったら、Botch the Rockっていう漫画がっていう話があって、
連続アニメで。もう終わっててAmazonプライムにはもう全話入ってたんで、
見ましたけども、これ結構良かったね。
良かったし、俺はYouTuberとして負けてるなと思いましたね。ひとりちゃんに。
ギター買えるほど、っていうか収益化できてないもんね。
っていうか、そもそもサブスク数が足してないから話にならないんだけども。
っていう意味で負け負けですけどもね。いや、面白かったね、あれね。
あれ見たら、

結果
比較として、正しい音声を使った One-Shot Talking Face の結果

付録：時事ネタとして
- 数日前のはなし（昨日だったっけ？）暖炉の前でイケメンが喋ってるビデオが、 AI が生成したものだ、という話題があった
- それはそれとして「フゥン」と思ってたけど、どうも怪しいという話が
  https://twitter.com/nomtats/status/1628233243916136450
- 現状、 DIY 的と言うか、 Poor man’s なアプローチというか、
  上で示したようなことは、もう既にできますね、ということで
- ってか、 Microsoft の VALL-E って、いつ使えるようになるんだろう？