ZENKEI AI FORUM (2023/04/26)

...♦...

ZAF 2023 年 4 月 26 日

＜本日のテーマ＞

ゴールデンウィーク
AI で遊ぼう！

...♦...

オンラインの掲示板 https://forum.ai.zenkei.com/
５月１３日で閉じます。
- 最近は、ぼくくらいしか投稿してないし、
  実質、イベントのアナウンス場所になってました。
- これまで、会社（ZENKEI）にサーバー代払ってもらってました。
  ありがとうございました！
今後は、ツイッターなどあるので、ま、問題ないでしょう。

（トップに戻る、詳細目次へ）

...♦...

（前座）
技術書典１４

個人プロジェクト

エッセイ『ポッドキャストは自由にする』
書き起こし原稿を LaTeX に流し込んで PDF にしてみたが、現状 700 ページ近くになってしまった…
https://twitter.com/ichiki_k/status/1649212745999605760
「文庫本」計画はペンディングして、
「単行本」を出すことに（「後から印刷」で）
ページ数に上限があるので、場合によっては「技術書典版」として『ポッドキャストは自由にする（抄）』にするかも

...♦...

サークルプロジェクト

まだ、なにもできてない
まだ、なにも届いてない
ZAF のこれまでの内容のまとめ、かな
個人プロジェクトが押してるので、自分で書き下ろしは難しい……

（トップに戻る、詳細目次へ）

...♦...

パート１
ボイスチェンジャー

Text-To-Speech

まえにやった TTS のはなしの振り返り
ZAF-2301 - VALL-E とか ESPnet2 とか
ZAF-2302 - VTuber けんごさん
- ESPnet2 を使って、 VITS という Text-To-Speech モデルを、自分の声で fine-tuning した

...♦...

応用編： VTuber けんごさん

ChatGPT で書いた物語を VTuber けんごさんに語ってもらう

タマという犬の冒険

作、ChatGPT

タマは小さな犬でしたが、とても勇敢でした。
ある日、彼女は家の庭で遊んでいると、
突然大きな鳥が現れました。
鳥はタマをつかまえ、
空に飛び上がってしまいました。
タマは怖かったけれど、彼女は決して諦めませんでした。
彼女は鳥の背中にしがみつき、空を飛び続けました。
しばらくの間、タマは風に揺られ、空を飛び続けました。
やがて、鳥は山の上に着陸しました。
タマは鳥から逃げ出し、周りを見回しました。
彼女は山の中に入り、
そこで新しい友達に出会いました。
彼女の友達は、山の中に住む小さな動物でした。
タマは彼女の新しい友達と一緒に、
山の中を探検しました。
彼女たちは、美しい滝や川、
そして森の中を歩きました。
しかし、彼女たちは危険な状況にも遭遇しました。
彼女たちは、大きな熊やヘビと
戦わなければなりませんでした。
タマは彼女の勇気と友情によって、
山の中で多くの冒険を経験しました。
そして、彼女は家に戻ることができました。
彼女は家に戻ったとき、
彼女の家族に彼女の冒険の物語を語りました。

彼女の家族は、タマの冒険の物語を聞いて驚きました。
彼らは、タマが山の中でどのように生き延びたのか、
そして彼女がどのように勇敢に振る舞ったのかを
知りたがっていました。
タマは、彼女の家族に彼女が出会ったすべての
動物や人々の物語を語りました。
彼女は、山の中で出会った熊や鹿、
そして山賊たちとの戦いについても話しました。
彼女の家族は、彼女が冒険を経験したことに驚き、
そして彼女の勇気に感銘を受けました。
彼らは、彼女が家に戻ってきたことを喜び、
彼女を抱きしめました。
そして、タマは、彼女の冒険の物語を書いた本を
出版することを決めました。
彼女の物語は、多くの子供たちに勇気と友情の大切さを
教えることになりました。
タマは、彼女の冒険を通じて、自分自身を見つけ、
そして彼女の家族や友人たちとの絆を
強めることができました。
そして、彼女は、自分自身が何を達成できるかを知り、
自信を持つことができました。

タマは、自分自身を見つけた後、
新しい冒険に挑戦することを決めました。
彼女は、自分が何を達成できるかを知っていたので、
自信を持って次のステップに進むことができました。
彼女は、新しい友達を作り、新しい場所を探検し、
新しいことを学びました。
そして、彼女は、自分自身が成長し、
自分自身を信じることができました。
最終的に、タマは、彼女の家族や友人たちと再会し、
彼らに自分の冒険の物語を語りました。
彼女は、彼らに自分自身を見つけ、
自信を持つことができた理由を説明しました。
そして、彼女は、彼女の家族や友人たちと一緒に、
新しい冒険に出かけることを提案しました。
彼女は、彼らと一緒に冒険することで、
彼らとの絆をより強めることができると感じました。
彼女の提案に賛成した家族や友人たちは、
彼女と一緒に新しい冒険に出かけました。
そして、彼らは、新しい場所を探検し、新しい友達を作り、
新しいことを学びました。
彼らは、タマの冒険を通じて、自分自身を見つけ、
そして彼らの絆を強めることができました。
そして、彼らは、自分自身が何を達成できるかを知り、
自信を持つことができました。
彼らは、幸せな結末を迎えました。

...♦...

RVC

github: RVC-Project/Retrieval-based-Voice-Conversion-WebUI
４月上旬、リアルタイムでのボイスチェンジャーで、そのクオリティの高さに話題になる
zenn: 最近のAIボイスチェンジャー(RVC、so-vits-svc) (tonimono 公開 2023/04/09)
- ここに、 RVC がどういう処理を行っているのかの説明がある
- 音声合成のモデルは、前に実験した VITS を使っているらしい
- VITS を（リアルタイムの）ボイスチェンジャーに応用するため、
  特徴量ベクトルのマッチングを FAISS を使って行っているらしい（興味深い！）

...♦...

RVC デモ

学習
- GUI (WebUI) から行った
- Jupyter Notebook の Terminal から infer-web.py を起動
- 最初、「推論」のタブが開くので、「学習」のタブに切り替える
- モデルの名前 (experiment name) と、
  学習データのパス (training folder path) を指定するここで、学習データは、 wav ファイルだけでよい（ラベルなどは不要）
- 「推論」画面の step 3 の学習パラメータをセットして、
  一番右のボタン「One-click training」を押すと、学習が開始される
- データの量によるが、数時間で終わる（早いね）

推論
- GUI (WebUI) で操作するのが面倒だったので、
  Jupyter Notebook から叩いてみた

結果

声（モデル）	音楽と数理ポッドキャスト	スタートレック（日本語）	スタートレック（英語）	仮面ライダー
kengo	（オリジナル）
石川さん
kohakuVoice (Ver0.0.2)
AISO-HOWATTO

BOOTH: （日向れいらのガラクタ置き場） RVC向け学習済みデータ_kohakuVoice
(https://hinata-reira.booth.pm/items/4692030)
BOOTH: （ちはや神社）【無料】RVC向け学習済みボイスモデルデータ「愛想良い系少女の声　5種風味パック」
(https://booth.pm/ja/items/4701666)

...♦...

🐶Bark

ツイートから

https://twitter.com/1littlecoder/status/1649166413947449346

🔥 Open Source AI Text-to-Speech hits new peak 

✅GPT-like Text-to-Speech AI Audio model!
✅Open Source
✅Works on Free Colab

My Video - https://youtu.be/84LzaXAo6vE
Github - https://github.com/suno-ai/bark
Colab - https://colab.research.google.com/drive/1eJfA2XUa-...

Thanks to @OnusFM Bark AI 🐶

https://twitter.com/izutorishima/status/1649640977127337984

なんだこれ革命的すぎる、
プロンプトから声や歌、効果音、ノイズ諸々音声なんでも錬成できる
GPT ベースの AI らしい……（十分に発達した科学技術は、魔法と見分けがつかない）

https://github.com/suno-ai/bark

https://twitter.com/goto_yuta_/status/1649639835811090432

どうやら自分の声を10秒くらい録音するだけで複製できるやばい時代が来てしまったらしい。
家で試そう。

https://github.com/serp-ai/bark-with-voice-clone

...♦...

🐶Bark デモ

https://huggingface.co/spaces/suno/bark

Speaker 0 (ja)	Speaker 0 (en)	Unconditional

...♦...

🐶Bark ボイス・クローン

github: serp-ai/bark-with-voice-clone

	speaker_0	announcer	en_speaker_0	en_kengo (ja_kengo)
hello
star trek
こんにちは

...♦...

その他、音関係の話題

Whisper 関連

Whisper は OpenAI がリリースしてる Speech-To-Text のモデル

https://twitter.com/sanchitgandhi99/status/1649046650793648128

Life is too short to wait for slow transcription models 🥱

That’s why we’ve made Whisper **70x faster**

Whisper JAX ⚡️ is a highly optimised Whisper implementation
for both GPU and TPU

Try it here: https://huggingface.co/spaces/sanchit-gandhi/whisper-jax

And transcribe a 1 hour of audio in under 15 seconds!

https://twitter.com/osanseviero/status/1649061074467971073

You can now transcribe audio with Whisper 70 times faster
than the original implementation! 🔥

Transcribe 2-hour movies in 2 minutes!🤯For free, with Open Source tools!

Kaggle notebook (free TPUs)
https://kaggle.com/code/sgandhi99/whisper-jax-tpu
GitHub repo: https://github.com/sanchit-gandhi/whisper-jax

https://twitter.com/Open_BrainPad/status/1649210122797973504

Whisperが70倍高速化されたそうです
いや、ドラゴンボールくらい強さがインフレしてますね
#LLM

https://github.com/sanchit-gandhi/whisper-jax

https://twitter.com/gordic_aleksa/status/1649459065549111296

Oh my. OpenAI’s Whisper just got 70x faster!!! 😱🤯 
Highly optimized Whisper implementation for both GPU & TPU:
https://github.com/sanchit-gandhi/whisper-jax

An hour of audio in under 15 seconds apparently? 😅 
(caveat: on TPUs, still fast on GPUs!)
1/

NeturalSpeech2

NeturalSpeech2 は Microsoft がリリースした TTS モデル

https://twitter.com/gigazine/status/1649005068853686274

Microsoftがわずか数秒のサンプルから会話や歌声を再現できる
音声合成AI「NaturalSpeech 2」を発表

https://gigazine.net/news/20230420-natural-speech-2-tts/

https://twitter.com/sald_ra/status/1649196856025681922

声帯の民主化が加速してる気がする
RVCもすごかったけどNaturalSpeech2は数秒の音声でできるところに強みがありそう

音質が録音音声の質によってどれだけかわるのかは結構気になってる
https://speechresearch.github.io/naturalspeech2/

このモデルは Latent Diffusion Model の音声版で、歌声にも対応しているらしい
Microsoft が前にリリースした VALL-E (VALL-E X) との関係はどうなんだろう？

（トップに戻る、詳細目次へ）

...♦...

パート２
AI セキュリティ問題

現状の認識（私見）
- Yudkowsky
- Altman, Sutskuver と OpenAI
- Tegmark と FLI
- Moloch とは
この状況でできること
- 状況を理解すること
- つまり、分からんけどやっちまえ、としない

...♦...

AI Safety

Max Tegmark

https://twitter.com/lexfridman/status/1646647589746659328

Here’s my conversation with Max Tegmark ( @tegmark ),
his 3rd time on the podcast. We discuss AGI, AI safety,
nuclear war & the open letter (he co-led) calling for the halting of
further development of large AI systems for 6 months.
This was fascinating!
https://youtube.com/watch?v=VcVfceTsD0A

https://twitter.com/tegmark/status/1646588981927133184

It was great fun being back on Lex’ podcast and getting
to discuss AI risk & hope without having to boil big ideas
into tiny soundbites!

bioshok(INFJ) さんの情報

https://twitter.com/bioshok3/status/1647034502412378112

最近FLIがGPT-4以上の能力を持つAIのトレーニング中止公開書簡を出しましたが、
それに関連して、AIアライメント問題と呼ばれるAIの価値観を人間に沿わせる必要性を
最初期に訴えていたEliezer Yudkowsky氏の去年の記事を和訳しました。
長いので最後のまとめからみると良いかも

https://note.com/bioshok/n/n7807ec6c7294

https://twitter.com/bioshok3/status/1647676055543754754

GPT-4以上の性能のトレーニングの停止を求めたFLI共同創設者のマックステグマーク氏と
レックスフリードマン氏の対談を和訳しました。
5年前にLife3.0という本で人類の長期的な未来を描かれていて
とても興味深いので是非読んでない方はオススメです。

https://twitter.com/bioshok3/status/1647660828341207040

https://nytimes.com/2023/03/24/opinion/yuval-harari-ai-chatgpt.html
ユヴァルノアハラリのAIに関する3月後半の投稿。
「SNSは、AIと人類のファーストコンタクトであり、人類は敗北した。
(中略）LLMは、私たちがAIと接する2回目の接触。
人類はこうした新しい形のAIを調整することができるのだろうか。」
SNSでさえ社会が混乱する。LLM・・・

https://twitter.com/bioshok3/status/1647943908457066496

ドイツ国営の国際放送局のマックステグマーク氏
（6ヶ月のAIトレーニング中止を公開書簡で出したFLI共同創設者）
へのインタビューを和訳しました。
https://note.com/bioshok/n/ndd2b67d08949
「これはSFではない。（中略）これは軍拡競争ではなく、自殺競争なのです。」
一方でYudkowsky氏よりは楽観的な意見のようだ。

https://note.com/bioshok/n/ndd2b67d08949

Sam Altman

https://twitter.com/amyneurons/status/1646649674122641409

Today at MIT: Sam Altman and Lex Fridman round 2
whereby Sam confirms that there is no gpt5 in the works
and responds to the letter calling for a 6 month halt in AI.
@sama @lexfridman @MIT

https://twitter.com/odashi_t/status/1648471077952294914

以前予想した通りのこと言ってる。

https://www.wired.com/story/openai-ceo-sam-altman-...

https://twitter.com/sama/status/1649173931759403008

heard something like this 3 times this week:

"our recent grads are now much more productive than people
who have worked here for years because they’ve really learned
how to use ChatGPT".

その他

https://twitter.com/kyogok/status/1648882743663804416

生物学と物理学の境界について、少し前に思うところを書いた文を公開します(PDF)。
双方の研究者がどういうところで仲違いしているのか、
寺田寅彦が研究者の間で好かれてたりそうでもなかったりするのはどういうことか、

https://drive.google.com/file/d/1Ljo7MKiqnOgowr0tRRmxdULN_D-zU_YD/view
生物学と物理学のひびわれ―寺田寅彦の長い影
川口喬吾

https://twitter.com/dela3499/status/1649057415801757696

Emergence: understanding and exploiting patterns in reality

https://twitter.com/bioshok3/status/1650547796259504130

最近イーロンマスクやジェフェリーヒントン氏、Yoshua Bengio氏、
Meta AIのヤンルカン氏といった大御所始めユヴァルノアハラリも
これから人類AIで生き残れるのかわからんみたいな話をしたり、
哲学の大御所のチャーマーズ氏もYudkowsky氏にAGIによる絶滅が
なぜデフォルトなのかと聞いたりAIアライメント

https://twitter.com/rom13856511/status/1650469303022653442

ユヴァル・ノア・ハラリ「AIが民主主義の終焉をもたらすかもしれない」

サピエンス全史のユヴァル・ノア・ハラリがYoutubeで
「AIが民主主義の終焉をもたらすかもしれない」という趣旨の発言をしていたのでご紹介！

https://youtube.com/watch?v=JV9tzdYT5FU

動画のハラリがの発言部分だけをまとめています。

## AIは自分で意思決定できる

- AIについて理解しなければならないのは、それが自分で意思決定できる
最初のツールであるということ
- 人類の歴史におけるこれまでの発明は、常に私たちに力を与えてきた
- 意思決定は常に人間が行っていた
- ナイフを発明しても、それをサラダを切るのに使うか、誰かを殺すのに使うか、
手術で命を救うのに使うかは、ナイフには決められない
- 原爆を発明しても、同様に、原爆はいつ、誰を、どこで攻撃するかを決めることができない
- AIは、実際に自分で意思決定ができる最初のテクノロジー
- 自分自身の使い方や開発について決定することができるのです
- 核兵器はより良い核兵器を作ることはできませんが、AIはより良い眼球を作ることができる
- AIは私たち人類に関する意思決定をすることができ、実際に行っている
- AIは最初の小さな赤ん坊の一歩を踏み出したばかり
- 40億年前に有機生命体が誕生したというのに、AIは10年でここまで進化した
（たぶんAlexNetから10年ってことだと思う）

## AIの驚異から身を守るには？

- 今のところ、私たちはまだコントロールできている
- しかし何年続くかわからない
- まずはAIの能力を理解し、その展開を遅らせて、賢く安全に使うようにする必要がある
- 製薬会社が、非常に厳しい安全性のチェックを経ずに、
いきなり新薬を世に出すことができないのと同じ

## AIが民主主義の終焉をもたらすかもしれない

- 間違った人の手にAIが渡ると、民主主義は終わる可能性がある
- 人類史上最悪の全体主義体制の基盤になり得る
- 独裁者はすべての人を常に監視することを夢見る
- ソビエト連邦でさえ、2億人のソビエト市民がいるため、実現しなかった
 -> しかしAIなら実現できる

  ## 希望はあるか？

- 同じテクノロジーを使ってまったく異なる社会を築くことができる
- 電車やラジオ、電気を使ってソ連のような全体主義体制を築いた人もいれば、
まったく同じ技術を使って自由民主主義国家を築いた人もいる
- それはAIでも同じ
- AIに関しては、どう採用するかという選択肢がまだある
- AIはまだその可能性を十分に発揮できていない
- しかし、人間もまたその可能性を十分に発揮できていない。
自分の頭脳や心の可能性を十分に理解していない
- もし、AIの開発に1ドル1分投資するごとに、
私たち自身の心や意識の開発にもう1ドル1分投資するのであれば、私たちは大丈夫

...♦...

YouTube ビデオ

The mind behind Linux | Linus Torvalds
- Linus は気難しいとか、噂は聞いてたけど、
  このビデオ見て、すごく親近感を覚えた
- というか、これみると、 Chris Anderson すら俗物に見える、という
Max Tegmark: The Case for Halting AI Development | Lex Fridman Podcast #371
Donald Knuth: Algorithms, Complexity, and The Art of Computer Programming | Lex Fridman Podcast #62
Donald Knuth: Programming, Algorithms, Hard Problems & the Game of Life | Lex Fridman Podcast #219
- ぼくは Computer Science な人間じゃないので（コンピュータは独学）
  その偉大さは実感できてないところはあるんだけど、
  - とはいえ、普通に (La)TeX の恩恵は受けているし、
    格好だけだけど「The Art of Computer Programming」は３巻までは持ってる（持ってるだけ、ともいうが）
  - でも「Literate Programming」（邦題『文芸的プログラミング』）は読んだな
- そういえば、昔のブログ（2013年！）
  https://medium.com/@ichiki_k/f3baff9edc33
- このインタビューから、引用：
```
All the time I’m working out and what i want or what i don’t want to do,
but still, I’m glad to have all those unpleasant tasks finished.
	  
```
- このインタビューから、引用、その２：
```
It’s always the same as i’ve said before
I guess not to do something because it’s trendy
but it’s something that you personally feel that you were called to do right
rather than somebody else expects you to do.
How do you know you’re called to do something,
you try it and it works or it doesn’t work.
I mean, you learn about yourself.

"Life is a binary search."
	  
```
- このインタビューから、引用、その３：
```
Actually, the most important thing i learned was
how to be interested in almost anything.
I mean, not to be bored.
	  
```
Demis Hassabis: DeepMind - AI, Superintelligence & the Future of Humanity | Lex Fridman Podcast #299

（トップに戻る、詳細目次へ）

...♦...

今日のおわりに

……

今後の予定

次回 ZAF は 2023 年 5 月 31 日開催の予定です。
ZAF 講演者、 ZAM 執筆者、絶賛、大募集中です！
お気軽にお問い合わせください！

...♦...

...♦...