
ZAF 2023 年 1 月 25 日
<本日のテーマ>
2023年のスタート
目次
- [6:30 - 7:00] 前座 1年の計は1月の ZAF にあり
- [7:00 - 8:00] パート1 最近の話題から
- [8:00 - 9:00] パート2 技術書典14
- 今日のおわりに
- 総合目次
YouTube のアーカイブ・ビデオはこちら
(
https://youtube.com/live/XO4mGczavuo)

(前座)
1年の計は
1月の ZAF にあり
1年の計は
1月の ZAF にあり
音楽と数理ポッドキャスト


- 趣味の方のポッドキャスト、今年から運営方針を変更
毎週金曜日 午後10時に
エピソードをリリース
- 今年に入って既に3本のエピソードをリリース
- S02E01
〈ピアノ〉2022年の振り返りと、新レパートリー?
- S02E02
〈トーク〉2022年エピソード・ランキング年間ベストテン
- S02E03
(English) My 2023 New Year’s Resolution and Future with AI
- セクション1:個人的な継続課題
- ピアノ
- 瞑想 (cf. ZAF-2212)
- ポッドキャスト
- セクション2:個人的な新規課題
- (トイ)レコードを作る
- 英語の(紙の)本をアマゾンで世界に向けて売る
- セクション3:非個人的な今年の希望
- Peace ☮ and Love ❤
- セクション1:個人的な継続課題
- S02E01
〈ピアノ〉2022年の振り返りと、新レパートリー?
- ってことで、これは「いちきけんご」の今年 2023 年の目標でした
- さて、「ZENKEI AI FORUM」の 2023 年の目標は?
- (これが、結構、難しいよね……昨今の技術の進歩とか考えると)
- もう1つ、アナウンス(決定事項)
- 「音楽と数理ポッドキャスト」は、
いわゆる「重いコンダラ」システムと呼ばれる
エピソードのローテーションを行ってきましたが、
今週金曜日予定の S02E04 で
〈Music+Talk〉回(通称「音楽回」)は
最終回とします
- ポッドキャストとしては〈裏〉回のみとします
- YouTube プレイリスト版は、継続します
- 「音楽と数理ポッドキャスト」は、
いわゆる「重いコンダラ」システムと呼ばれる
エピソードのローテーションを行ってきましたが、
ZENKEI AI ポッドキャスト
- 毎週水曜日、1話ずつ、進んでます
- 今日は、シーズン28エピソード2
- 去年 2022 年4月の ZENKEI AI FORUM (ZAF-2204) からの内容です
- 去年 2022 年4月の ZENKEI AI FORUM (ZAF-2204) からの内容です
- シーズン28は全5話、既に仕込みは完了してます!
- さて、本題(?)の
ZENKEI AI FORUM
今年 2023 年の目標は?
- (1)継続
- (2) ZENKEI AI MAGAZINE 刊行
- (3)なにかありますか?
(目次に戻る)
パート1
最近の話題から
困ったときの
「最近の話題から」
ですね
これまでの「最近の話題から」
OpenAI 関連
- https://twitter.com/karpathy/status/1617979122625712128
The hottest new programming language is English
- ChatGPT のことですね
- https://twitter.com/goto_yuta_/status/1615154914275254272
ChatGPTに共通テストの英語解かせたら77 % の高得点を記録しただけでなく、 途中から"問題の文章を与えた時点で、設問を勝手に生成しはじめた"り、 "自分で問題を作って答え"たり、別次元の凄さ見せつけてくるらしい。
- https://twitter.com/goto_yuta_/status/1615154914275254272
ここ最近の流れ
- ChatGPT が公開されました
- (というのは、既に述べました)
- こいつの本体は、近く公開されると噂の GPT-4 ではなく、
既に公開済みの GPT-3 の改良版的な GPT-3.5 らしい
- Microsoft が追加の巨大投資を行うと発表
- https://twitter.com/TrungTPhan/status/1612707453787074562
Microsoft looking at a $10B investment into OpenAI: • At a $29B valuation • MSFT gets 75% of OpenAI profits until it recoups $10B • After recouping $10B, the ownership structure becomes MSFT (49%), other investors (49%) and OpenAI non-profit parent (2%)
- https://twitter.com/TrungTPhan/status/1612707453787074562
- これを見て、みんな、あれこれ憶測をする
- https://twitter.com/bioshok3/status/1612696245621100544
いやなんというかさ、流石に100億ドルの投資って これ相当なOpenAIの技術に対する確信的な世界を変えるという感覚がないとできないでしょこれ。 つまり、もう現時点でOpenAIとマイクロソフト幹部の一部は もうこれ産業革命レベルだなって気付いている可能性が激高なんだが?
- https://twitter.com/fladdict/status/1612720829091155968
素直に考えると、 MSの幹部あつめてGPT4かGPT5の体験デモをした結果、 なにかすごい判断がおきたと解釈した。
- https://twitter.com/bioshok3/status/1612696245621100544
- そうこうしてたら、これまで公開を渋ってた Google が API 提供などアナウンス
- https://twitter.com/sundarpichai/status/1615820298305118221
Summary of great research progress on #GoogleAI, including language models, computer vision, multimodal models, generative ML. We're building it all into current and upcoming products + APIs, look forward to sharing more with everyone soon. Stay tuned! https://ai.googleblog.com/2023/01/google-research-2022-beyond-language.html
- https://twitter.com/EMostaque/status/1615863021615697921
Google generative AI APIs incoming, hold onto your hats…
- https://twitter.com/umiyuki_ai/status/1615867321775710209
え…GoogleのLaMDAとかImagenがAPI提供されるわけ? Googleのヤツ、AzureにOpenAIが来たからって慌てすぎでは。 迂闊に開放したら世界がヤバいAIじゃなかったんか →RT
- https://twitter.com/sundarpichai/status/1615820298305118221
- そんな中、 OpenAI のトップ Sam Altman の
公開の場でのインタビューのビデオが流れてきた
- https://twitter.com/bioshok3/status/1615894949475799040
https://youtube.com/watch?v=ebjkD1Om4uw 以下の記事でGPT4に関しての誇大広告にOpenAI CEOが釘を刺しているが そのエビデンスの動画が上記。(全体として聞く方がニュアンスがわかると思う) そして以前紹介したvideo modelについて何らかの発言もしている。これは見なくてはいけない。
- みてみました (https://youtu.be/ebjkD1Om4uw)
- OpenAI の書き起こしモデル Whisper で書き起こし
- 世間が加熱している真っ只中に出てきてインタビューを受ける姿勢に感動
- 受け答えも、きちんと考えてきた人間の言葉だったと思った
- https://twitter.com/bioshok3/status/1615894949475799040
未来予想
- (すると、いつも暗い気分になるので、やりたくないのだが……)
- https://twitter.com/fladdict/status/1618112155165036544
もう数年もすれば、AIアシスタント代が払えるかどうかで、 「24時間マサチューセッツの教授チームがメンターしてくれる」 vs 「図書館で独学する人」みたいなエグい差がつく時代になるということ。 月5000円とか3万円払えるかどうかで。
- 具体的な形はどうであれ
新しい(価値のある)技術は
金持ちから使い始める
- その技術が十分に行き渡るまでの過渡期に、必然的に 格差が生まれるだろう
- 問うべき問いは、
その格差は、(技術が十分に行き渡る過程で)
無くなっていくのかどうか?
- あるいは、
果たしてその技術がみんなに行き渡るのか?
- (悲観的すぎる?)
- そう考えると、昨今の OpenAI の
(DeepMind や Google 他も入れていい?)努力(?)は、
あれでも頑張っているのかもしれないな、とか思ったり
AI と社会
- 社会との関わりなど考えたとき、
今回の件で話題になった以下の話とかも、
重要なポイントだろう
- https://twitter.com/mehori/status/1615894250465681408
OpenAIはChatGPTの開発にあたってデータから残酷な虐待や殺人などの描写を取り除くために 安価なケニアの労働者にデータのモデレーションをさせていたという報告 我々がAIの生み出すきれいなデータを利用する裏側で、 こうした労働が一部の人間に押し付けられる現実があるのか
- https://twitter.com/mehori/status/1615894250465681408
- 別の文脈から、 AI と社会との関わりについて
- https://twitter.com/AkioHoshi/status/1615600818849472520
「AI技術が民主主義を混乱させ破壊する」という趣旨の警告が相次いで出てきた。 以下、紹介する。
- https://twitter.com/AkioHoshi/status/1615600818849472520
- こう考えると、
ぼくの敬愛する Jeremy Howard (FastAI) は、 早い時点から、
「AI と社会」について (倫理観や、暗黙のバイアスについて)
意識的に考えていたのだな、と思ったりする - ……こうやって考えてくると、疲れてきた……
- すると……(いつもの癖で)
牧歌的な技術の世界(人と人の関わりのない世界)に逃げ込みたくなる……- https://twitter.com/karpathy/status/1615398117683388417
🔥 New (1h56m) video lecture: "Let's build GPT: from scratch, in code, spelled out." https://youtube.com/watch?v=kCc8FmEb1nY We build and train a Transformer following the "Attention Is All You Need" paper in the language modeling setting and end up with the core of nanoGPT.
- https://twitter.com/karpathy/status/1615398117683388417
(目次に戻る)
その他の話題
OpenAI 以外の、
「最近の話題から」
音声合成関連
- 2つのモデル(フレームワーク)を取り上げる
VALL-E
- VALL-E
- arxiv: 2301.02111
Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers
- arxiv: 2301.02111
- https://twitter.com/goto_yuta_/status/1612721224647573507
VALL-Eやばすぎる。 自分の声を3秒読み込ませるだけで、自分の声風にテキストを音声に変換できるようになるらしい。 https://valle-demo.github.io
- https://twitter.com/Yamkaz/status/1611715628360171528
Microsoftより音声版DALL-E 「VALL-E」が発表! https://valle-demo.github.io 3秒間の人の音声のサンプルを使用し、同じ音声で高品質なテキスト通りの音声を生成できる。 サンプルデータの感情や音響環境まで再現することができる
- https://twitter.com/Yamkaz/status/1615552120618643457
VALL-Eの非公式PyTorch実装が公開 https://github.com/enhuiz/vall-e
- https://twitter.com/DrJimFan/status/1612496633056620545
Here’s the recipe to make Siri/Alexa 10x better: 1. Whisper to convert speech to text. Best open-source speech model out there. 2. ChatGPT to generate smart home API calls and/or text response. 3. VALL-E to synthesize speech. It can mimic anyone’s voice sample! Quick figure 1/3
ESPnet
- https://twitter.com/izutorishima/status/1614874074827853824
悪魔の技術だ、すごい ESPnetで高森藍子の声を錬成した - もみあげコレクション https://momicolle.hatenablog.com/entry/2022/12/15/182519
- ググってみた
WiFiのシグナルは重要な情報
- https://twitter.com/hillbig/status/1615814599705788416
画像でなくWiFiを入力とし空間中の複数人の密な姿勢推定を行う。 照明、遮蔽の影響がなくプライバシー問題が少ない。 3アンテナルーター二台使い、振幅と位相から画像認識器の特徴マップを転移学習で推定し、 RCNNで姿勢推定。画像ベースと比べ精度は劣るが将来性がある https://arxiv.org/abs/2301.00250 DensePose From WiFi
- https://twitter.com/CeoImed/status/1613480279439556608
面白い!!! 「WiFi信号の深層学習で呼吸不全検知の可能性」 ・ Wi-Fi チャネル状態情報(CSI)と呼ばれる信号に着目 ・ 胸部の動きで変化するCSI信号を解析→ 呼吸状態を検出できるアルゴリズムを開発 ・ 医療用マネキンを用いて呼吸パターン・呼吸速度を約99 % の精度で分類 https://medit.tech/monitoring-respiratory-motion-with-wi-fi-csi/
- https://twitter.com/AiBreakfast/status/1613550599144091650
🤯 Full body tracking now possible using only WiFi signals A deep neural network maps the phase and amplitude of WiFi signals to UV coordinates within 24 human regions The model can estimate the dense pose of multiple subjects by utilizing WiFi signals as the only input 🧵
まとめ系の情報
- https://twitter.com/ogawa_yutaro_22/status/1615474162671443969
各種「Generative AI」について丁寧にまとめた論文?記事?でした Text-to-image Text-to-3D Image-to-Text Text-to-Video Text-to-Audio Text-to-Text Text-to-Code Others https://arxiv.org/abs/2301.04655 ChatGPT is not all you need. A State of the Art Review of large Generative AI models
- https://twitter.com/Yamkaz/status/1615536984373751808
Transformerモデルのカタログ、年表 https://amatriain.net/blog/transformer-models-an-introduction-and-catalog-2d1e9039f376/#Timeline
- https://twitter.com/xamat/status/1615109028912467970
Pretty big update to my Transformer Catalog. I added ChatGPT, Sparrow, and Stable Diffusion among others. I also included a section about RLHF and Diffusion models and a new timeline view. Enjoy! https://amatriain.net/blog/transformer-models-an-introduction-and-catalog-2d1e9039f376/
- https://twitter.com/xamat/status/1615109028912467970
DeepMind
- https://twitter.com/bioshok3/status/1613942246268862467
す、すごい・・・。DeepMindがとても印象的な論文を出している! 簡単にいうと人間が解釈可能なプログラム命令をTransformerモデルの重みに変換する 「Tracr」と呼ばれる「コンパイラ」を提案! 例えば以下図で3542をソートするプログラムを書くと それがコンパイラで「モデルパラメータに変換」される!
- https://twitter.com/_akhaliq/status/1613716537944195073
Tracr: Compiled Transformers as a Laboratory for Interpretability abs: https://arxiv.org/abs/2301.05062
- https://twitter.com/_akhaliq/status/1613716537944195073
- https://twitter.com/DrJimFan/status/1613243066026168321
Many people don’t understand how challenging Minecraft is for AI agents. Let me put it this way. AlphaGo solves a board game with only 1 task, countably many states, and full observability. Minecraft has infinite tasks, infinite gameplay, and tons of hidden world knowledge. 🧵
- https://twitter.com/Yamkaz/status/1613356501984514048
DeepMind社より、Minecraftでゼロからダイヤモンドを収集する 初の汎用アルゴリズム「DreamerV3」が発表! https://dpmd.ai/dreamerv3 チューニングなしで多くの領域を習得することができ、強化学習の適用範囲が広がるとのこと
そのほか
- https://twitter.com/mathemagic1an/status/1615378778863157248
Clever (and easy!) trick for better LLM context retrieval for those who haven't seen it: HyDE: Hypothetical Document Embeddings https://arxiv.org/pdf/2212.10496.pdf Take your query => create *hypothetical* answer => embed hypothetical answer => use this to search through doc embeddings 1/
- https://twitter.com/kajikent/status/1614244994340237318
ついに「Text to World」とも言うべきテキストを書いただけで3Dゲームを作れるAIも出てきた。 冗談抜きで近い将来、ブログ感覚で人々がセカイをつくる時代が来る。 https://twitter.com/theCommonToken/status/1612372797355089921
- https://twitter.com/forasteran/status/1613357908598849538
特定の層のブロック研究してるひともおるんね! 5chの中の人に変態がいるw 影響の強いブロックを見て、 特定ブロックに異なる呪文を入れたり、 層別マージに活かしたりwww Dump U-Net (U-Net の特徴量を可視化するための stable-diffusion-webui の拡張) 🔨http://gitlab.com/hnmr293/stable-diffusion-webui-dumpunet
- https://twitter.com/hillbig/status/1610761874127323137
非平衡熱力学でフォッカープランク方程式から導出されるエントロピー生成率σが 前向き過程の逆向き過程への射影で得られることで 情報幾何学とつながり(変分下限とも関係)、 またσは隣接時刻分布間の最小輸送距離率で得られ最適輸送理論とつながる。 分野が急速につながっている https://arxiv.org/abs/2209.00527 Geometric thermodynamics for the Fokker-Planck equation: Stochastic thermodynamic links between information geometry and optimal transport
(目次に戻る)
デモ
話は十分だ
手を動かそう!
NVIDIA Instant-NGP デモ
- ZAF-2203 でも触れた NeRF
- https://twitter.com/umiyuki_ai/status/1615870454203576321
Instant NGPが、Windowsバイナリを提供してくれるようになったらしい。 つまり、今までみたいに自分でビルドしなくても良くなった。 グラボさえあればすぐ試せる。じゃあ試してみよっかな →RT https://twitter.com/Peter_shirley/status/1615862200564084737 I found instant-NGP fun to use. Now without a build :) https://youtu.be/TA14yYBIRP8 NVIDIA Introduces No Code Instant NeRF!
- やってみた
- github: https://github.com/NVlabs/instant-ngp に行って、バイナリーをダウンロード
- 展開して、そこにある instant-ngp を起動(ダブルクリック)
- Windows 11 で警告出るが、実行
- すると、コンソール・ウィンドウと GUI が立ち上がる
- 展開したフォルダの中にある NeRF のサンプルデータ fox を
GUI にドラッグアンドドロップすると、
fox の学習とレンダリングが実行される
- ということで、インストール完了!
- 次は、自分で撮影した映像で NeRF してみよう!
- github: https://github.com/NVlabs/instant-ngp に行って、バイナリーをダウンロード
- 素材 - コロナ前!(2019 年 6 月)に行ったフランスでの早朝散歩のシーンから
(https://youtu.be/HjJ97QohfpE?t=1310)
- データセット作り
- ビルド済みの GUI アプリ instant-ngp は、 NeRF の学習処理と、成果物(動画ファイルなど)の生成を行うプログラム
- 自分で撮影したデータを NeRF したい場合は、
NeRF が使える「データセット」を構成する必要がある
(cf. Preparing new NeRF dataset)
- ここでは COLMAP を別途インストールして、そこでデータセットを作ってから
instant-ngp に突っ込んでみた
- (詳細は、ここでは省略)
- 付記:あと、成果物を動画にするのに、
instant-ngp をインストールした Windows マシンに
ffmpeg をインストールした(パス通すのとか、手動でちょっと面倒)
- (詳しい手順は "https://www.techruzz.com/how-to/how-to-download-and-install-ffmpeg-on-windows-11" に書いてあって、ぼくもこれをみながらやった)
- (詳しい手順は "https://www.techruzz.com/how-to/how-to-download-and-install-ffmpeg-on-windows-11" に書いてあって、ぼくもこれをみながらやった)
- できあがったデータセットを instant-ngp にドラッグアンドドロップして、
あれこれ作業して、
...
- 結果
One-Shot Talking Face デモ
- https://twitter.com/Yamkaz/status/1614958193951772676
音声と画像を入れたら話す顔の動画を生成できる「one-shot-talking-face」のデモが公開 https://huggingface.co/spaces/camenduru/one-shot-talking-face
- そういえば、前に似た様なやつをやってましたね ZAF-2206
- こちらは、ターゲットとなる動画と、置き換えたい顔写真を入力とするもの
- one-shot talking face は、顔写真と音声ファイルを入力とする
- やってみた
- 素材
- huggingface spaces
(https://huggingface.co/spaces/camenduru/one-shot-talking-face)
は、うまくいかなかった……
- github: camenduru/one-shot-talking-face-colab に戻って、
- 素材ファイルをアップロードして、ファイル名を指定してやれば、よい
- 処理時間も1分くらいだった(かな?)
- ポイント
- colab で実行してたら、エラーや警告が出てた
- 音声ファイルが、ステレオだとダメで、モノラルにする必要があった
- Linux 環境だと sox を入れれば
sox infile.wav outfile.wav remix 1,2
で OK - あと、サンプルレートが 16k じゃない、みたいな警告が出てたが、 これは処理には問題なかった(模様)
- 結果
- ちなみに、 original author の github サイトはこちら
github: FuxiVirtualHuman/AAAI22-one-shot-talking-face- arxiv: 2112.02749
- arxiv: 2112.02749
(目次に戻る)
パート2
技術書典14
技術書典14
- https://twitter.com/techbookfest/status/1611267884969492481
2023年5月21日(日) 池袋サンシャインシティ 展示ホールDにて技術書典14を開催決定! 同時に技術書典オンラインマーケットでも5月20日(土) から6月4日(日) まで開催📚 出展申込や参加方法などの詳細は後日発表✨ 技術に出会えるイベントにみんなで参加しよう🐏 #技術書典
- 企画
いちきの個人企画
- 「数理三部作」はどうなった?
- 新企画!
- 『エッセイ - 音楽と数理』
- 『音楽と数理 🎼 ♾ ポッドキャスト』 の書き起こし原稿をベースに
- 縦書きの「文庫本」を出そう!という企画
- ZAF-2210
ZAM 季報 VOL.3
- これまでの『ZAM 季報』
- ZAM 季報 VOL.1
- 2018 ZENKEI AI SEMINAR のスタートから 2021/06 までの ZAF の内容をベースに
- メンバーからの書き下ろし原稿で構成
- ZAM 季報 VOL.2
- 2021/07/27 から 2022/08/31 までの ZAF の内容をベースに
- メンバーからの書き下ろし原稿で構成
- ZAM 季報 VOL.1
- ZAM 季報 VOL.3
- 2022/09 から 2023/04 までの ZAF の内容をベースに
- および、メンバーからの書き下ろし原稿で構成予定!
(目次に戻る)
今日のおわりに
……
今後の予定
- 次回 ZAF は 2023 年 2 月 22 日開催の予定です。
- ZAF 講演者、 ZAM 執筆者、絶賛、大募集中です!
お気軽にお問い合わせください!
総合目次
- 前座 1年の計は1月の ZAF にあり
- 第1部 最近の話題から
- 第2部 技術書典14
- 今日のおわりに