🧠🎥🎬 Video Generation Landscape

Uma coisa importante para começar: modelos como o Seedance 2.0, o Veo, o Sora, o Kling ou o Wan normalmente não são apenas uma "LLM que gera vídeo". Na verdade, eles são sistemas multimodais compostos por vários modelos especializados trabalhando juntos. A LLM participa principalmente da compreensão do prompt, mas a geração visual em si costuma ser realizada por arquiteturas de difusão, transformers multimodais e módulos temporais específicos para vídeo.

O que o Seedance 2.0 é por baixo, é um Video Diffusion Transformer (similar ao DiT) com geração conjunta de áudio+vídeo. Para replicar algo nesse nível você precisaria de:

~50.000–500.000 horas de vídeo rotulado de alta qualidade
Clusters de A100/H100 por semanas ou meses
Time de dezenas de pesquisadores
Orçamento estimado: $5M–$50M só em compute

Isso está fora do alcance de uma pessoa ou equipe pequena, antes de qualquer código: Você não pode criar um modelo "baseado no Seedance 2.0" — os pesos, arquitetura interna e dados de treinamento são propriedade fechada do ByteDance. Não há como clonar, fazer fine-tune ou destilação do Seedance 2.0 legalmente, porque os pesos nunca foram publicados.

O que você realmente quer é provavelmente isso: rodar um modelo de geração de vídeo open-source de graça, no seu próprio servidor, sem pagar API nenhuma. Isso é totalmente viável. Os melhores candidatos hoje:

Modelo	Qualidade	VRAM mínima	Licença
Wan 2.1 (Alibaba)	⭐⭐⭐⭐⭐	8 GB	Apache 2.0 ✅
HunyuanVideo (Tencent)	⭐⭐⭐⭐⭐	24 GB	Open ✅
CogVideoX-5B (Zhipu)	⭐⭐⭐⭐	16 GB	Apache 2.0 ✅
Open-Sora	⭐⭐⭐	12 GB	Apache 2.0 ✅

O Wan 2.1 é o mais próximo em qualidade do Seedance 2.0 e roda em GPUs acessíveis (RTX 3080/4070). É viável construir a mesma aplicação FastAPI + React, mas apontando para o Wan 2.1 rodando 100% local, sem nenhuma API externa.

🤗 Diffusers

“Diffusers” pode significar duas coisas dependendo do contexto, mas na prática moderna de IA quase sempre se refere à biblioteca da Hugging Face chamada Diffusers, que é um framework open-source para construir, treinar e usar modelos de difusão.

Para entender isso de forma direta, pense que “diffusion model” é a ideia matemática e algorítmica (o processo de adicionar e remover ruído), enquanto “diffusers” é a implementação prática disso em código, como uma espécie de kit de ferramentas pronto para você montar, rodar e modificar esses modelos sem ter que reescrever toda a matemática e infraestrutura do zero.

A biblioteca Diffusers da Hugging Face organiza os modelos de difusão como blocos reutilizáveis. Em vez de você lidar manualmente com todo o pipeline — scheduler de ruído, rede neural de denoising, encoder de texto, VAE de compressão e decodificação — ela separa tudo em componentes bem definidos. Por exemplo, o “scheduler” controla como o ruído é removido passo a passo (existem várias estratégias diferentes disso), o “model” geralmente é a rede neural que aprende a prever o ruído ou a imagem limpa (U-Net, Transformer ou híbridos), e o “pipeline” é o encaixe final que conecta texto → ruído → imagem/vídeo final.

Então quando alguém fala “estou usando diffusers”, normalmente quer dizer que está usando essa biblioteca para rodar modelos como Stable Diffusion, Stable Video Diffusion, ou variantes de geração de imagem e vídeo baseadas em difusão. Ela virou um padrão de facto porque simplifica muito a experimentação: você consegue trocar componentes, ajustar schedulers, testar checkpoints diferentes e até treinar ou fine-tunar modelos sem precisar reconstruir toda a arquitetura do zero.

Agora, se você estiver pensando no sentido mais teórico da palavra “diffusers” (no plural, como conceito), algumas pessoas usam informalmente para se referir aos próprios modelos de difusão em si, como “diffusion models”, mas isso é mais gíria do que termo técnico formal. O termo correto mesmo continua sendo “diffusion models”, enquanto “Diffusers” com D maiúsculo geralmente aponta para a biblioteca da Hugging Face.

!pip install diffusers==0.11.1

O ponto importante é que “diffusers” não é um tipo de modelo novo nem uma arquitetura, e sim uma camada de abstração que facilita trabalhar com modelos de difusão existentes, quase como um framework que padroniza como você monta e executa esse tipo de IA.

Todo modelo de difusão não é um transformer, e essa confusão é bem comum porque hoje muitos dos modelos mais famosos de difusão acabaram adotando transformers como backbone, mas isso é uma escolha de arquitetura, não uma regra do método.

O que define um modelo de difusão não é o tipo de rede neural usada por dentro, e sim o processo matemático de aprendizado e geração. Ele é definido pelo fato de que você pega um dado real (imagem, áudio, vídeo), vai adicionando ruído progressivamente até destruir completamente a estrutura, e depois treina um modelo para aprender o caminho inverso, isto é, remover o ruído passo a passo até reconstruir o dado original a partir de uma amostra aleatória. Esse “vai e volta” entre ruído e reconstrução é o coração da difusão. Isso pode ser implementado com várias arquiteturas diferentes.

Historicamente, os primeiros modelos de difusão de alta performance em imagens, como o DDPM (Denoising Diffusion Probabilistic Models), usavam principalmente U-Nets com convoluções, não transformers. Esses U-Nets são redes convolucionais com conexões de skip connections, muito boas para visão computacional porque preservam detalhes espaciais enquanto refinam a imagem em múltiplas escalas. Inclusive, até hoje, muitos modelos de difusão populares ainda usam U-Net como base, porque ele é eficiente e extremamente eficaz para lidar com estrutura espacial.

O transformer entra como uma evolução arquitetural possível, não obrigatória. Quando você substitui ou combina o U-Net com blocos de atenção baseados em transformer, você ganha uma capacidade melhor de modelar dependências globais, especialmente útil para geração de imagens de alta resolução, vídeos ou tarefas onde o contexto distante importa muito. É por isso que modelos mais recentes, como os usados em geração de vídeo ou text-to-image de última geração, muitas vezes são híbridos ou totalmente baseados em transformer.

Então a forma mais correta de entender isso é: difusão é o “método de geração”, enquanto transformer, U-Net, CNN e outros são “formas de implementar o cérebro que aprende esse método”. Você pode ter um modelo de difusão com CNN puro, com U-Net, com transformer puro, ou com combinações híbridas. O que muda não é o princípio da difusão, mas a capacidade e o tipo de padrão que o modelo consegue aprender dentro desse processo de remoção de ruído.

Na verdade, a biblioteca Diffusers é apenas uma ferramenta de software. Ela não é necessária para gerar imagens, audios ou vídeos por IA. O que realmente importa é o modelo e a arquitetura por trás dele.

Por exemplo, você pode usar modelos de difusão implementados diretamente em PyTorch ou TensorFlow sem passar pela biblioteca Diffusers. Foi assim que muitos projetos surgiram originalmente. Os pesquisadores implementavam toda a lógica de treinamento, inferência, schedulers e redes neurais manualmente. A biblioteca Diffusers veio depois para padronizar e simplificar esse trabalho.

Além disso, nem toda IA generativa de imagem ou vídeo usa difusão. Existem outras famílias de modelos. As GANs (Generative Adversarial Networks) dominaram boa parte da geração de imagens antes da popularização da difusão. Modelos como StyleGAN geram rostos extremamente realistas sem usar difusão. Eles funcionam através de uma competição entre uma rede geradora e uma discriminadora.

Outra abordagem são os modelos autoregressivos. Em vez de começar com ruído e remover esse ruído, eles geram conteúdo token por token, de forma semelhante aos LLMs gerando texto palavra por palavra. Alguns modelos modernos de imagem e vídeo seguem essa linha, tratando patches visuais como tokens.

Também existem os modelos baseados em fluxos (normalizing flows), VAEs (Variational Autoencoders) e arquiteturas híbridas que combinam várias técnicas. Um VAE, por exemplo, aprende um espaço latente comprimido e pode gerar novas imagens amostrando desse espaço.

Mais recentemente, surgiram os chamados "diffusion transformers" e também modelos puramente transformer para geração visual. Em vez de uma U-Net tradicional, usam mecanismos de atenção em larga escala para gerar imagens ou vídeos. Alguns sistemas de ponta atuais utilizam arquiteturas híbridas que misturam transformers, espaços latentes e processos de difusão.

Para vídeo, além da difusão, existem modelos que aprendem diretamente a dinâmica temporal, modelos autoregressivos que geram um frame após o outro e sistemas baseados em world models, que tentam aprender uma representação do funcionamento do mundo para prever sequências visuais futuras.

Então, se sua pergunta é "preciso da biblioteca Diffusers para gerar imagens ou vídeos?", a resposta é definitivamente não. Você pode:

Implementar o modelo diretamente em PyTorch ou TensorFlow.
Usar GANs.
Usar VAEs.
Usar modelos autoregressivos.
Usar transformers visuais puros.
Usar arquiteturas híbridas.
Utilizar engines proprietárias desenvolvidas internamente por empresas.

A biblioteca Diffusers apenas facilita o trabalho com modelos de difusão. Ela está para os modelos de difusão mais ou menos como um framework web está para uma aplicação web: extremamente útil, muito popular, mas não é a única maneira de construir ou executar o sistema.

Se quiser, dá pra ir um nível mais fundo e comparar diretamente por que transformers começaram a dominar certos tipos de difusão (principalmente vídeo e modelos multimodais) e onde eles ainda perdem para U-Nets em eficiência e custo.

🧠 DiT - Diffusion Transformer

O DiT (Diffusion Transformer) é uma das evoluções mais importantes dos modelos de difusão modernos e está diretamente relacionado ao surgimento de geradores de vídeo extremamente avançados como Sora, Veo, Wan, Kling e outros.

Para entender o DiT, primeiro é preciso lembrar como os modelos de difusão nasceram.

Os primeiros modelos de difusão usavam predominantemente CNNs (Convolutional Neural Networks), especialmente arquiteturas chamadas U-Net. Durante anos, o pipeline era algo parecido com:

Prompt
   ↓
Encoder de Texto
   ↓
U-Net
   ↓
Difusão
   ↓
Imagem

O U-Net era responsável por olhar para o ruído e decidir como removê-lo passo a passo.

Funcionava muito bem para imagens.

Mas quando começaram a surgir modelos gigantescos, vídeos longos e cenas complexas, apareceram limitações.

As CNNs são excelentes para detectar padrões locais.

Por exemplo:

bordas;
texturas;
pequenas regiões da imagem.

Mas elas têm mais dificuldade em entender relações globais.

Imagine uma cena:

Castelo
           ↓
Montanha
           ↓
Dragão voando

O modelo precisa compreender a relação entre todos esses elementos simultaneamente.

É aí que entram os Transformers.

Os Transformers revolucionaram primeiro o NLP.

Depois foram adaptados para visão computacional.

Primeiro vieram os:

Vision Transformers (ViT)
Swin Transformers
Video Transformers

Depois alguém teve a ideia:

"E se substituirmos o U-Net inteiro por um Transformer?"

Nasceu o DiT.

Em vez de processar a imagem usando convoluções, o modelo divide a imagem em pequenos blocos chamados patches.

Imagine uma imagem:

████████
████████
████████
████████

Ela é quebrada em pedaços:

[Patch 1]
[Patch 2]
[Patch 3]
...

Cada patch vira um token.

Exatamente como uma palavra vira um token em uma LLM.

É por isso que existe uma forte conexão entre:

LLMs
Vision Transformers
DiTs

Todos trabalham sobre tokens.

Um GPT pode receber:

Batman
walks
in
Gotham

Um DiT recebe:

Patch 1
Patch 2
Patch 3
Patch 4
...

A magia acontece na Self-Attention.

O Transformer consegue perguntar:

"Quais partes da imagem são importantes para entender esta outra parte?"

Isso permite enxergar dependências globais.

Por exemplo:

Olho esquerdo
        ↔
Olho direito

Rosto
        ↔
Corpo

Pessoa
        ↔
Sombra

Tudo ao mesmo tempo.

Não existe mais aquela limitação local típica das convoluções.

Nos vídeos a coisa fica ainda mais interessante.

Imagine um tensor:

Largura
Altura
Tempo

Ou:

X
Y
T

Agora os patches também possuem dimensão temporal.

O DiT pode observar:

Frame 1
Frame 2
Frame 3
Frame 4

simultaneamente.

Ele consegue entender:

movimento;
velocidade;
direção;
consistência temporal.

É uma das razões pelas quais os vídeos modernos parecem muito mais estáveis.

Antes:

Frame 1 → Pessoa A

Frame 2 → Pessoa B

Frame 3 → Pessoa C

O personagem mudava constantemente.

Com Transformers temporais e DiTs:

Frame 1 → Pessoa A

Frame 2 → Pessoa A

Frame 3 → Pessoa A

A identidade é preservada com muito mais eficiência.

Outra vantagem é a escalabilidade.

Existe uma observação interessante na pesquisa atual:

Quanto maior o Transformer, melhor o DiT costuma escalar.

Isso lembra muito o comportamento das LLMs.

Você aumenta:

parâmetros;
dados;
GPUs;
tempo de treinamento.

E o modelo continua melhorando.

Por isso muitos laboratórios abandonaram progressivamente as U-Nets para modelos baseados em Transformer.

O pipeline moderno costuma ser algo parecido com:

Prompt
   ↓
Text Encoder
   ↓
Embeddings
   ↓
DiT
   ↓
Difusão Latente
   ↓
Decoder
   ↓
Imagem ou Vídeo

No caso de um gerador como o Seedance 2.0, você pode imaginar algo ainda mais sofisticado:

Prompt
   ↓
LLM
   ↓
Entendimento semântico
   ↓
Embeddings multimodais
   ↓
DiT Espaço-Temporal
   ↓
Difusão de vídeo
   ↓
Refinamento
   ↓
Upscaling
   ↓
Vídeo Final

O motivo de tanta gente no mercado de IA estar falando de DiTs atualmente é que eles representam para a geração visual algo semelhante ao que os Transformers representaram para o NLP.

Da mesma forma que o GPT substituiu arquiteturas antigas de linguagem, os DiTs estão gradualmente substituindo arquiteturas tradicionais de difusão baseadas em convolução.

Por isso, quando você vê vídeos extremamente consistentes gerados por modelos de última geração, existe uma grande chance de haver um Diffusion Transformer fazendo boa parte do trabalho pesado por trás dos panos.

Deixa eu clarificar como o DiT realmente funciona: A divisão real no DiT para vídeo: O conditioning (o que você passa como entrada para guiar a geração) é que varia, não o tipo de modelo. Um mesmo modelo DiT pode aceitar múltiplos tipos de condicionamento:

Tipos de condicionamento:

Text conditioning (T2V): O prompt de texto é codificado por um encoder de linguagem (T5, CLIP, etc.) e injetado no DiT via cross-attention. O modelo aprende a associar descrições textuais com padrões visuais.

Image conditioning (I2V): Uma imagem de referência é codificada por um VAE e injetada como contexto visual. O modelo aprende a "animar" ou "continuar" a partir daquela imagem.

Ambos juntos (multimodal): É o que o Seedance 2.0, Wan 2.1 e HunyuanVideo fazem — o mesmo backbone DiT recebe texto + imagem + áudio simultâneamente via diferentes mecanismos de atenção.

Como o DiT processa tudo isso:

Entrada bruta
     │
     ▼
  VAE Encoder  ───────────────────────────────────┐
(comprime vídeo/imagem em espaço latente)         │
     │                                            │
     ▼                                            ▼
Latent Tokens                           Conditioning Tokens
(o vídeo virou patches)           (texto via T5, imagem via CLIP)
     │                                            │
     └──────────────┬─────────────────────────────┘
                    ▼
             DiT Blocks
        (self-attention + cross-attention)
                    │
                    ▼
             VAE Decoder
        (latente → vídeo final)

Os dois componentes que você treina separadamente

Componente	O que faz	Treina separado?
VAE	Comprime e reconstrói frames	Sim, geralmente pré-treinado
DiT backbone	Aprende a fazer diffusion guiado	Sim, é o núcleo
Text encoder	Entende prompts	Geralmente congelado (T5/CLIP pré-treinados)

Então quando você vê "modelo T2V" e "modelo I2V" no Wan ou CogVideoX, na prática são pesos diferentes do mesmo backbone DiT, treinados com estratégias de conditioning diferentes — não arquiteturas separadas.

Qual parte você quer aprofundar — a arquitetura do DiT em si, o VAE, ou como estruturar o pipeline de treinamento?

🎥 Video Diffusion Transformer

O Video Diffusion Transformer (às vezes abreviado como VideoDiT ou VDT em alguns trabalhos) é uma arquitetura de modelo generativo que combina duas ideias centrais da IA moderna: os modelos de difusão e os transformers, aplicados especificamente à geração de vídeo. Para entender isso de forma intuitiva, dá pra pensar que ele é uma evolução natural dos modelos que geram imagens com alta qualidade, mas estendidos para lidar com a dimensão extra do tempo, ou seja, não apenas “o que aparece em cada frame”, mas também “como isso evolui de um frame para o outro de maneira coerente”.

Os modelos de difusão funcionam de maneira conceitual como um processo de “desruído”. Durante o treinamento, eles pegam dados reais (imagens ou vídeos), adicionam ruído progressivamente até que tudo vire algo parecido com estática aleatória, e depois aprendem a inverter esse processo, ou seja, a reconstruir o conteúdo original a partir do ruído. Isso permite que, na geração, você comece com ruído puro e o modelo vá refinando passo a passo até surgir uma imagem ou vídeo coerente. O ponto-chave aqui é que isso não acontece de uma vez só, mas em várias etapas iterativas, o que ajuda na qualidade final.

Já o transformer entra como a espinha dorsal da arquitetura que decide como esse “desruído” acontece de forma estruturada. Transformers são excelentes em modelar relações globais em dados, porque trabalham com mecanismos de atenção, onde cada parte do dado pode “olhar” para outras partes e entender contexto. Em imagens isso já funciona bem, mas em vídeos isso se torna ainda mais importante, porque agora você não está lidando só com pixels em uma grade 2D, mas também com consistência temporal entre frames. O Video Diffusion Transformer usa essa capacidade de atenção para entender não só o espaço (o que está na imagem), mas também o tempo (como isso muda de frame para frame), garantindo continuidade visual, movimento coerente e identidade estável de objetos.

Na prática, o que diferencia esse tipo de modelo de abordagens mais antigas de geração de vídeo é que ele não tenta gerar o vídeo como uma sequência de imagens independentes, nem usa exclusivamente redes convolucionais tradicionais que têm dificuldade em capturar dependências de longo alcance. Em vez disso, ele trata o vídeo como uma sequência estruturada de tokens, algo parecido com linguagem, onde cada “token” pode representar patches de imagem ao longo do tempo. Isso permite que o modelo aprenda relações complexas, como um personagem mantendo sua aparência enquanto se move, iluminação mudando de forma consistente ou objetos interagindo de maneira fisicamente plausível.

Outro ponto importante é que o Video Diffusion Transformer geralmente opera em um espaço latente comprimido, e não diretamente nos pixels brutos. Isso reduz a complexidade computacional e permite trabalhar com vídeos mais longos ou resoluções maiores. O modelo primeiro aprende uma representação comprimida do vídeo, aplica o processo de difusão nesse espaço mais eficiente e depois reconstrói o resultado final em pixels através de um decodificador.

No fundo, ele representa uma convergência de duas linhas fortes da IA moderna: a capacidade dos modelos de difusão de gerar alta qualidade e diversidade, e a capacidade dos transformers de modelar dependências globais complexas. Quando você junta essas duas coisas no domínio temporal do vídeo, você obtém um sistema que não só gera imagens bonitas, mas também consegue “simular” uma continuidade visual convincente, que é justamente o grande desafio da geração de vídeo por IA.

O que é realisticamente possível fazer

Existem 3 caminhos viáveis dependendo do seu objetivo real:

Caminho 1 — Fine-tune de um modelo open-source (semanas, ~$500–2000 em GPU): Pegar o Wan 2.1 ou CogVideoX e especializar em um estilo/domínio específico com seus próprios dados. Resultado: modelo seu, customizado, rodando local.

Caminho 2 — Construir um modelo pequeno do zero (meses, viável com 1 GPU): Implementar um Video Diffusion Transformer simples com PyTorch, treinar em um dataset público como WebVid ou Panda-70M. Qualidade bem abaixo do Seedance, mas é seu modelo, você entende cada camada.

Caminho 3 — Distilação de conhecimento de open-sources (meses): Usar modelos open como "professores" para treinar um modelo menor e mais eficiente. Legalmente viável se os professores forem modelos com licença permissiva.

Qual desses caminhos faz mais sentido para você? E qual é o objetivo final — aprender a fundo, ter um modelo para produção, ou especializar em um domínio específico? Isso muda completamente o que vale a pena construir.

Quando você instala um sistema open source de geração de vídeo localmente, como um pipeline baseado em Diffusers, Wan ou CogVideoX, o processo começa muito antes da geração. Primeiro você precisa do ambiente: Python, CUDA, drivers NVIDIA, PyTorch, bibliotecas de inferência e os pesos do modelo. Os pesos são os arquivos gigantescos que armazenam o conhecimento aprendido durante o treinamento. Dependendo do modelo, eles podem ocupar dezenas ou centenas de gigabytes.

Após a instalação, o modelo não "sabe gerar vídeos" da forma como um programador escreveria um algoritmo tradicional. O que ele possui é uma enorme quantidade de parâmetros numéricos aprendidos durante o treinamento. Durante esse treinamento, bilhões de imagens, vídeos e descrições textuais foram apresentados ao sistema. O modelo aprendeu relações estatísticas extremamente complexas entre palavras, conceitos, objetos, movimentos, iluminação, câmeras, estilos artísticos, física aparente e comportamento visual.

Quando você escreve um prompt como:

"Um cavaleiro medieval caminhando em uma floresta ao amanhecer, câmera cinematográfica, neblina suave."

A primeira etapa geralmente passa por um encoder de texto. Muitas arquiteturas modernas usam algo semelhante a uma LLM compacta ou um encoder derivado de transformers. O texto é transformado em embeddings.

Um embedding é uma representação vetorial.

Em vez de armazenar:

cavaleiro
floresta
amanhecer

o sistema converte tudo em milhares de números.

Algo conceitualmente parecido com:

[0.1532, -0.7821, 0.9911, ...]

Esses vetores carregam significado semântico.

O modelo aprende que:

rei ≈ rainha
homem ≈ mulher
cachorro ≈ lobo

ocupam regiões próximas do espaço vetorial.

O prompt inteiro vira uma estrutura matemática gigantesca.

A partir daí começa a parte mais interessante.

Muita gente imagina que o modelo desenha quadro por quadro.

Na realidade, os modelos modernos de difusão fazem quase o oposto.

Eles começam com ruído puro.

Literalmente algo parecido com televisão sem sinal.

Imagine um tensor multidimensional preenchido por valores aleatórios.

O estado inicial se parece com:

█████████████
█████████████
█████████████
█████████████

Sem significado algum.

O trabalho do modelo é remover o ruído gradualmente.

Por isso o nome "difusão".

Durante o treinamento, o modelo aprendeu duas tarefas:

Adicionar ruído.

Remover ruído.

Na inferência ele executa apenas a segunda.

O processo ocorre em dezenas ou centenas de passos.

Em cada passo ele pergunta:

"Com base no prompt e no estado atual, qual parte deste ruído parece errada?"

Então corrige.

Depois corrige novamente.

Até que o ruído começa a adquirir forma.

Primeiro surgem manchas.

Depois silhuetas.

Depois objetos.

Depois detalhes.

Em um gerador de imagens, o resultado final seria uma única imagem.

Em vídeo isso não basta.

O sistema precisa resolver um problema muito mais difícil:

Consistência temporal.

Imagine gerar:

Frame 1
Frame 2
Frame 3
Frame 4

independentemente.

O cavaleiro poderia ter:

olhos diferentes;
armadura diferente;
cabelo diferente;
posição impossível.

O vídeo pareceria um pesadelo psicodélico.

Então os modelos modernos trabalham em um espaço espaço-temporal.

Em vez de pensar:

altura
largura

eles pensam:

altura
largura
tempo

O vídeo é tratado como um bloco tridimensional.

Conceitualmente:

[x, y, t]

onde t representa o tempo.

A geração ocorre simultaneamente sobre múltiplos quadros.

O modelo aprende que:

objetos devem permanecer os mesmos;
iluminação deve ser coerente;
movimentos devem ser suaves;
personagens devem manter identidade.

É aqui que entram transformers temporais e attention temporal.

A atenção temporal funciona como uma memória.

Quando o modelo está gerando um quadro futuro, ele consegue olhar para quadros anteriores.

Algo como:

Frame 20
↓
consulta
↓
Frame 19
Frame 18
Frame 17

Isso evita mudanças bruscas.

Nos modelos mais modernos, como Seedance 2.0 e Sora, existe ainda uma compreensão implícita de física.

Não é física real.

É física estatística aprendida.

O modelo observou tantos vídeos que aprendeu padrões como:

gravidade;
aceleração;
colisões;
reflexos;
comportamento da água;
fumaça;
tecidos.

Ele não resolve as equações de Newton explicitamente.

Ele aprendeu visualmente.

Da mesma forma que um ser humano consegue prever aproximadamente como uma bola cairá sem calcular integrais.

Outro componente importante é o VAE (Variational Autoencoder).

Vídeos possuem uma quantidade absurda de pixels.

Gerar tudo diretamente seria inviável.

Então o vídeo é comprimido para um espaço latente.

Pense nisso como:

Vídeo original
↓
Compressão inteligente
↓
Espaço latente
↓
Difusão
↓
Reconstrução
↓
Vídeo final

Em vez de trabalhar com milhões de pixels diretamente, o modelo trabalha em uma representação comprimida muito menor.

Isso reduz drasticamente o custo computacional.

Nos sistemas mais avançados, a geração também envolve múltiplos estágios.

Primeiro surge um vídeo de baixa resolução.

Depois ocorre upscaling.

Depois refinamento.

Depois estabilização temporal.

Depois correções de detalhes.

O vídeo que você recebe normalmente passou por várias redes neurais diferentes.

Quando o vídeo termina de ser gerado, ele ainda não está necessariamente em formato MP4.

Internamente existe apenas uma sequência de tensores.

O sistema converte esses tensores para imagens.

Depois as imagens são codificadas em vídeo usando codecs como H.264 ou H.265.

Somente então surge o arquivo final.

Por baixo dos panos, um prompt aparentemente simples como:

"Batman caminhando em Gotham sob chuva intensa à noite"

pode disparar bilhões de operações matemáticas.

Milhares de multiplicações matriciais.

Centenas de camadas transformer.

Dezenas de passos de difusão.

Gigabytes de dados transitando pela memória da GPU.

E tudo isso acontece porque o modelo aprendeu uma representação matemática extremamente compacta do mundo visual a partir de enormes volumes de vídeos durante o treinamento.

A parte mais impressionante é que o modelo não possui uma biblioteca de vídeos escondida que ele mistura. Ele não procura um vídeo de Batman e outro de chuva para colar um no outro. O que ele faz é gerar uma nova sequência visual a partir das distribuições estatísticas aprendidas. Cada quadro é sintetizado matematicamente naquele momento, condicionado pelo prompt e pelos estados temporais anteriores. É por isso que duas execuções do mesmo prompt podem produzir vídeos diferentes, mas ainda coerentes com a descrição fornecida.

News:

Reddit Posts:

https://www.reddit.com/r/MachineLearning/comments/9wk188/p_biggan_generators_on_tf_hub_with_colab_demo/

Samples from github:

Samples	Pretrained Models	Code	Paper	Output Quality	License
Memoji	Model	Code		A	Non Commercial CC
Deep Fakes demo	(Download Pretrained model)	Code		A	--
VideoGAN	Download Model	Code	Tinyvideo	--	--
Adversarial Video Generation	Download Model	Code	1511.05440	--	--
Improved VideoGAN	--	Code	1711.11453	--	--

Work in progress:

If I missed your output sample/demo in this consolidation, just add and send a pull request. I will be more than happy to add it. Thanks!

Product Demos:

Nvidea(official)
Deep Fakes demo

Name		Name	Last commit message	Last commit date
Latest commit History 18 Commits
.env.example		.env.example
README.md		README.md
index.html		index.html
requirements.txt		requirements.txt
wan2.1.py		wan2.1.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

🧠🎥🎬 Video Generation Landscape

🤗 Diffusers

🧠 DiT - Diffusion Transformer

🎥 Video Diffusion Transformer

O que é realisticamente possível fazer

News:

Reddit Posts:

Samples from github:

Work in progress:

Product Demos:

Arxiv-sanity

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

🧠🎥🎬 Video Generation Landscape

🤗 Diffusers

🧠 DiT - Diffusion Transformer

🎥 Video Diffusion Transformer

O que é realisticamente possível fazer

News:

Reddit Posts:

Samples from github:

Work in progress:

Product Demos:

Arxiv-sanity

About

Topics

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages