Modelos

Atualizado em 5 de abril de 2026

Escolha o modelo certo
para o trabalho do agente.

O AnyCap expõe modelos multimodais por um único runtime de capacidades e uma única CLI. Esta página ajuda times a escolher o modelo certo para um fluxo específico de agente em vez de tratar todo pedido de imagem ou vídeo da mesma forma.

Resumo direto

O catálogo público atual de modelos do AnyCap inclui modelos de geração de imagem para primeira saída e ciclos de revisão, modelos de geração de vídeo para trabalho mais premium ou orientado à produção, e um modelo de música por prompt para rascunhos de trilha sonora. A escolha certa normalmente depende de o trabalho começar de um prompt em branco ou de um ativo existente, de quanto refinamento a primeira versão precisa e de quanto velocidade ou eficiência de custo importa no fluxo.

Como escolher o modelo certo

Comece pelo tipo de saída: imagem, vídeo ou música.
Depois decida se a tarefa precisa de uma primeira versão mais refinada, iteração mais rápida ou revisão a partir de um ativo existente.
Use as páginas-guia de modelos quando a escolha depender do estilo de movimento, do fluxo de edição ou de tradeoffs de custo.

Guia visual

Visão ilustrada das categorias de modelos de imagem, vídeo e música dentro do hub de modelos do AnyCap.

Esta ilustração é um mapa visual rápido do catálogo atual: modelos de imagem de um lado, modelos de vídeo de outro, e geração de música como uma trilha separada de capacidade dentro do mesmo runtime de agente. Ela foi gerada com Nano Banana 2 para manter a linguagem visual da página alinhada ao próprio catálogo de modelos.

Comparação atual de modelos

Estes são os modelos públicos atuais expostos pelo AnyCap. As faixas de créditos vêm do mesmo inventário de preços usado na página de preços, então o hub e a página de preços permanecem alinhados.

Geração de imagem

Cobrado por chamada. Suporta modos de texto para imagem e imagem para imagem.

Modelo	Modos	Créditos / chamada	Melhor uso
FLUX.1 Kontext Max	texto para imagem, imagem para imagem	varies	Design-heavy image generation and contextual edits where prompt adherence, visual richness, and iterative refinement matter.
GPT Image 2	texto para imagem, imagem para imagem	varies	General-purpose image generation and image edits when the workflow benefits from OpenAI's multimodal image model family.
Nano Banana Pro	texto para imagem, imagem para imagem	~7	Edição de imagem direcionada e ciclos de revisão a partir de um visual existente.
Nano Banana 2	texto para imagem, imagem para imagem	~4	Geração de imagem rápida e escalável com iteração em alto volume.
Qwen Image	texto para imagem, imagem para imagem	varies	Bilingual or instruction-heavy visual work, especially when an agent needs a model associated with the Qwen multimodal family.
Seedream 4.5	texto para imagem, imagem para imagem	varies	Everyday image generation, image transformation, and iterative editing where stable structure preservation matters.
Seedream 5	texto para imagem, imagem para imagem	~2	Geração de imagem com primeira saída mais refinada a partir de um prompt de texto.

Geração de vídeo

Cobrado por segundo de saída gerada. Suporta modos de texto para vídeo e imagem para vídeo.

Modelo	Modos	Créditos / seg	Melhor uso
Hailuo 2.3	texto para vídeo, imagem para vídeo	varies	Short narrative clips, expressive character motion, visual storytelling, and reference-image animation.
Veo 3.1	texto para vídeo, imagem para vídeo	~20	Saída premium de texto para vídeo quando a primeira versão precisa parecer mais forte.
Veo 3.1 Fast	texto para vídeo, imagem para vídeo	varies	Rapid creative iteration and preview generation when an agent wants the Veo family with faster turnaround.
Sora 2 Pro	texto para vídeo, imagem para vídeo	varies	High-end narrative, cinematic, product, and realistic video generation when teams want an OpenAI video model through the same CLI.
Seedance 1.5 Pro	texto para vídeo, imagem para vídeo	~14	Fluxos de vídeo estáveis, orientados à produção, e trabalhos repetíveis de imagem para vídeo.
Seedance 2.0	texto para vídeo, imagem para vídeo	varies	High-quality cinematic and product video workflows where agents need the newer Seedance model entry.
Seedance 2.0 Fast	texto para vídeo, imagem para vídeo	varies	Previewing, ideation, and high-volume video iteration when an agent needs faster turnaround.
Kling 3.0	texto para vídeo, imagem para vídeo	~9	Movimento cinematográfico e fluxos flexíveis de imagem para vídeo.
Kling O1	imagem para vídeo	varies	Product demos, stylized motion design, and image-conditioned clips where the source frame should drive the video.

Geração de música

Cobrado por segundo de áudio gerado.

Modelo	Modos	Créditos / seg	Melhor uso
ElevenLabs Music	texto para música	~1	Rascunhos de trilha sonora por prompt dentro do mesmo runtime de agente.
Mureka V8	texto para música	varies	Songwriting, vocal-oriented drafts, and audio content production when an agent needs an alternative to Suno or ElevenLabs Music.
Suno V5	texto para música	varies	Structured songs, vocal demos, and full-track concepts that need lyrics, mood, and arrangement guidance.
Suno V5.5	texto para música	varies	Current Suno music generation workflows, complete track drafts, vocal concepts, and high-iteration song ideas.

Geração de imagem

Seedream 5

Um default forte para tarefas de geração de imagem com primeira saída mais refinada.

Nano Banana Pro

Melhor ajuste para ciclos de revisão e edição de imagem guiada por prompt.

Nano Banana 2

Mais rápido para geração de imagem escalável e ciclos de iteração em alto volume.

Geração de vídeo

Veo 3.1

O modelo atual de geração de vídeo para fluxos de texto para vídeo via AnyCap.

Kling 3.0

Um ajuste forte para movimento realista e fluxos cinematográficos de imagem para vídeo.

Seedance 1.5 Pro

Um default confiável para trabalho de texto para vídeo e imagem para vídeo com perfil mais produtivo.

Geração de música

ElevenLabs Music

Um modelo de música por prompt para rascunhos de trilha sonora dentro do mesmo runtime de agente.

FAQ

Como escolher entre Seedream 5, Nano Banana Pro e Nano Banana 2?

Use Seedream 5 quando o fluxo precisar de uma primeira imagem mais forte a partir de um prompt, Nano Banana Pro quando o trabalho começar de uma imagem existente e precisar de revisões, e Nano Banana 2 quando velocidade, volume ou iteração repetida importarem mais.

Como escolher entre Veo 3.1, Kling 3.0 e Seedance 1.5 Pro?

Use Veo 3.1 quando a primeira versão de vídeo precisar parecer mais premium a partir de um briefing de texto, Kling 3.0 quando o fluxo pender mais para movimento cinematográfico ou trabalho flexível de imagem para vídeo, e Seedance 1.5 Pro quando o time quiser um default mais estável e orientado à produção.

Todos os modelos do AnyCap usam a mesma CLI e o mesmo fluxo de autenticação?

Sim. O AnyCap expõe esses modelos pelo mesmo runtime de capacidades, pela mesma CLI e pelo mesmo fluxo de autenticação, então os times não precisam de um caminho de integração separado para cada página de modelo listada aqui.

Qualquer capacidade Guia de contexto

Modelos

Atualizado em 5 de abril de 2026

Escolha o modelo certo
para o trabalho do agente.

Resumo direto

Como escolher o modelo certo

Comece pelo tipo de saída: imagem, vídeo ou música.
Depois decida se a tarefa precisa de uma primeira versão mais refinada, iteração mais rápida ou revisão a partir de um ativo existente.
Use as páginas-guia de modelos quando a escolha depender do estilo de movimento, do fluxo de edição ou de tradeoffs de custo.

Guia visual

Comparação atual de modelos

Geração de imagem

Cobrado por chamada. Suporta modos de texto para imagem e imagem para imagem.

Modelo	Modos	Créditos / chamada	Melhor uso
FLUX.1 Kontext Max	texto para imagem, imagem para imagem	varies	Design-heavy image generation and contextual edits where prompt adherence, visual richness, and iterative refinement matter.
GPT Image 2	texto para imagem, imagem para imagem	varies	General-purpose image generation and image edits when the workflow benefits from OpenAI's multimodal image model family.
Nano Banana Pro	texto para imagem, imagem para imagem	~7	Edição de imagem direcionada e ciclos de revisão a partir de um visual existente.
Nano Banana 2	texto para imagem, imagem para imagem	~4	Geração de imagem rápida e escalável com iteração em alto volume.
Qwen Image	texto para imagem, imagem para imagem	varies	Bilingual or instruction-heavy visual work, especially when an agent needs a model associated with the Qwen multimodal family.
Seedream 4.5	texto para imagem, imagem para imagem	varies	Everyday image generation, image transformation, and iterative editing where stable structure preservation matters.
Seedream 5	texto para imagem, imagem para imagem	~2	Geração de imagem com primeira saída mais refinada a partir de um prompt de texto.

Geração de vídeo

Cobrado por segundo de saída gerada. Suporta modos de texto para vídeo e imagem para vídeo.

Modelo	Modos	Créditos / seg	Melhor uso
Hailuo 2.3	texto para vídeo, imagem para vídeo	varies	Short narrative clips, expressive character motion, visual storytelling, and reference-image animation.
Veo 3.1	texto para vídeo, imagem para vídeo	~20	Saída premium de texto para vídeo quando a primeira versão precisa parecer mais forte.
Veo 3.1 Fast	texto para vídeo, imagem para vídeo	varies	Rapid creative iteration and preview generation when an agent wants the Veo family with faster turnaround.
Sora 2 Pro	texto para vídeo, imagem para vídeo	varies	High-end narrative, cinematic, product, and realistic video generation when teams want an OpenAI video model through the same CLI.
Seedance 1.5 Pro	texto para vídeo, imagem para vídeo	~14	Fluxos de vídeo estáveis, orientados à produção, e trabalhos repetíveis de imagem para vídeo.
Seedance 2.0	texto para vídeo, imagem para vídeo	varies	High-quality cinematic and product video workflows where agents need the newer Seedance model entry.
Seedance 2.0 Fast	texto para vídeo, imagem para vídeo	varies	Previewing, ideation, and high-volume video iteration when an agent needs faster turnaround.
Kling 3.0	texto para vídeo, imagem para vídeo	~9	Movimento cinematográfico e fluxos flexíveis de imagem para vídeo.
Kling O1	imagem para vídeo	varies	Product demos, stylized motion design, and image-conditioned clips where the source frame should drive the video.

Geração de música

Cobrado por segundo de áudio gerado.

Modelo	Modos	Créditos / seg	Melhor uso
ElevenLabs Music	texto para música	~1	Rascunhos de trilha sonora por prompt dentro do mesmo runtime de agente.
Mureka V8	texto para música	varies	Songwriting, vocal-oriented drafts, and audio content production when an agent needs an alternative to Suno or ElevenLabs Music.
Suno V5	texto para música	varies	Structured songs, vocal demos, and full-track concepts that need lyrics, mood, and arrangement guidance.
Suno V5.5	texto para música	varies	Current Suno music generation workflows, complete track drafts, vocal concepts, and high-iteration song ideas.

Geração de música

ElevenLabs Music

Um modelo de música por prompt para rascunhos de trilha sonora dentro do mesmo runtime de agente.

Escolha o modelo certopara o trabalho do agente.

Como escolher o modelo certo

Guia visual

Comparação atual de modelos

Geração de imagem

Geração de vídeo

Geração de música

Geração de imagem

Seedream 5

Nano Banana Pro

Nano Banana 2

Geração de vídeo

Veo 3.1

Kling 3.0

Seedance 1.5 Pro

Geração de música

ElevenLabs Music

FAQ

Como escolher entre Seedream 5, Nano Banana Pro e Nano Banana 2?

Como escolher entre Veo 3.1, Kling 3.0 e Seedance 1.5 Pro?

Todos os modelos do AnyCap usam a mesma CLI e o mesmo fluxo de autenticação?

Escolha o modelo certopara o trabalho do agente.

Como escolher o modelo certo

Guia visual

Comparação atual de modelos

Geração de imagem

Geração de vídeo

Geração de música

Geração de imagem

Seedream 5

Nano Banana Pro

Nano Banana 2

Geração de vídeo

Veo 3.1

Kling 3.0

Seedance 1.5 Pro

Geração de música

ElevenLabs Music

FAQ

Como escolher entre Seedream 5, Nano Banana Pro e Nano Banana 2?

Como escolher entre Veo 3.1, Kling 3.0 e Seedance 1.5 Pro?

Todos os modelos do AnyCap usam a mesma CLI e o mesmo fluxo de autenticação?

Escolha o modelo certo
para o trabalho do agente.

Escolha o modelo certo
para o trabalho do agente.