Modelos
Atualizado em 5 de abril de 2026
Escolha o modelo certo
para o trabalho do agente.
O AnyCap expõe modelos multimodais por um único runtime de capacidades e uma única CLI. Esta página ajuda times a escolher o modelo certo para um fluxo específico de agente em vez de tratar todo pedido de imagem ou vídeo da mesma forma.
Resumo direto
O catálogo público atual de modelos do AnyCap inclui modelos de geração de imagem para primeira saída e ciclos de revisão, modelos de geração de vídeo para trabalho mais premium ou orientado à produção, e um modelo de música por prompt para rascunhos de trilha sonora. A escolha certa normalmente depende de o trabalho começar de um prompt em branco ou de um ativo existente, de quanto refinamento a primeira versão precisa e de quanto velocidade ou eficiência de custo importa no fluxo.
Como escolher o modelo certo
- Comece pelo tipo de saída: imagem, vídeo ou música.
- Depois decida se a tarefa precisa de uma primeira versão mais refinada, iteração mais rápida ou revisão a partir de um ativo existente.
- Use as páginas-guia de modelos quando a escolha depender do estilo de movimento, do fluxo de edição ou de tradeoffs de custo.
Guia visual

Esta ilustração é um mapa visual rápido do catálogo atual: modelos de imagem de um lado, modelos de vídeo de outro, e geração de música como uma trilha separada de capacidade dentro do mesmo runtime de agente. Ela foi gerada com Nano Banana 2 para manter a linguagem visual da página alinhada ao próprio catálogo de modelos.
Comparação atual de modelos
Estes são os modelos públicos atuais expostos pelo AnyCap. As faixas de créditos vêm do mesmo inventário de preços usado na página de preços, então o hub e a página de preços permanecem alinhados.
Geração de imagem
Cobrado por chamada. Suporta modos de texto para imagem e imagem para imagem.
| Modelo | Modos | Créditos / chamada | Melhor uso |
|---|---|---|---|
| FLUX.1 Kontext Max | texto para imagem, imagem para imagem | varies | Design-heavy image generation and contextual edits where prompt adherence, visual richness, and iterative refinement matter. |
| GPT Image 2 | texto para imagem, imagem para imagem | varies | General-purpose image generation and image edits when the workflow benefits from OpenAI's multimodal image model family. |
| Nano Banana Pro | texto para imagem, imagem para imagem | ~7 | Edição de imagem direcionada e ciclos de revisão a partir de um visual existente. |
| Nano Banana 2 | texto para imagem, imagem para imagem | ~4 | Geração de imagem rápida e escalável com iteração em alto volume. |
| Qwen Image | texto para imagem, imagem para imagem | varies | Bilingual or instruction-heavy visual work, especially when an agent needs a model associated with the Qwen multimodal family. |
| Seedream 4.5 | texto para imagem, imagem para imagem | varies | Everyday image generation, image transformation, and iterative editing where stable structure preservation matters. |
| Seedream 5 | texto para imagem, imagem para imagem | ~2 | Geração de imagem com primeira saída mais refinada a partir de um prompt de texto. |
Geração de vídeo
Cobrado por segundo de saída gerada. Suporta modos de texto para vídeo e imagem para vídeo.
| Modelo | Modos | Créditos / seg | Melhor uso |
|---|---|---|---|
| Hailuo 2.3 | texto para vídeo, imagem para vídeo | varies | Short narrative clips, expressive character motion, visual storytelling, and reference-image animation. |
| Veo 3.1 | texto para vídeo, imagem para vídeo | ~20 | Saída premium de texto para vídeo quando a primeira versão precisa parecer mais forte. |
| Veo 3.1 Fast | texto para vídeo, imagem para vídeo | varies | Rapid creative iteration and preview generation when an agent wants the Veo family with faster turnaround. |
| Sora 2 Pro | texto para vídeo, imagem para vídeo | varies | High-end narrative, cinematic, product, and realistic video generation when teams want an OpenAI video model through the same CLI. |
| Seedance 1.5 Pro | texto para vídeo, imagem para vídeo | ~14 | Fluxos de vídeo estáveis, orientados à produção, e trabalhos repetíveis de imagem para vídeo. |
| Seedance 2.0 | texto para vídeo, imagem para vídeo | varies | High-quality cinematic and product video workflows where agents need the newer Seedance model entry. |
| Seedance 2.0 Fast | texto para vídeo, imagem para vídeo | varies | Previewing, ideation, and high-volume video iteration when an agent needs faster turnaround. |
| Kling 3.0 | texto para vídeo, imagem para vídeo | ~9 | Movimento cinematográfico e fluxos flexíveis de imagem para vídeo. |
| Kling O1 | imagem para vídeo | varies | Product demos, stylized motion design, and image-conditioned clips where the source frame should drive the video. |
Geração de música
Cobrado por segundo de áudio gerado.
| Modelo | Modos | Créditos / seg | Melhor uso |
|---|---|---|---|
| ElevenLabs Music | texto para música | ~1 | Rascunhos de trilha sonora por prompt dentro do mesmo runtime de agente. |
| Mureka V8 | texto para música | varies | Songwriting, vocal-oriented drafts, and audio content production when an agent needs an alternative to Suno or ElevenLabs Music. |
| Suno V5 | texto para música | varies | Structured songs, vocal demos, and full-track concepts that need lyrics, mood, and arrangement guidance. |
| Suno V5.5 | texto para música | varies | Current Suno music generation workflows, complete track drafts, vocal concepts, and high-iteration song ideas. |
Geração de imagem
Geração de vídeo
Geração de música
FAQ
Como escolher entre Seedream 5, Nano Banana Pro e Nano Banana 2?
Use Seedream 5 quando o fluxo precisar de uma primeira imagem mais forte a partir de um prompt, Nano Banana Pro quando o trabalho começar de uma imagem existente e precisar de revisões, e Nano Banana 2 quando velocidade, volume ou iteração repetida importarem mais.
Como escolher entre Veo 3.1, Kling 3.0 e Seedance 1.5 Pro?
Use Veo 3.1 quando a primeira versão de vídeo precisar parecer mais premium a partir de um briefing de texto, Kling 3.0 quando o fluxo pender mais para movimento cinematográfico ou trabalho flexível de imagem para vídeo, e Seedance 1.5 Pro quando o time quiser um default mais estável e orientado à produção.
Todos os modelos do AnyCap usam a mesma CLI e o mesmo fluxo de autenticação?
Sim. O AnyCap expõe esses modelos pelo mesmo runtime de capacidades, pela mesma CLI e pelo mesmo fluxo de autenticação, então os times não precisam de um caminho de integração separado para cada página de modelo listada aqui.