Menos de três anos após o lançamento do ChatGPT as ferramentas de IA generativa se multiplicam em uma disputa feroz pela preferência dos usuários – e a mais recente sensação chama-se Nano Banana
A novidade, que pertence ao Google é capaz de criar ou editar imagens a partir de simples comandos, e já gerou mais de 5 bilhões de resultados.
Nano Banana é na verdade é o codinome para o Gemini 2.5 Flash Image, que apareceu pela primeira vez na plataforma LMArena em agosto deste ano, chamando a atenção do público pelo seu potencial.
Em testes livres, os usuários notaram uma capacidade de edição muito mais avançada, mantendo maior coesão entre os personagens e os fundos gerados do que os programas rivais disponíveis.
Nesta semana, o Google anunciou que a ferramenta estará disponível de maneira gratuita para todos os usuários, através do Gemini, no Google AI Studio, e do Vertex AI para uso comercial.
IA gera imagens ‘de forma natural’
Conforme afirma a empresa no anúncio oficial:
“Gemini 2.5 Flash Image empodera os usuários a fundir múltiplas imagens de maneira natural, mantendo consistência nos personagens para um storytelling mais rico, realiza edições precisas através de linguagem natural, e se aproveita do conhecimento extenso do Gemini para geração e modificação de imagens.”
Menos de um mês após seu lançamento, a nova versão do Gemini atingiu a marca de cinco bilhões de imagens geradas, segundo Josh Woodward, vice-presidente do Google.
Em setembro, a versão para iPhone do programa também chegou ao topo dos downloads na App Store, desbancando o ChatGPT, da OpenAI, segundo a CNet.
Afinal, por que ‘Nano Banana’?
“Nano Banana”, como esta versão da IA geradora de imagens do Google ficou conhecida, foi um apelido não intencional que eventualmente “acabou pegando”, e se tornou codinome oficial.
Quando anunciada, esta IA generativa não era anunciada como produto oficial do Google. Ainda durante a fase de testes, os primeiros avaliadores ficaram impressionados com a capacidade do programa misterioso em gerar imagens.
Nos testes cegos da plataforma LMArena, a Nano Banana chegou a vencer concorrentes em 70% dos casos, enfrentando produtos já consolidados no mercado, como o Dall-E 3, da OpenAI, o Adobe Firefly e o Flux Kontext.
Os usuários, impressionados especialmente com a capacidade de editar imagens e manter a consistência entre expressões e rostos “em nível microscópico”, só podiam descrever o resultado de uma forma: “bananas” — que, em inglês, é uma gíria para “enlouquecer de entusiasmo”.
Leia também | Caveira, berinjela e até sorriso: pesquisa mostra a confusão dos emojis entre gerações
Quando a banana começou a ficar oficial
Em meados de agosto, executivos do Google começaram a dar pistas sobre a autoria do programa. Logan Kilpatrick, chefe do Google AI Studio, tuitou um emoji de banana.
Tempos depois, Naina Raisinghani, do Google DeepMind, também compartilhou imagens da fruta.
As dicas foram suficientes para que fãs juntassem os pontos — é prática comum do Google de colocar frutas como codinomes para versões diferentes de seus aplicativos.
E o prefixo “nano”? A explicação é menos empolgante: é outra convenção da big tech ao se referir a modelos de linguagem compactos.
Por que a nova IA do Google é diferente?
Um dos diferenciais da Nano Banana para outras IAs generativas é o seu editor de imagem, dado que o programa é construído para trabalhar tanto com referências visuais quanto com comandos de texto.
“Ao invés de apenas gerar imagens baseadas em um prompt de texto, o modelo consegue incorporar uma imagem já existente no seu processo criativo”, explica o Google em uma publicação.
Outra diferença está na sua capacidade de “lembrar” dos pedidos.
Enquanto outras IAs generativas tratam cada solicitação de forma individual, a nova versão do Gemini “entende” o que foi pedido para criar e consegue realizar ajustes posteriores.
Veja exemplos do que é possível fazer com a Nano Banana
Edição de imagens
Como um dos focos do programa é a consistência em edições individuais, esta IA consegue alterar elementos específicos de uma imagem, sem descaracterizar o fundo ou alterar o contexto original.

O aspecto “conversacional” do Gemini permite que o usuário faça ajustes minuciosos — como pedir para aumentar mais, ou experimentar alterações em um objeto por vez — apenas em comandos por texto.
Usando pedidos ou descrições simples, é possível alterar expressões de pessoas, características de objetos, textos em placas ou até mesmo remover partes inteiras das fotos, como no Photoshop.
Usar imagens para gerar outras imagens
Outro diferencial do aspecto conversacional do Gemini é que a IA entende imagens enviadas como matéria-prima para a criação de outras imagens, sem necessidade de referências ou descrições extensas.
Na prática, isso não só diminui o tamanho dos prompts, mas permite recriações mais fidedignas conforme as ideias que um usuário possui.

A consistência do programa cria versões mais precisas e aprimoradas em comparação a programas anteriores — algo que o Google considera mais próximo de uma “cópia digital” do que uma versão aberrante em IA.

Alterações complexas com base em contexto
Além de funcionar com linguagem natural (ou seja, como se estivesse conversando com alguém), a Nano Banana também utiliza a própria base de dados do Google para preencher os contextos nas edições.
Isso permite que a IA entenda etapas diferentes de uma produção para transformá-la em algo diferente, como por exemplo, identificar danos em uma foto em preto e branco e restaurá-la.
O programa também permite combinar imagens diferentes e misturar estes elementos de forma criativa e integrada, desenvolvendo texturas ou referências diferentes a partir dos elementos visuais em cada uma delas.

Leia também | Kirk com Jesus, sermões bíblicos e mais: como a IA está sendo usada para criar um mártir digital