
Google lança o Gemini: O seu novo modelo de IA
7 Dezembro, 2023Após um primeiro anúncio que aconteceu no Google I/O, o gigante das pesquisas anunciou o lançamento do Gemini, que é o seu novo modelo de Inteligência Artificial (IA). Ele vem para competir diretamente com o GPT-4, o modelo do OpenAI (ChatGPT), e está a chegar ao Google Bard.
Com o Gemini, Google quer dominar a Inteligência Artificial
O Google explica que o Gemini é o resultado de uma cooperação em larga escala entre diferentes equipas do seu ecossistema. Este modelo foi pensado desde o início para ser multimodal, ou seja, capaz de generalizar, compreender, processar e combinar com fluência diferentes meios de informação, incluindo texto, código, áudio, imagem e vídeo.
A Google também garante que o Gemini é o seu modelo mais versátil até ao momento. Foi anunciado que é adequado, e eficaz, para todos os tipo de utilização, desde data centers até smartphones. Os seus recursos avançados vão ajudar os programadores e empresas a projetar e fornecer aplicações baseadas em IA para as massas.
O lançamento do Gemini 1.0 está assente em três elementos:
- Gemini Ultra — o modelo maior e mais capaz, com as mais amplas capacidades, destinado a tarefas de alta complexidade;
- Gemini Pro — o modelo mais versátil, adequado para uma ampla variedade de tarefas;
- Gemini Nano — o modelo mais eficiente para tarefas incorporadas (no dispositivo)
E quanto ao desempenho? Desde a compreensão natural de multimédia, que vão da imagem, ao áudio ou vídeo até o raciocínio matemático, o desempenho do modelo Ultra supera o GPT-4 da OpenAI nesta área em 30 dos 32 benchmarks académicos amplamente utilizados na pesquisa e desenvolvimento de grandes modelos de linguagem (Large Language Models ou LLMs).

Com uma pontuação de 90%, o Gemini Ultra é o primeiro modelo capaz de superar especialistas humanos em Massive Multitask Language Understanding (MMLU), que testa tanto o conhecimento do mundo como a capacidade de resolução de problemas num corpus de 57 disciplinas como matemática, física, história, direito, medicina ou ética.
O Gemini Ultra também alcançou um desempenho sem precedentes de 59,4% no novo benchmark Massive Multi-disciplina Multimodal Understanding (MMMU), que oferece tarefas multimodais que exigem raciocínio deliberado numa ampla variedade de domínios.
Nos benchmarks de imagens em que foi testado, o Gemini Ultra superou os melhores modelos existentes sem a utilização de sistemas de reconhecimento de texto (OCR), que extraem o texto contido nas imagens para processamento. Estes benchmarks realçaram a multimodalidade nativa do Gemini e deram uma primeira indicação das suas profundas capacidades de raciocínio.
A Google também oferece vídeos de demonstração. Uma pessoa mostra objetos, desenhos e vídeos à IA. O sistema comenta oralmente o que “vê”, identifica objetos, toca música e responde perguntas que exigem certo grau de análise, justificando o seu raciocínio. Por exemplo, ao deparar-se com a imagem de um pato de borracha que deve escolher entre dois caminhos — o da esquerda que leva a outro pato desenhado no papel e o da direita que leva a um urso de aparência ameaçadora — a IA sugere o caminho correto porque “é melhor fazer amigos do que inimigos” .
O vídeo também demonstra que Gemini consegue reconhecer referências com pouquíssimo contexto, como uma cena do filme Matrix interpretada por uma pessoa a fingir desviar-se de balas em câmara lenta.
A Google agora está a oferecer Gemini Pro em vez de LaMDA em termos do Bard IA. No entanto, deve falar inglês (por enquanto) para ter direito à nova versão. Para o Gemini Nano, a disponibilidade está ao nível do smartphone Pixel 8 Pro. Estará disponível com uma atualização para melhorar o reconhecimento de texto ou os recursos de previsão de resposta. Podemos imaginar que isto chegará mais tarde a todos os smartphones Android.
2024 também será um grande ano para a Google que planeia oferecer o Gemini no seu mecanismo de pesquisa, e o Chrome e outros elementos, sempre com o objetivo de melhorar as previsões. Para pesquisas, por exemplo, a Google fala numa exibição de resultados 40% mais rápida.
Ainda em 2024, a Google oferecerá o Bard Advanced, que será uma versão avançada do chatbot com Gemini Ultra. No entanto, é possível que seja pago (tal como o ChatGPT Plus).

Joel Pinto
Fundador do Noticias e Tecnologia, e este foi o seu segundo projeto online, depois de vários anos ligado a um portal voltado para o sistema Android, onde também foi um dos seus fundadores.