A imagem apresenta uma análise comparativa das taxas de alucinação (frequência com que um modelo gera informações falsas ou não suportadas) em diferentes modelos de inteligência artificial (IA). Os destaques incluem:
• Modelos com menor taxa de alucinação (1,3%):
• ZHIPU.AI GLM-4-9B-Chat
• Gemini 2.0-Flash-Exp
• Outros modelos bem avaliados da OpenAI:
• OpenAI o1-mini (1,4%)
• GPT-4o (1,5%)
• GPT-4o-mini e GPT-4-Turbo (1,7%)
• GPT-4 (1,8%)
• GPT-3.5-Turbo (1,9%)
• Modelos com taxas mais altas:
• deepseek-v2.5 (2,4%)
• Microsoft Orca-2-13b e Phi-3.5-MoE-instruct (2,5%)
• Intel Neural-Chat-7B-v3-3 (2,6%)
• Alibaba Cloud Qwen2.5-7B-Instruct (2,8%)
• AI21labs Jamba-1.5-Mini (2,9%)
• Snowflake Arctic-Instruct (3,0%)
Os dados foram coletados a partir de resumos gerados por esses modelos, com base na detecção de inconsistências factuais. A fonte do estudo é a Vectara, com data de 11 de dezembro de 2024.
www.iaTECHNE.com