Resumo
- Método inovador: A Apple desenvolveu um método que permite a execução de modelos de linguagens grandes (LLMs) diretamente em smartphones, usando memória Flash no lugar da RAM.
- Utilização em iPhones: Embora não confirmado oficialmente, espera-se que a Apple implemente essa técnica nos iPhones futuros.
- Diferença para IAs atuais: Atualmente, as inteligências artificiais como ChatGPT, Microsoft Copilot, Claude e Google Bard dependem do processamento na nuvem. A técnica da Apple permitiria a execução local no dispositivo.
- Benefícios da memória Flash: A pesquisa mostra que os parâmetros da IA podem ser armazenados na memória Flash, que é abundante em smartphones (por exemplo, nos 128 a 256 GB nos iPhones mais recentes) em vez da RAM limitada (como os 8 GB dos iPhones 15 Pro e Pro Max).
A Apple revelou que encontrou um método para modelos de linguagens grandes (LLM), principal tecnologia das IAs generativas, rodarem diretamente em smartphones. Pesquisadores da empresa publicaram um artigo em que destacam o uso de memória flash, responsável pelo armazenamento de arquivos, no lugar da RAM para executar as tarefas das inteligências artificiais.
Como a pesquisa foi financiada pela Apple, é natural prever que esse método será usado nos iPhones — resta saber quando. Hoje já temos IAs generativas para smartphones, mas todo o seu processamento é feito pela nuvem. É assim com o ChatGPT/Microsoft Copilot, Claude e Google Bard, exceto a Gemini Nano, mas ela ainda não foi lançada.
RAM em falta, flash em dia
A técnica desenvolvida pela big tech permite que smartphones com pouca memória RAM rodem LLMs no próprio aparelho. O iPhone 15 Pro e Pro Max, por exemplo, contam “apenas” com 8 GB de memória RAM. No artigo, os autores explicam que uma IA com 7 bilhões de parâmetros (o “conhecimento” dela) precisa de pelo menos 14 GB para executar.
E sabe onde os smartphones têm memória sobrando (na teoria)? Na capacidade de armazenamento, que usa memória do tipo flash. Os iPhones mais novos começam com 128 GB de memória — 256 GB para o 15 Pro Max. Mas a técnica desenvolvida pelos autores não é bem uma RAM virtual.
No artigo, os pesquisadores explicam que os parâmetros da inteligência artificial ficariam na memória flash, ao invés da RAM. Quando fosse a hora de executar uma tarefa, a IA não dependeria da RAM para entregar um resultado. Outra diferença para a RAM virtual é que esta técnica consegue ser mais rápida.
Os autores conseguem melhorar o desempenho do processamento da IA graças a dois meios, um batizado de Windowing e outro de Row-column bundling (empacotamento de fila e coluna).
No primeiro, a IA reaproveita dados já processados, o que economiza tempo para pegar informações e deixa a execução mais rápida. Já no Row-column bundling, a leitura de dados é feita em várias etapas de uma só vez — um exemplo é como se um humano fosse capaz de ler um livro oração por oração, ao invés de palavra por palavra.
Com informações: MacRumors
Apple cria jeito de rodar IA no iPhone sem depender da nuvem
from Tecnoblog https://ift.tt/SvAyjKr
via IFTTT