Microsoft представил облегченную нейросетевую языковую модель Phi-3 Mini, которая может конкурировать по результатам с GPT-3.5, несмотря на свои скромные размеры. Согласно описанию исследовательского документа, модель Phi-3 Mini была обучена на 3,3 триллионах лексем и имеет 3,8 миллиардов параметров.
Компактные языковые модели на данный момент также разрабатывают Google, Anthropic и Meta*. На их фоне Phi-3 Mini выделяется уникальным подходом к обучению.
Вице-президент Microsoft Azure AI Platform Эрик Бойд рассказал, что при создании модели команда вдохновлялась процессом обучения детей через прослушивание сказок на ночь. Но существующих детских сказок оказалось недостаточно, и чтобы решить проблему, разработчики подготовили список из более чем 3000 слов, а затем попросили LLM (большую языковую модель) сгенерировать «детские сказки» для обучения Phi-3 (компактной языковой модели).
Phi-3 Mini не станет заменой таким гигантам, как GPT-4, однако может стать полезной в конкретных задачах. К примеру, компактный размер модели позволяет запускать её на смартфонах и ноутбуках без необходимости подключения к интернету. Кроме того, она может оказаться полезной для организаций, использующих собственные данные для обучения.
* Meta признана экстремистской организацией и запрещена в России.