Stability AI представила нейросеть Stable Cascade для генерации изображений

Новую модель машинного обучения можно использовать на системах с ограниченными ресурсами.
Команда разработчиков Stability AI выпустила предварительную версию нейросети Stable Cascade для генерации изображений. Инженеры компании использовали адаптированную архитектуру Вюрстчена с коэффициентом сжатия в латентном пространстве до 42 раз.
Нейросеть состоит из трёх моделей машинного обучения, которые работают вместе. Суммарно Stable Cascade включает в себя 10 млрд параметров. Такое малое количество не снижает общее качество и позволяет запускать нейросеть на устройствах с ограниченным количеством ресурсов.
Важная особенность Stable Cascade заключается в том, что разработчики использовали адаптированную архитектуру Вюрстчена, которая сжимает латентное пространство. Благодаря этому изображения генерируются быстрее, и в итоге пользователю приходится меньше ждать результата работы нейросети. Представители компании отмечают, что Stable Diffusion может сжать изображение с разрешением 1024×1024 пикселей всего в 8 раз, добившись разрешения 128×128. В новой нейросети увеличенный коэффициент сжатия преобразует такое же изображение до картинки 24×24 пикселей.
Stable Cascade поддерживает следующие режимы генерации:
— Text-to-Image. Позволяет создать картинку по текстовому описанию.
— Image Variation. Нейросеть можно попросить сгенерировать несколько вариантов на основе одного запроса.
— Image-to-Image. Создание изображений на основе другого изображения.
— Inpainting/Outpainting. Заполнение области картинки по маске или расширение границ изображения.
— Canny Edge. Создание картинок по контурам или зарисовка к текстовому запросу.
— Super Resolution. Увеличение разрешения в два раза.

Stability AI представила нейросеть Stable Cascade для генерации изображений

Комментарии