Главные отличия «аналогов Фотошопа» от Google и OpenAI

В ChatGPT появилась новая функция, аналогичная выпущенной не так давно Google, которая позволяет генерировать и точечно редактировать изображения прямо в чате. Можно попросить сделать инфографику, поменять одежду или причёску на фото, убрать фон и так далее — осуществить самые разные манипуляции с картинкой, просто попросив об этом ИИ.
Вот основные отличия инструментов от двух конкурентов:
• Инструмент Google пока существует в предварительном формате и доступен бесплатно всем желающим, но только через специальный портал aistudio. Это не готовая к релизу разработка, а скорее бета-тест, в котором компания разрешила поучаствовать всем пользователям
• Текст на изображениях у Google получается хуже, чем у OpenAI. Длинный контекст там не поддерживается и заполнить целый листок А4 внятным текстом не выйдет
• Генерация у Google происходит быстрее. Возможно, из-за оптимизации под их процессоры Trillium или других ухищрений
• Google не умеет генерировать картинки с прозрачным фоном (добавляет вместо этого квадратики, имитируя его)
• Google лучше сохраняет лица и детали оригинального изображения, если нужно его точечно поменять (например, переодеть человека или сделать другую причёску)
• При этому упор у Google сделан не на «художественность», поэтому чтобы получить красивые изображения интерфейса, инфографики или рекламы — нужно постараться. Да и разрешение изображений там сильно ниже
Что в итоге?
Во-первых, OpenAI не стали спешить, уступив конкурентам на первом этапе (хотя анонсировали эту функцию сильно заранее), а в итоге выпустили более полноценный и лучше упакованный продукт. Ведь у Google он находится пока на экспериментальной стадии.
Во-вторых, даже несмотря на это Google умудрились добиться более высокой скорости генерации и выпустили продукт раньше OpenAI, получив время на сбор обратной связи и доработку.
В-третьих, OpenAI сделали большой шаг вперёд, представив быстро и эффективно работающую авторегрессионную модель генерации на больших разрешениях. Если раньше все предпочитали использовать диффузии, то теперь тренд меняется в сторону более предсказуемых и гибких мультимодальных моделей, которые одинаково хорошо работают с любыми форматами данных.

Content Review

Главные отличия «аналогов Фотошопа» от Google и OpenAI

Комментарии