25 апр

ИИ против ИИ: как сравнивают нейросети и можно ли здесь схитрить

СМИ регулярно сообщают, что та или иная нейросеть показала лучшие результаты в тестах и теперь считается самой умной. Вместе с Елизаветой Гончаровой, руководителем группы мультимодального ИИ лаборатории Fusion Brain Института AIRI, разбираемся, как на самом деле устроен процесс сравнения моделей. Смотрим, как на человека
Человечество тысячелетиями оценивало способности и знания других людей — экспертизы в этом у нас накопилось немало. А вот с нейросетями такой опыт пока только формируется. Поэтому самые популярные бенчмарки для искусственного интеллекта построены по тем же принципам, что и оценка естественного интеллекта. Неочевидный бонус — такие сравнения позволяют понять, в каких областях человек все еще впереди и насколько велик разрыв его интеллекта с искусственным.
Вот четыре популярных бенчмарка:
MMLU (Massive Multitask Language Understanding) — тест, созданный для оценки способности ИИ-моделей понимать язык в разных предметных контекстах. В нем — вопросы по 57 дисциплинам, от математики и истории до медицины и права, а уровень сложности — от старшеклассника до специалиста. По сути, это экзамен на знания и умение рассуждать. MMLU позволяет разделить модели на сильные и слабые.
GSM8K (Grade School Math 8K) состоит из 8500 текстовых задач по математике с числовыми ответами. Здесь и арифметика, и логическое мышление, и пошаговые рассуждения. Математика — одна из самых сложных для искусственного интеллекта областей, особенно из-за необходимости работать с точными числами. GSM8K показывает, насколько хорошо модель умеет рассуждать и считать поэтапно.
BIG-bench (Beyond the Imitation Game Benchmark) — набор из 200 нестандартных задач . Своего рода стресс-тест: способен ли ИИ мыслить как человек при решении не самых конвенциональных заданий? Например, распознает ли система сарказм? Способна ли учесть его, если того требует условие.
Долгое время, даже при хороших показателях по MMLU и GSM8K, модели показывали по BIG-bench скромные результаты. Сегодня ИИ справляется с этим бенчмарком на уровне выпускника школы, но до эксперта в предметной области все еще далеко.
HellaSwag — бенчмарк на здравый смысл и понимание бытового контекста. Модели дают ситуацию и четыре варианта развития — нужно выбрать наиболее логичный.
Например: «Ты входишь в кафе и видишь официанта. Садишься за стол, и дальше...»
А. Он бежит в другую комнату.Б. Ты начинаешь готовить еду.В. Он дает тебе меню (правильный ответ).Г. Ты достаешь телефон и звонишь в полицию.
Простой подбор слов по шаблону здесь не подходит. Человек с этим тестом справляется на 95 %, GPT-4 — на 95,3 % (данные обновляются здесь), а старая добрая GPT-2-XL — на 51 %. Художник, а не отличник
У тестов вроде MMLU и GSM8K есть важное преимущество: они объективны. Есть задача — есть правильный ответ. То же касается тестирования кода — можно проверить, запускается ли он и дает ли верный результат.
Творческие способности модели измерить сложнее. У задачи «напиши сказку» или «сделай новостной пост» нет одного правильного ответа. Одна модель выдаст яркий короткий текст, другая — подробный, но сухой. И оба варианта могут быть хороши — просто для разных задач.
В таких случаях для оценки используют SBS-тестирование. Двум моделям дают один и тот же запрос, а человек-оценщик выбирает лучший ответ. Часто оценивают по критериям вроде логичности, креативности, связности. Но все равно оценка субъективна.
Сегодня сообщество приходит к тому, что постепенно появляются большие языковые модели, которые сами могут выступать оценщиками для других моделей. Одна ИИ-система оценивает другую — значит, человеческий фактор все же снижается. Учил или зазубрил
Если команда ученых хочет, чтобы о ее модели узнало сообщество, она тестирует разработку на стандартных бенчмарках и публикует лучшие результаты. Это важная часть пиара: попадание в рейтинги привлекает пользователей, а полученный трекшн — инвесторов.
Здесь у нерадивых исследователей может возникнуть соблазн «натренировать модель на тест». Тогда команды включают в обучение тестовые задания, и модель их просто запоминает. Это очень порицается в профессиональном сообществе. Иногда такое может произойти случайно: среди терабайтов интернет-данных могут оказаться те же самые вопросы.
Проблема решается с помощью деконтаминации данных. Так называют процесс, когда перед стартом обучения исследователи проверяют, не было ли схожих частей тестовых данных в обучающем датасете. Такие пересечения до обучения удаляются.
Также используют проверку с перемешанными ответами. Например, в HellaSwag модель могла просто запомнить, что на первый вопрос ответ — А, на второй — Г. Если поменять порядок вариантов и она снова выберет «А», значит, она не поняла суть, а просто запомнила буквы.
В то же время полностью повторить результаты тестов, особенно на закрытых моделях, не получится. У авторов есть доступ к весам и настройкам, у пользователей — нет. Плюс в публикациях часто не указаны точные параметры замеров, а только общие формулировки. Все как в жизни
Еще одно правило — важно сравнивать сопоставимое. Модель с 32 млрд параметров почти наверняка покажет лучшие результаты, чем модель с 7 млрд — просто из-за объема. Чтобы оценить именно архитектуру, нужно сравнивать модели в одной «весовой категории».
То же с контекстом. Например, модель с 3 млрд параметров, но с возможностью обрабатывать миллион токенов, может лучше справиться с анализом «Войны и мира», чем модель с 32 млрд параметров, но контекстом в 8 тысяч токенов.
У моделей могут быть разные словари. Если словарь большой (например, 250 тысяч токенов), модель, скорее всего, знает больше языков. Маленький (32 тысячи токенов) — уже ограничивает ее. Особенно это важно для задач на малоресурсных языках.
Универсальные бенчмарки вроде MMLU, GSM8K, BIG-bench и HellaSwag дают представление об общей эрудиции моделей — как если бы мы оценивали выпускника старшей школы или студента первых курсов университета по всем изученным дисциплинам.
Но важно не забывать, что чемпион может быть слаб в истории, но блистать на спортивных соревнованиях — и именно за это его ценят. Так и с ИИ: модель может быть средней по общим тестам, но при этом выдающейся в конкретной задаче — например, шутить, писать посты или генерировать код. Поэтому для компаний и пользователей важно не только следить за результатами на универсальных бенчмарках, но и проверять, как модель справляется с их конкретными задачами.
Telegram - https://t.me/scanos VK - https://vk.com/scanos_ru

ИИ против ИИ: как сравнивают нейросети и можно ли здесь схитрить - 955471843069

Комментарии

Комментариев нет.