R1-Searcher++: как ИИ научится самому добывать и запоминать знания

📅 22 мая 2025 года команда учёных из Народного университета Китая и других институтов опубликовала исследование (https://arxiv.org/abs/2505.17005) «R1-Searcher++: Incentivizing the Dynamic Knowledge Acquisition of LLMs via Reinforcement Learning» .

Они создали новый способ, который учит ИИ думать как человек: сначала использовать свои знания, а затем обращаться к внешним источникам, только если нужно. Давайте разберёмся, как это работает и почему это круто! 🚀

🔍 Проблема, которую решали
Большие языковые модели (LLMs), такие как ChatGPT или Qwen, хранят знания в своих параметрах, но:
— часто галлюцинируют (придумывают факты),
— не умеют "искать", если чего-то не знают,
— и не запоминают информацию, которую "нашли" при помощи поиска.

Большинство решений в виде RAG (Retrieval-Augmented Generation) добавляют поиск, но:
— перегружают модель внешними документами,
— не учат использовать собственные знания,
— не развивают способность к самостоятельному обучению.

🎯 Что предложили?
Модель R1-Searcher++ обучают работать по-человечески:
1️⃣ Сначала подумай: достаточно ли внутреннего знания?
2️⃣ Если нет — поищи внешнюю информацию.
3️⃣ Запомни найденное — используй его в будущем как своё.

⚙️ Как это устроено?
📌 Два этапа обучения:

SFT Cold-start
Модель обучают «поведению»:
— Разделять, где знание своё (<internal>), а где извне (<external>, <document>).
— Правильно оформлять ответы.

Обучение с подкреплением (Reinforcement Learning)
Через специальную систему наград модель учится:
— Оптимально сочетать свои знания и поиск
— Стремиться к кратким и точным ответам
— Не обращаться к поиску без необходимости
— Запоминать найденную информацию для повторного использования

📊 Что получилось?
Модель тестировали на 4 мультихоповых QA-датасетах:
HotpotQA, 2Wiki, Musique, Bamboogle — задачи, где ответ требует цепочки рассуждений и поиска.

R1-Searcher++ показала:
❗️ +4.3% к качеству ответов по сравнению с предыдущим RL-бейзлайном
❗️–42.9% количества поисковых запросов

Лучшую обобщающую способность — справилась даже с онлайн-поиском по Google, несмотря на то, что обучалась на локальной базе (Wikipedia 2019)

🧠 Что важно?
Модель научилась:
✅ Самостоятельно решать, когда обращаться к поиску, а когда — полагаться на свои знания
✅Запоминать информацию, полученную извне
✅ Становиться умнее в процессе обучения — без постоянного дообучения от человека

🔎 Это исследование — шаг к следующему поколению ИИ, где модели не просто воспроизводят заученное, а умеют рассуждать, добывать и накапливать знания самостоятельно.

R1-Searcher++ показывает, что LLM могут становиться умнее не за счёт постоянной донастройки, а через самообучение в процессе взаимодействия с миром. Это приближает нас к действительно адаптивному, рациональному искусственному интеллекту.

#AIWiz #ИскусственныйИнтеллект #технологии

AI Wiz

R1-Searcher++: как ИИ научится самому добывать и запоминать знания

Комментарии