R1-Searcher++: как ИИ научится самому добывать и запоминать знания
📅 22 мая 2025 года команда учёных из Народного университета Китая и других институтов опубликовала исследование (https://arxiv.org/abs/2505.17005) «R1-Searcher++: Incentivizing the Dynamic Knowledge Acquisition of LLMs via Reinforcement Learning» .
Они создали новый способ, который учит ИИ думать как человек: сначала использовать свои знания, а затем обращаться к внешним источникам, только если нужно. Давайте разберёмся, как это работает и почему это круто! 🚀
🔍 Проблема, которую решали Большие языковые модели (LLMs), такие как ChatGPT или Qwen, хранят знания в своих параметрах, но: — часто галлюцинируют (придумывают факты), — не умеют "искать", если чего-то не знают, — и не запоминают информацию, которую "нашли" при помощи поиска.
Большинство решений в виде RAG (Retrieval-Augmented Generation) добавляют поиск, но: — перегружают модель внешними документами, — не учат использовать собственные знания, — не развивают способность к самостоятельному обучению.
🎯 Что предложили? Модель R1-Searcher++ обучают работать по-человечески: 1️⃣ Сначала подумай: достаточно ли внутреннего знания? 2️⃣ Если нет — поищи внешнюю информацию. 3️⃣ Запомни найденное — используй его в будущем как своё.
⚙️ Как это устроено? 📌 Два этапа обучения:
SFT Cold-start Модель обучают «поведению»: — Разделять, где знание своё (<internal>), а где извне (<external>, <document>). — Правильно оформлять ответы.
Обучение с подкреплением (Reinforcement Learning) Через специальную систему наград модель учится: — Оптимально сочетать свои знания и поиск — Стремиться к кратким и точным ответам — Не обращаться к поиску без необходимости — Запоминать найденную информацию для повторного использования
📊 Что получилось? Модель тестировали на 4 мультихоповых QA-датасетах: HotpotQA, 2Wiki, Musique, Bamboogle — задачи, где ответ требует цепочки рассуждений и поиска.
R1-Searcher++ показала: ❗️ +4.3% к качеству ответов по сравнению с предыдущим RL-бейзлайном ❗️–42.9% количества поисковых запросов
Лучшую обобщающую способность — справилась даже с онлайн-поиском по Google, несмотря на то, что обучалась на локальной базе (Wikipedia 2019)
🧠 Что важно? Модель научилась: ✅ Самостоятельно решать, когда обращаться к поиску, а когда — полагаться на свои знания ✅Запоминать информацию, полученную извне ✅ Становиться умнее в процессе обучения — без постоянного дообучения от человека
🔎 Это исследование — шаг к следующему поколению ИИ, где модели не просто воспроизводят заученное, а умеют рассуждать, добывать и накапливать знания самостоятельно.
R1-Searcher++ показывает, что LLM могут становиться умнее не за счёт постоянной донастройки, а через самообучение в процессе взаимодействия с миром. Это приближает нас к действительно адаптивному, рациональному искусственному интеллекту.
AI Wiz
R1-Searcher++: как ИИ научится самому добывать и запоминать знания
Они создали новый способ, который учит ИИ думать как человек: сначала использовать свои знания, а затем обращаться к внешним источникам, только если нужно. Давайте разберёмся, как это работает и почему это круто! 🚀
🔍 Проблема, которую решали
Большие языковые модели (LLMs), такие как ChatGPT или Qwen, хранят знания в своих параметрах, но:
— часто галлюцинируют (придумывают факты),
— не умеют "искать", если чего-то не знают,
— и не запоминают информацию, которую "нашли" при помощи поиска.
Большинство решений в виде RAG (Retrieval-Augmented Generation) добавляют поиск, но:
— перегружают модель внешними документами,
— не учат использовать собственные знания,
— не развивают способность к самостоятельному обучению.
🎯 Что предложили?
Модель R1-Searcher++ обучают работать по-человечески:
1️⃣ Сначала подумай: достаточно ли внутреннего знания?
2️⃣ Если нет — поищи внешнюю информацию.
3️⃣ Запомни найденное — используй его в будущем как своё.
⚙️ Как это устроено?
📌 Два этапа обучения:
SFT Cold-start
Модель обучают «поведению»:
— Разделять, где знание своё (<internal>), а где извне (<external>, <document>).
— Правильно оформлять ответы.
Обучение с подкреплением (Reinforcement Learning)
Через специальную систему наград модель учится:
— Оптимально сочетать свои знания и поиск
— Стремиться к кратким и точным ответам
— Не обращаться к поиску без необходимости
— Запоминать найденную информацию для повторного использования
📊 Что получилось?
Модель тестировали на 4 мультихоповых QA-датасетах:
HotpotQA, 2Wiki, Musique, Bamboogle — задачи, где ответ требует цепочки рассуждений и поиска.
R1-Searcher++ показала:
❗️ +4.3% к качеству ответов по сравнению с предыдущим RL-бейзлайном
❗️–42.9% количества поисковых запросов
Лучшую обобщающую способность — справилась даже с онлайн-поиском по Google, несмотря на то, что обучалась на локальной базе (Wikipedia 2019)
🧠 Что важно?
Модель научилась:
✅ Самостоятельно решать, когда обращаться к поиску, а когда — полагаться на свои знания
✅Запоминать информацию, полученную извне
✅ Становиться умнее в процессе обучения — без постоянного дообучения от человека
🔎 Это исследование — шаг к следующему поколению ИИ, где модели не просто воспроизводят заученное, а умеют рассуждать, добывать и накапливать знания самостоятельно.
R1-Searcher++ показывает, что LLM могут становиться умнее не за счёт постоянной донастройки, а через самообучение в процессе взаимодействия с миром. Это приближает нас к действительно адаптивному, рациональному искусственному интеллекту.
#AIWiz #ИскусственныйИнтеллект #технологии