Обновление в Поиске по архивам: внутренние оглавления дел
Каждый генеалог знает, что одно архивное дело нередко включает много отдельных документов. Например, метрические книги обычно собираются либо за несколько лет по одному приходу (так называемые «приходские экземпляры»), либо за один год по нескольким приходам. Объем такого дела порой достигает 1000-1500 листов и более, а количество отдельных метрических книг в нем может исчисляться десятками и даже сотнями. Найти нужную МК в таком деле — непростая задача. Иногда архивисты составляют оглавления дел с указанием листов, но обычно есть лишь список приходов, зачастую не в правильном порядке, или диапазон дат. Чтобы помочь исследователям быстрее находить нужные разделы, мы решили дополнить материалы коллекции Поиска по архивам внутренними оглавлениями. Начали с метрических книг — самого массового типа генеалогических документов. Для этого сначала с помощью нейросети научились определять границы отдельной метрической книги в деле, включая разделы о рождении, браках и смертях. Это не всегда просто: обложка может выглядеть нестандартно или быть вовсе утраченной, а до первой трети XIX века отдельных обложек у метрических книг вообще не было — всю информацию писали в верхней части первого листа. Потом с помощью другой нейросети мы подобрали для каждого раздела наименование по году или по названию прихода, используя расшифрованный текст страницы, информацию из заголовка дела и другие справочные сведения. В результате примерно для 85% дел, включающих несколько метрических книг, уже доступно оглавление, как на карточке к этому посту. Больше не нужно пролистывать сотни изображений в поисках начала нужного раздела! Но оглавление — это не просто способ быстро перейти к нужным страницам дела. Если выбрать в оглавлении нужный раздел, то поиск со страницы дела будет ограничен только страницами выбранной метрической книги! Теперь искать нужные записи можно не по всем листам дела, а только в конкретном приходе или за определенный год. А с помощью фильтров на странице поиска можно выбрать вообще произвольный диапазон страниц в нужном деле — и не только в делах с метрическими книгами. Пока это бета-версия, и в названиях некоторых приходов могут быть ошибки или пропуски. Мы честно об этом предупреждаем и просим сообщать нам о всех обнаруженных ошибках — ссылка на форму есть под оглавлением. Объединив возможности нейросетей и помощь энтузиастов, мы сможем добиться отличного результата и сделать Поиск по архивам еще удобнее. Источник - Яндекс Поиск по архивам
МКУ "Муниципальный архив Бугурусланского района"
Обновление в Поиске по архивам: внутренние оглавления дел
Каждый генеалог знает, что одно архивное дело нередко включает много отдельных документов. Например, метрические книги обычно собираются либо за несколько лет по одному приходу (так называемые «приходские экземпляры»), либо за один год по нескольким приходам.
Объем такого дела порой достигает 1000-1500 листов и более, а количество отдельных метрических книг в нем может исчисляться десятками и даже сотнями. Найти нужную МК в таком деле — непростая задача. Иногда архивисты составляют оглавления дел с указанием листов, но обычно есть лишь список приходов, зачастую не в правильном порядке, или диапазон дат.
Чтобы помочь исследователям быстрее находить нужные разделы, мы решили дополнить материалы коллекции Поиска по архивам внутренними оглавлениями. Начали с метрических книг — самого массового типа генеалогических документов.
Для этого сначала с помощью нейросети научились определять границы отдельной метрической книги в деле, включая разделы о рождении, браках и смертях. Это не всегда просто: обложка может выглядеть нестандартно или быть вовсе утраченной, а до первой трети XIX века отдельных обложек у метрических книг вообще не было — всю информацию писали в верхней части первого листа.
Потом с помощью другой нейросети мы подобрали для каждого раздела наименование по году или по названию прихода, используя расшифрованный текст страницы, информацию из заголовка дела и другие справочные сведения. В результате примерно для 85% дел, включающих несколько метрических книг, уже доступно оглавление, как на карточке к этому посту. Больше не нужно пролистывать сотни изображений в поисках начала нужного раздела!
Но оглавление — это не просто способ быстро перейти к нужным страницам дела. Если выбрать в оглавлении нужный раздел, то поиск со страницы дела будет ограничен только страницами выбранной метрической книги! Теперь искать нужные записи можно не по всем листам дела, а только в конкретном приходе или за определенный год. А с помощью фильтров на странице поиска можно выбрать вообще произвольный диапазон страниц в нужном деле — и не только в делах с метрическими книгами.
Пока это бета-версия, и в названиях некоторых приходов могут быть ошибки или пропуски. Мы честно об этом предупреждаем и просим сообщать нам о всех обнаруженных ошибках — ссылка на форму есть под оглавлением. Объединив возможности нейросетей и помощь энтузиастов, мы сможем добиться отличного результата и сделать Поиск по архивам еще удобнее.
Источник - Яндекс Поиск по архивам