В «Яндексе» сравнили поисковые запросы со словарем Даля.

Выяснилось, что почти полтора тома словаря из четырех вышли из употребления. Кроме того, аналитики нашли забавные совпадения: оказывается, еще в 19 веке употребляли слова «двач» и «клубняк» https://nplus1.ru/news/2016/11/29/dal-or-not-dal

В «Яндексе» сравнили поисковые запросы со словарем Даля. - 849216547162
Сложность статьи: 3.1


Аналитики из компании «Яндекс» сравнили слова из поисковых запросов пользователей за последний год со словами из словаря Даля. Это позволило проследить, как изменилась лексика русского языка с середины XIX века. Исследование показало, что почти полтора тома из четырех томов словаря Даля полностью вышли из употребления. Об этом рассказывается в блоге компании.

Около 150 лет назад был впервые полностью опубликован «Толковый словарь живого великорусского языка» Даля. Он представляет собой справочник повседневного языка, на котором говорили в России в середине XIX века. Словарь Даля, как и поисковые запросы пользователей, содержит разговорную лексику, поэтому аналитики «Яндекса» решили сравнить слова из словаря и запросов, чтобы понять, как изменился русский язык за полтора века.

Исследователи использовали электронную републикацию словаря на основе 2-го издания. Из всех слов (их примерно 200 тысяч) они выбрали те, которые были записаны целиком (например, возвратные глаголы, которые обозначаются только частицей -ся, не включались в анализ) и для которых дано толкование. Кроме того, аналитики собрали все запросы пользователей к Яндексу за последний год и разделили их на словоформы. Cреди них часто встречались «ненастоящие» слова, например с ошибками в написании (отзовы), бессмысленные последовательности букв (аааааааааааааау) или слова, введенные при неверной раскладке (нщгегиу — youtube). Чтобы сделать выборку «чище», аналитики сравнили слова из запросов со словами из Национального корпуса русского языка. Пересечений оказалось около 750 тысяч.
В «Яндексе» сравнили поисковые запросы со словарем Даля. - 849216551258
Анализ показал, что почти пятая часть слов из словаря Даля (18 процентов) за год ни разу не встретилась в поисковых запросах к Яндексу — по мнению аналитиков, входящие в эту группу слова можно считать полностью вышедшими из употребления. Доля глаголов среди них заметно больше, чем в словаре в целом, а доля существительных — меньше. Таким образом, исследователи сделали вывод, что глаголы из словаря Даля устаревают быстрее, чем существительные. Около 85 процентов «ушедших» глаголов содержат приставки — самая популярная, по-, встречается в каждом пятом случае: понасудачить, попринаряжать, повзопреть. Почти треть существительных оканчивается на -ье или -ие и означает действие по соответствующему им глаголу: вывороченье, избоданье, ловничанье.
Примерно 38 процентов слов упоминались в запросах, но отсутствовали в корпусе русского языка. В пересечение поиска и корпуса попали 44 процентов слов. Слова из этих двух групп исследователи разделили на «уходящие» и «живые». Для этого аналитики выделили омонимы, которые могли попасть в корпус из-за того, что они пишутся одинаково, но имеют разное значение: например, у Даля встречаются такие популярные в интернете слова, как порно, двач, прикол, клубняк, но значат они совсем другое. Кроме того, в «Яндексе» посчитали, сколько слов люди искали с целью узнать, что они значат.

«Порно» по Далю — крепко, надёжно, дюже, прочно, споро; «двач» — предмет, состоящий как бы из срослых двойней, близнят; «прикол» — действие по глаголу «прикалывать»; «клубняк» — вообще все клубоватое, образующее клубки.

Омонимами оказалась почти треть изученных слов. Из них почти 60 процентов встретились в поисковых запросах более тысячи раз в течение года, но при этом отсутствовали в текстах из корпуса. Около 8,5 процента слов из словаря Даля заинтересовали пользователей в первую очередь в контексте поиска значения. Из них самые популярные: инсинуация, демагогия, утрировать, моногамия и импонировать.
В «Яндексе» сравнили поисковые запросы со словарем Даля. - 849216572250
Анализ показал, что в наше время продолжают использоваться 60 процентов слов из словаря, то есть примерно 2,5 тома. Около половины из них — живые слова: к ним постоянно прибегают при поиске. Вторая половина — «уходящие»; они либо появляются в запросах крайне редко, либо люди ищут их в основном для того, чтобы узнать значение: [хлудец это], [что такое прокоробить]. Оставшиеся слова, по мнению «Яндекса», можно признать ушедшими. Их почти не употребляют: пользователи в течение года ничего не искали с их помощью и даже не спрашивали, что они означают. В эту группу также попали некоторые слова, которые оказались в запросах и в корпусе только из-за омонимии или по ошибке.
Кроме того, в «Яндексе» составили карту, которая показывает наиболее характерные слова из словаря Даля для каждого региона, — те, которые здесь ищут значительно чаще, чем в среднем по России. На карте можно посмотреть их старое значение и примеры поисковых запросов.

Недавно исследователи показали, что в литературе существуют 14-ти летние циклы популярности существительных. Такую закономерность ученые обнаружили в русском, английском, французском, немецком, итальянском и испанском языках. Кроме того, британские лингвисты пришли к выводу, что лексическая семантика имеет универсальную структуру, актуальную для всех языков и практически не зависящую от окружающей среды.

#новости #наука #лингвистика #яндекс

Комментарии

Комментариев нет.