База данных русского вариативного произношения

О базе данных русского вариативного произношения

1. Что это за база данных

На сегодняшний день база содержит 1164 лексемы и 2794 варианта их произношения и опирается на данные трёх нормативных источников:

Словарь трудностей русского языка М. А. Штудинера, 2016 (СТРЯШ 2016),
Большой орфоэпический словарь русского языка под ред. М. Л. Каленчук, Л. Л. Касаткина, Р. Ф. Касаткиной, 2012 (электронная версия) и 2018 (печатная версия) (БОС 2012 и БОС 2018 соответственно).

Автор базы данных — Владислав Зубов.

2. Как создавалась база

2.1 Источники

За основу был взят Словарь трудностей русского языка (СТРЯШ 2016), из которого вручную были отобраны все лексемы с вариативным произношением (между вариантами была помета И). Далее каждая лексема сопоставлялась с данными из обеих версий Большого орфоэпического словаря (2012 и 2018).

2.2 Разметка типов вариативности

Каждый вариант получал разметку по типам вариативности. Все слова приводятся в орфографии. В тех случаях, когда из орфографической записи непонятно, как именно должно произноситься слово, внутри слова в квадратных скобках указывается произношение части слова (например, [с']е́ссия / [с]е́ссия). При этом используется кириллица (как это сделано в словарях-источниках) и знак j для йота. Поскольку база является орфоэпической, в ней указываются только фонемы (не аллофоны). При определении фонем и выделении типов вариативности используется подход Петербургской (Ленинградской) фонологической школы. Всего было выделено восемь типов вариативности (мягкость/твёрдость согласных и наличие/отсутствие йота выделены в самостоятельные группы в силу высокой частотности):

  • вариативность основного ударения (одновре́менно / одновреме́нно);
  • изменение гласных (ноль / нуль), кроме регулярных замен /о/ → /а/ и /е/ → /i/ в безударной позиции;
  • изменение согласных (матра́с / матра́ц), кроме варьирования по твёрдости/мягкости;
  • мягкость/твёрдость согласных ([с']е́ссия / [с]е́ссия);
  • наличие/отсутствие звука или звуков (андегра́унд / андергра́унд), кроме йота;
  • наличие/отсутствие йота: (д[иjэ́]та / д[иэ́]та);
  • перестановка звуков ([цэ-рэ-у́] / [цэ-эр-у́]);
  • вариативность дополнительного ударения (а̀теросклеро́з / атѐросклеро́з).

Если вариант относится к нескольким типам одновременно, для него указываются все типы вариативности. Например, для пары я́стребы / ястреба́ отмечаются одновременно вариативное ударение и изменение гласных.

2.3. Разметка статусов вариантов

Для каждого варианта фиксируются источник и его статус в этом источнике. Если в словаре между вариантами стоит помета И, пара получает статус равноправных вариантов (например: о́тжил / отжи́л, о́тжили / отжи́ли).

В остальных случаях для каждого варианта сохраняются пометы словарей-источников: основные, допустимые, не рекомендуемые, неправильные — отдельно для каждого варианта и каждого источника.

2.4. Дополнительные параметры

Для каждой лексемы указывается частотность в ipm (количестве словоупотреблений на миллион слов текста) по основному корпусу Национального корпуса русского языка (https://ruscorpora.ru/) (данные на осень 2025 года).

Также фиксируется часть речи каждой лексемы. Используются следующие обозначения: NOUN (нарицательные существительные), PROPN (имена собственные), ADJ (прилагательные), NUM (числительные), VERB (глаголы), ADV (наречия), CONJ (союзы), INTJ (междометия). При определении части речи мы опирались на классификацию Грамматического словаря русского языка А. А. Зализняка (https://gramdict.ru/).

Для каждого варианта дополнительно указывается область вариативности: вся лексема (например, матра́с / матра́ц), конкретная форма (например, о́тжил / отжи́л) или часть форм, то есть часть парадигмы — обычно у причастий: о́тжитый / отжи́тый.

3. Как пользоваться базой

3.1. Поиск по слову

Введите слово в начальной форме или его часть — система предложит подходящие варианты. Будьте внимательны, Е ≠ Ё. После поиска слова вы увидите список источников и статусы вариантов в каждом словаре.

Если варианты признаются равноправными, они будут написаны парой через слэш: одновре́менно / одновреме́нно. Если в каком-то словаре равноправная пара распадается, в интерфейсе будут перечислены пометы для всех представленных в словаре вариантов. Если конкретный вариант или вся лексема отсутствуют в одном из источников, об этом выводится отдельное сообщение.

3.2. Поиск по фильтрам

Можно отбирать слова по следующим параметрам:

  • источник – можно выбрать один или несколько словарей, а также режимы ИЛИ (наличие вариантов хотя бы в одном из выбранных словарей), И (обязательное присутствие вариантов во всех выбранных словарях), исключить (отбор вариантов, которые встречаются только в выбранных словарях и не встречаются в исключённых);
  • тип вариативности – один или несколько типов, в том числе в режиме И, когда требуется обязательное сочетание нескольких типов, например вариативного ударения и изменения гласных (я́стребы / ястреба́);
  • статус – выбор нужных статусных помет, а также режимы, позволяющие искать только совпадения или только разночтения между словарями;
  • область вариативности – лексема, форма или часть форм;
  • часть речи;
  • содержит – например, определённый слог или морфему.

После выбора фильтров выводится таблица с результатами, в которой представлены лексемы, типы вариативности, пары вариантов, статусы во всех выбранных словарях и дополнительные параметры. Таблицу можно скачать в CSV-формате для дальнейшего анализа.

4. Обновление базы данных

При обнаружении ошибок и неточностей вы можете связаться с автором для уточнения разметки. Если проект получит финансовую и институциональную поддержку, база будет дополняться новыми лексемами из актуальных орфоэпических словарей.

5. Правовой статус и использование базы

База данных распространяется на условиях лицензии Creative Commons BY-NC 4.0: вы можете свободно копировать, распространять и изменять материалы в некоммерческих целях при обязательном указании автора и ссылки на источник.

6. Как ссылаться

Ссылайтесь, пожалуйста, на эту работу:
Зубов В. И. Систематизация равноправных произносительных вариантов в современном русском языке (на материале орфоэпических словарей) // Вопросы лексикографии (в печати).

7. Технические детали

База данных хранится в формате SQLite и имеет нормализованную структуру: отдельные таблицы для лексем, вариантов, типов вариативности, источников, статусных помет и вспомогательных связок. Архитектура позволяет пополнять базу данных и создавать комбинированные фильтры.

Веб-интерфейс реализован на Flask и использует SQLAlchemy ORM для запросов к базе. Приложение развёрнуто на виртуальной машине Yandex Cloud. Приложение может быть развёрнуто на любом сервере с Python 3.10+ и SQLite.

Веб-интерфейс и обработчики были разработаны при помощи OpenAI ChatGPT (версии 5.0 и 5.1).