УДК 81’42

ПРИМЕНЕНИЕ КОРПУСНОГО АНАЛИЗА В СОВРЕМЕННЫХ ЛИНГВИСТИЧЕСКИХ ИССЛЕДОВАНИЯХ

№39,

Филологические науки

Красильникова Надежда Валентиновна (кандидат педагогических наук, доцент)
Кузьминых Жанна Олеговна (кандидат педагогических наук, доцент)
Фирсова Светлана Павловна (кандидат педагогических наук, доцент)


Ключевые слова: КОРПУСНЫЙ АНАЛИЗ; КОРПУСНАЯ ЛИНГВИСТИКА; ТЕКСТ; ЦИФРОВЫЕ ТЕХНОЛОГИИ; CORPUS ANALYSIS; CORPUS LINGUISTICS; TEXT; DIGITAL TECHNOLOGIES.


Аннотация: В статье рассматривается растущая роль применения цифровых технологий в гуманитарных исследованиях, в частности в корпусной лингвистике. Особое внимание посвящено анализу понятия «лингвистический корпус», преимуществ и недостатков корпусного анализа.

Современный этап развития общества сопровождается возрастанием роли и интенсивности применения информационных цифровых технологий, которые обуславливают как текущее состояние образования, так и его ближайшие перспективы. Так, согласно результатам исследований, 68,8% россиян в возрасте 15–74 лет практически каждый день используют интернет, а среди молодежи в возрасте 15–24 лет это число составляет 88,9% [1]. Обозначенная тенденция касается таких аспектов деятельности человека как досуг, развлечения и решение повседневных бытовых вопросов, а также задач личностного и профессионального развития. Можно с уверенностью утверждать, что сквозные цифровые технологии являются составным компонентом практически любой профессиональной деятельности, приводя к её качественным изменениям и эффективным результатам.

Следует отметить, что современные компьютерные и телекоммуникационные технологии позволяют сохранять большие массивы информации и значительно упрощают обработку этой информации, поскольку любая электронная информационная система содержит в себе необходимый набор инструментов для поиска и обработки данных. При этом развитие соответствующих технологий анализа больших данных позволяет применять полученные данные для автоматического решения таких сложных задач, как, например, классификация данных, распознавание образов, распознавание и генерация устной речи, определение тематики текста и поиск в нём ключевых терминов и т.д.

Эти изменения позволяют сделать вывод о формировании и развитии цифровой экономики (digital economy), актуальность которой признается не только в научной среде, но и на государственном уровне. Так, в программе «Цифровая экономика Российской Федерации», утверждённой Правительством РФ в 2017 году, подчеркивается, что цифровые данные являются основным фактором производства во всех сферах социально-экономической деятельности, что ведет к повышению конкурентоспособности страны, качества жизни и благополучия граждан, дальнейшему экономическому росту, а также укреплению национального суверенитета [6].

Применительно к гуманитарной сфере информационная эволюция обусловила формирование и развитие цифровой гуманитаристики (digital humanities), которая, как отмечает Е.И. Ярославцева, фокусирует внимание исследователей на проблемах эволюции человека в постоянно развивающейся среде цифровых сетей и виртуальных коммуникаций, а также изучает условия и факторы реализации научных перспектив на основе междисциплинарных знаний [9]. Таким образом, новая наука изучает явления, которые происходят в богатой цифровыми коммуникациями социальной среде, а методология исследований предполагает использование цифровых инструментов исследования.

Одной из наук, успешно развивающейся в русле цифровой гуманитаристики, является корпусная лингвистика, к появлению которой привело взаимодействие лингвистики, математики и компьютерных технологий. Значимым этапом формирования корпусной лингвистики стало появление корпусов устной речи, которые начали составляться в 1990-е гг. Объём этих корпусов значительно уступал письменным, развитие которых требовало решения вопросов, связанных с адекватной транскрипцией и разметкой [7, с. 143].

Лингвистический корпус представляет собой массив языковых материалов (текстов, аудио / видеозаписей и т. д.), организованных в соответствии с конкретными принципами и применяемых для решения определённого диапазона лингвистических задач. Каждый корпус размечен согласно заданному стандарту или предлагает инструменты для разметки, а также снабжён специализированной поисковой и аналитической системами.

Основным свойством корпуса является его представительность или репрезентативность. Подборка текстов, составляющая корпус, должна максимально точно отражать состояние языка (или его части), чтобы давать возможность реализовывать статистически валидные исследования лингвистических феноменов [8]. Репрезентативность корпуса достигается за счёт его объема и жанрового разнообразия составляющих его текстов.

М. Копотев справедливо отмечает, что корпус можно считать репрезентативным, если увеличение объёма входящего в него материала почти никак не влияет на распределение единиц [2]. Таким образом, конкретный объём корпуса и его структура будут определяться характером исследовательских задач, для решения которых будет использован корпус. Соответственно, один и тот же корпус может быть репрезентативен для одних исследований, например морфологических, и нерепрезентативен для других (например, лексикографических).

Необходимым свойством лингвистического корпуса является его сбалансированность, то есть равномерность представления текстов различного типа и жанров. Поскольку составление и сбор письменных текстов является относительно простой технологической задачей, большинство существующих крупных корпусов имеют тенденцию к несбалансированности для живых естественных языков, т.к. в реальной коммуникации объём устной речи значительно превышает объём письменной. Постоянное совершенствование компьютерных технологий распознавания речи, в т.ч. основанных на машинном обучении и искусственном интеллекте, позволяет значительно снизить трудоёмкость составления устных корпусов и постепенно устраняет этот дисбаланс. Например, в Национальном корпусе русского языка есть транскрипции устных текстов, образующие устный подкорпус с объёмом более 13 млн. словоупотреблений («Корпус русской живой речи»), а с 2009 г. Санкт-Петербургским государственным университетом наполняется отдельный «Корпус русской устной речи», который на момент написания работы содержит в себе около 20 тыс. словоупотреблений [3].

Репрезентативность и сбалансированность корпуса являются относительными характеристиками, которые зависят от параметров исследования: например, при исследовании письменной речи наличие в корпусе устных текстов скорее исказит выводы, чем повысит их точность.

Абсолютным свойством корпуса можно обозначить его объём. Объём корпуса, который измеряется в количестве словоупотреблений, важен для определения частотности изучаемых языковых явлений, особенно когда исследование касается сравнения данных, полученных в корпусах, которые имеют разный объём. Самыми большими по объёму сегодня являются национальные корпуса, которые могут насчитывать миллиарды словоупотреблений.

Удобство работы с современным лингвистическим корпусом обеспечивает его уникальное свойство – электронная форма. При этом в зависимости от типа корпуса это могут быть либо только текст, либо текст, дополненный аудио- и/или видеоматериалами. Примером такого корпуса является Мультимедийный корпус МУРКО в составе Национального корпуса русского языка [4].

Исходя из понятия, типологии и свойств лингвистического корпуса можно сформулировать следующие преимущества корпусного анализа.

1. Возможность фокусировать исследовательское внимание на естественных, не возникших в искусственной ситуации и не сконструированных в процессе коммуникации самим исследователем высказываниях.

2. Возможность перепроверки и переработки полученных результатов благодаря доступности исходного материала корпуса в равной степени различным группам исследователей.

3. Возможность применения корпусного анализа как для подтверждения или уточнения выдвинутой предварительно гипотезы, так и для получения новой информации о языковых единицах. Направляемый корпусом анализ (англ. corpus-driven analysis) позволяет работать с лингвистическим материалом даже при отсутствии исходной теории. Кроме того, ориентируясь только на определенные тексты, лингвист может получить более объективный результат. Именно по этой причине, как справедливо отмечает И.С. Парина, «корпусный анализ является полезным при решении задач исследования семантики идиом, например при выявлении различий между идиомами, которые, исходя из приводимых в словарях эквивалентов или толкований, следует считать синонимами, <…> или при поиске новых фразеологизмов» [5].

Вместе с тем, необходимо отметить и определенные недостатки корпусного анализа.

1. Значительную часть существующих корпусов отличает доминирование письменных текстов, что ограничивает использование корпусного анализа для изучения феноменов устной коммуникации [5, с. 87].

2. Любой, даже самый репрезентативный, корпус не может включать все языковые данные. Следовательно, если какие-то языковые явления не отражены в корпусе или недостаточно в нем представлены, то корпусная методология будет нерезультативной для их изучения.

3. Для получения данных из корпуса исследователь должен корректно сформулировать поисковый запрос, а затем адекватно интерпретировать результаты. Однако при поиске какой-либо фразы исследователь может не учесть все возможные варианты её модификаций или омонимичные конструкции.

Следует отметить, что влияние первых двух обозначенных недостатков может быть снижено за счет увеличения объёмов корпусов, а также включения большего количества текстов устной речи. Преодоление третьего недостатка требует тщательного аннотирования корпуса, применения необходимых инструментов работы с конкретным корпусом, а также анализа и учета его особенностей.

Таким образом, для проведения корректного исследования на базе корпуса необходимо учитывать его основные свойства, существующие недостатки и перспективные возможности.


Список литературы

  1. Абдрахманова, Г.И. Цифровая экономика: 2020 : краткий статистический сборник / Г.И. Абдрахманова, К. О. Вишневский, Л. М. Гохберг и др.; Нац. исслед. ун-т «Высшая школа экономики». – М.: НИУ ВШЭ. – 2020. – 112 с.
  2. Копотев М. Введение в корпусную лингвистику: Учебное пособие для студентов филологических и лингвистических специальностей университетов. Прага: Animedia, 2014. – 230 с.
  3. Корпус русской устной речи [Электронный ресурс]. – Режим доступа: http://russpeech.spbu.ru/ (дата обращения: 03.05.2022).
  4. Мультимедийный корпус Национального корпуса русского языка (МУРКО) [Электронный ресурс]. – Режим доступа: https://ruscorpora.ru/new/search-murco.html (дата обращения: 03.05.2022).
  5. Парина И.С. Корпусный анализ в исследовании фразеологии: достоинства и недостатки // Вестник Московского университета. Сер.19. Лингвистика и межкультурная коммуникация. М.: Изд-во Московского ун-та, 2008. – № 1. – С. 83-89.
  6. Программа «Цифровая экономика Российской Федерации». Распоряжение Правительства РФ от 28 июля 2017 г. № 1632-р [Электронный ресурс]. – Режим доступа: http://static.government.ru/media/files/9gFM4FHj4PsB79I5v7yLVuPgu4bvR7M0.pdf (дата обращения: 11.08.2022).
  7. Солнышкина М. И. История развития корпусной лингвистики (на примере англоязычных корпусов) / М. И. Солнышкина, Г. М. Гатиятуллина // Вестник Томского государственного университета. Филология. – 2020. – № 63. – С. 132-160.
  8. Шаров С. А. Представительный корпус русского языка в контексте мирового опыта // Научно-техническая информация. Серия 2. Информационные процессы и системы. М., 2003. – № 6. – С. 67-78.
  9. Ярославцева Е. И. Цифровая гуманитаристика: междисциплинарность стратегий будущего [Электронный ресурс] // Горизонты гуманитарного знания. – 2020. – №2. – Режим доступа: https://cyberleninka.ru/article/n/tsifrovaya-gumanitaristika-mezhdistsiplinarnost-strategiy-buduschego (дата обращения: 10.05.2022).