Корпусный анализ с нуля: AntConc, Sketch Engine и НКРЯ для курсовой работы

Работа с информационным потоком предполагает не просто общее восприятие темы, он и выделение наиболее существенных параметров, моментов. Порой в силу слишком большого объема ресурсов сделать это становится очень трудно. В этом деле на помощь студентам приходит так называемый корпусный анализ.

Корпусный анализ с нуля: AntConc, Sketch Engine и НКРЯ для курсовой работы

Работа с информационным потоком предполагает не просто общее восприятие темы, он и выделение наиболее существенных параметров, моментов. Порой в силу слишком большого объема ресурсов сделать это становится очень трудно. В этом деле на помощь студентам приходит так называемый корпусный анализ.

Понятие и особенности корпусного анализа как метод исследования

Выполнение курсовых работ и дипломов требует от универсанта умелой обработки первоисточников и вторичных материалов. Для подготовки столь серьезных трудов требуется много разной информации. Упростить ход ее изучения и дальнейшего применения поможет корпусный анализ (сокращенно КА). Он представляет собой специфический лингвистический инструмент, призванный провести научный анализ текста.

Суть корпусного анализа
Суть корпусного анализа

В основе корпусного анализа данных лежат следующие категории:

  1. Корпус. Данная категория представляет собой набор текстов или совокупность различных (специально подобранных) фрагментов, которые распределены согласно требованиям системы, по определенным признакам и пр.
  2. Разметка. Она предполагает присвоение каждому фрагменту или тексту определенной роли, функции. Разметка облегчает дальнейшую сортировку сведений. В каждом тексте есть внутренняя разметка, заданная автором в виде образов, ключевых слов, структурных особенностей, и внешняя – данная пользователем по мере восприятия, ассоциации данных и пр.
  3. Репрезентативность. Эта характеристика позволяет определить информативность и читабельность материалов, возможности их совмещения или комбинирования, замещения и пр.
  4. Полнота и достаточность информации. Данный параметр позволяет понять, хватает ли собранных материалов для раскрытия темы и обоснования выдвинутой гипотезы. То есть оценка проводится не только с количественной стороны, но и с качественной стороны.

Корпусный анализ при выполнении курсовых и дипломных работ чаще всего применяется целенаправленно. Он может быт ориентирован на разработку словарей с современной терминологией и ее расшифровкой, оценку синтаксических особенностей рукописей, проведение стилевого и жанрового мониторинга и пр.

Среди наиболее ярких особенностей инструмента можно отметить, что он полагается на реальные данные и конкретные факты: суть текста, лексические особенности, контекст и пр.

Рассматриваемый подход базируется на расчленении и сортировке располагаемой информационной базы по степени ее пригодности, уместности, важности. Благодаря ему студенту легче вникнуть в материал, определить его рол и место в новом исследовании, оценить качество и возможности применения.

Правила, виды и этапы корпусного анализа

Корпусный анализ представляет собой метод разбора данных, позволяющий не просто сосредоточиться на сути материала, но и выделении особенностей в выражении тех или иных моментов. С его помощью студент может подчеркнуть специфические черты исследуемого труда, проследить различные языковые изменения, провести параллель с похожими работами и отметить их сходства/отличия, оценить информативность и качество интерпретации данных и пр.

Методы проведения корпусного анализа
Методы проведения корпусного анализа

Корпусный анализ опирается на несколько подходов. Во-первых, это эмпирический. Он предполагает то, что студент будет опираться не просто на известные факты, но и на реальные данные – первоисточники. То есть он будет сосредоточен не просто на теории, а именно на изучении действительности. Для этого может потребоваться проведение наблюдений, опросов, анкетирования, эксперимента и пр.

Во-вторых, количественная оценка. Данный подход означает, что для выделения тенденций потребуется не только анализ качественных показателей, но и статистический учет фактов. То есть автор должен уметь преобразовывать информацию в количественный формат и математически точно, аргументированно подчеркивать соответствующие перемены.

В-третьих, контекстуальный подход. Он ориентирован на анализ материала в реальном времени, то есть оценку актуальности освещаемых параметров, определение степени их достоверности, связности с другими элементами и пр.

В-четвертых, диахронический и синхронный анализ. Этот прием нацелен на определение особенностей в развитии языка и определении современных тенденций в описании ситуации. То есть здесь во внимание принимается терминология и специфик построения текста.

Логика корпусного анализа может быть представлена в общем виде:

  1. Подготовка. Ее суть заключается в планировании лингвистического исследования. На данной стадии важно разработать программу мероприятий и установить четкие границы: цель проведения КА, определение списка задач и вопросов (на которые нужно получить ответ), выбор типа корпуса (исследовательский, иллюстративный, динамический, параллельный или дискурсивный);
  2. Формирование корпуса для исследования. Здесь важно уточнить язык исследуемых материалов, объем данных, приемлемые жанры или типы рукописей. То есть следует обозначить конкретные критерии: с какими текстами автору предстоит работать при написании курсовой, что его в них интересует и как это определить;
  3. Разметка корпуса. Чаще всего работа с этим параметром сводится к комплексной оценке собранной информации с точки зрения морфологии, синтаксиса, семантики, лексики, метаданных и пр. То есть будет сделан акцент на конкретном срезе (корпусе) и выделены соответствующие особенности ресурсов.
  4. Выбор способа проведения корпусного анализа. Здесь чаще всего достаточно взглянуть на тему. Примерный объем информационной базы и постараться адекватно оценить собственные силы. Допустим ручной и инструментальный способы. В первом случае студенту предстоит провести неоднократную вычитку текста и самостоятельно (на глаз) выделить соответствующие моменты. Второй вариант опирается на использование специальных ПО, которые следует тщательно настроить.
  5. Сбор материалов для КА. Эта стадия предполагает тематический подбор материалов с учетом поставленных границ и ориентиров НИР, темы исследования. Здесь же можно произвести сортировку текстов и предварительно оценить частотность, общие лингвистические характеристики: стиль, жанров, лексический состав, морфологические особенности, синтаксическое преобладание, тональность или характер текста и др.
  6. Анализ данных. Эта стадия предполагает выделение противоречий, тенденций. Особенностей в собранных материалах, проведение сопоставительных операций, анализ аномалий и/или исключений, объединение текстов и пр.
  7. Интерпретация результатов лингвоисследования. Студенту предстоит описать и показать выявленные тенденции с помощью всевозможных таблиц, графиков, диаграмм и четкого, аргументированного анализа. То есть необходимо провести качественный анализ в корпусе, а заем количественный мониторинг для более точного обоснования результатов и выводов, коллокаций и пр.
  8. Проверка. Она предполагает оценку выборки на репрезентативность, сравнительный анализ с аналогичными источниками для исключения противоречий и сомнительных моментов, учет установленных границ и параметров НИР, избранного подхода и метода.
  9. Визуализация или оформление. Здесь автор курсовой работы распределяет собранный материал и полученные результаты согласно структуре курсовой работы. То есть проходи систематизация информации, выделение результатов и выводов, их емкое обоснование. Форматирование данных производится согласно нормам ГОСТ, регламентирующим курсовую работу. О них мы уже писали в нашем блоге ранее.

Таким образом, корпусный анализ потребует более тщательного подбора и переработки источников информации в рамках заявленной темы. Главное – выбрать конкретный корпус или набор корпусов для погружения и воспроизведения соответствующих манипуляций. Чтобы сделать правильные выводы, важно владеть соответствующими лингвистическими категориями и правилами.

Как проводить корпусный анализ с помощью AntConc?

Воспроизвести КА студенты могут с помощью специальных программ. Одним из универсальных решений такого плана является AntConc. ПО является доступным и бесплатным.

Преимущества корпусного анализа в AntConc
Преимущества корпусного анализа в AntConc

Работа в этом сервисе сводится к следующим действиям:

Шаг 1. Загрузка материалов. Для начала скачайте соответствующее приложение на свой ПК и запустите его. Затем перейдите на главную вкладку. Далее для загрузки отдельных файлов нужно выполнить команду Файл – Открыть и выбрать соответствующие документы, затем подтвердить операцию ОК.
Если же требуется сразу загрузить целую папку с документами, то итерация будет аналогичной Файл – Открыть папку – выбор папки.

На данной стадии следует обратить внимание на одно существенное условие: все файлы должны быть в формате *txt. AntConc работает только с этим расширением.

По мере загрузки файлы будут отражены слева, в колонке.

Шаг 2. Разбираемся с доступными инструментами. В данном случае пользователю следует внимательно изучить функционал программы, расположение команд и пр. Особое внимание уделим именно тем инструментам, которые пригодятся для анализа корпусов:

AntConc базируется на 7 основных опциях. Их легко можно активировать с помощью клавиш F1-F7. Давайте разбираться, что есть что:

  • F1 – Concordance. Данный инструмент позволяет быстро найти конкретное слово в контексте. То есть он показывает, как и когда была употреблена лексема в определённом тексте. Программа произведет глубокий анализ данных и представит результат в виде небольшой таблицы: в одной колонке будет отмечено искомое слово, во второй — контекст (фрагмент с употреблением этого слова).
  • F2 — Concordance Plot. Данный инструмент частоту и место употребления лексем в корпусах.
  • F3 — File View. Это переход в полнотекстовый режим для изучения материала в целом. Он позволяет изучить всю информацию, определить суть, ключевые слова и параметры, моменты, результаты и выводы.
  • F4 – Clusters. С помощью данной опции пользователь быстро сможет найти устойчивые словосочетания или наиболее часто употребляемые авторов выражения. Длину поискового выражения можно уточнить в настройках программы.
  • F5 – Collocates. Данная парадигма призвана проанализировать коллокации, то есть определить ключевые и опорные слова, связанные с ними лексемы и выражения.
  • F6 — Word List. Эта команда автоматически составит частотный словарь по исследуемому корпусу или материалу.
  • F7 — Keyword List. Эта клавиша поможет автоматически сравнить корпуса. С ее помощью легче установить сходства и отличия между ними, особенности. Важно отметить, что сравнение проводится между основным корпусом (туда нужно будет загрузить соответствующий текст) и вспомогательным/справочный (туда тоже материал подгружается пользователем).

Также AntConc предлагает дополнительный инструментарий для проведения КА. Он носит уточняющий характер и позволяет найти однокоренные слова, выделить часто употребляемые выражения, произвести сортировку результатов мониторинга, экспортировать данные и пр.

Обратите внимание, что программа быстро определяет местонахождение интересующих моментов в документах, но анализ ситуации, ее дальнейшая характеристика-описание проводится человеком.

Тонкости проведения корпусного анализа с помощью Sketch Engine

Sketch Engine представляет собой онлайн-платформу, которая помогает пользователям быстро провести корпусный анализ текста. Сервис успешно работает с материалами на русском и иностранных языках. Всего он поддерживает 95 языков. В течение первого месяца инструменты предоставляются бесплатно. Далее – придется выбрать подходящий тариф с действующими ограничениями.

Условия применения Sketch Engine для проведения корпусного анализа
Условия применения Sketch Engine для проведения корпусного анализа

В числе основных функций, которыми пользуются студенты в рамках корпусного мониторинга в Sketch Engine можно отметить следующие:

  • Word Sketch. Данная опция описывает контекст употребления искомых слов. То есть он выделяет запрос в тексте, по необходимости открывает соответствующий фрагмент для ознакомления, с помощью кнопки + можно выделить соответствующий скетч (слово или связку слов).
  • Word Sketch Differences. Этот инструмент проводит сравнительный анализ скетчей. С его помощью можно оценить качество употребленных синонимов, выделить основной термин и его замены по тексту и пр.
  • Thesaurus. Данная клавиша поможет составить список слов и отфильтровать их с учетом частоты употребления, определить неологизмы и пр.
  • Trends поможет отследить изменение частотности употребления лексем в документе, проанализировать соответствующие показатели, оценить качество информации и ее доступность для пользователей.
  • CQL (Corpus Query Language). Этот формат применим при работе с узкими терминами и словосочетаниями.

Для работы в Sketch Engine нужно сначала зарегистрироваться и получить доступ к личному кабинету. Далее следует зайти в него и настроить базовые параметры работы: язык, выбрать «рабочий корпус» или создать собственный и пр.

Чтобы загрузить собранные материалы для оценки, достаточно выполнить следующую команду: My corpora → New corpus. Далее достаточно настроить его по собственному усмотрению: выбрать язык, озаглавить, затем загрузить файлы (если их много, то лучше всего поместить их в zip-архив). Также внутри каждого корпуса можно завести «подкорпуса» ля более очного распределение информации.

Обратите внимание, что бесплатная версия имеет ряд ограничений: доступно 250 корпусов. Пользовательский корпус доступен в объеме не более 1 миллиона слов.

Проводить поиск данных можно дословно (то есть по отдельным словам) или по лемме (то есть по фрагменту слова, корню и пр.).

По результатам поиска сервис выделит искомые слова. Пользователь может конкретизировать их положение и контекст.

Экспорт данных производится в формате эксель или csv.

Корпусный анализ с НКРЯ

НКРЯ расшифровывается, как национальный корпус русского языка. Это крупнейший сервис, который аккумулирует в себе тексты на русском языке, начиная с XVIII века и вплоть до настоящего времени. Здесь собраны художественные и публицистические тексты научные работы, вырезки из фильмографии, диалектные материалы, деловые документы и пр. Все источники рассортированы по жанровым рубрикам, что упрощает их поиск.

Данный сайт предоставляет следующие возможности для своих пользователей:

  • Лексический и грамматический мониторинг. С его помощью можно найти слова по соответствующим признакам, определить их созвучность, суть, особенности применения;
  • Частотный анализ. Он предполагает подсчет количества употреблений определённых слов (или каждого). Притом оценка частотности производится не только по всему тексту, но и с учетом временного распределения (по годам), корпусам.
  • Морфологический контроль. С его помощью пользователь может найти определённый фрагмент по леммам, части речи ил слова.
  • «Похожие слова». Этот инструмент формирует список синонимов и альтернативных слов, употребленных в тексте.

Студент может экспортировать результаты КА в формате эксель или XML. Чтобы работать в НКРЯ было проще, лучше всего ознакомиться на ее официальном сайте с руководством-инструкцией. Там представлены все описания и скриншоты.

Возникли сложности?

Нужна помощь преподавателя?

Мы всегда рады Вам помочь!

disshelp.ru

Сравнительная характеристика AntConc, Sketch Engine и НКРЯ

Какой из сервисов выбрать студенту ля проведения корпусного анализа? Огласитесь, вопрос непростой. Давайте сопоставим условия и возможности работы на рассмотренных ПО.

Основа для сравнения AntConc Sketch Engine НКРЯ
Доступ Открытый. Бесплатный Частично открыт – на месяц. Далее по платной подписке Открытый, бесплатный
Языковые возможности Любой язык 95 языков Любой язык
Возможности создания пользовательского корпуса по собственным критериям Есть Есть Нет
Базовые опции Лексическая, морфологическая, частотная оценка Скетчи, тезаурус, тренды Морфемный и лексический анализ, ИИ обработка
Дополнительные опции Наличие шаблонов, сложные запросы для узких терминов и сложных фраз Лексико-грамматический поиск

У каждого ПО есть свои специфические черты и инструментарий. Подбирайте посильный и доступный для себя сервис. Лучше всего комбинировать их и поэтапно проводить КА, восполняя пробелы и получая новые факты, сведения.

Рекомендации по проведению корпусного анализа в курсовой работе

Проведение корпусного анализа потребует умения работать с большим потоком информации. Лучше всего в этом деле сочетать ручной и инструментальный способы переработки данных: ручной повысит контекстуальную составляющую, а инструментальный — облегчит количественный и математический поиск фактов для отражения изменений, особенностей, трендов и пр.

Рассмотренные нами инструменты по IT-мониторингу текстов облегчают ход КА. Они автоматизируют поисковые процессы и ускорят ход обработки данных.

Для простейшего анализа идеально подойдет программа AntConc. Ее чаще всего используют для первичной обработки текстов. Но для более детального разбора текстов лучше всего прибегнуть к более серьезным инструментам — Sketch Engine и НКРЯ.

Перед тем как приступить к работе в ПО, внимательно изучите его возможности, правила, требования к устройству и т.д.

Учтите, что результаты корпусного анализа вы можете скачать в определенном формате, но его анализ вам придется делать вручную. Поэтому тщательно разберитесь в каждом моменте. По необходимости можно привлечь ИИ, но полностью доверять ему не стоит.

Описание хода лингвистического исследования и полученных результатов в курсовой работе производится по общим правилам и гостам: в научном стиле. Корпуса, частотность, оценка синонимов и прочих особенностей приводится с помощью таблиц и графиков.

Студенту предстоит грамотно рассортировать и систематизировать собранный материал, отформатировать его с учетом методических рекомендаций и представить аргументированный анализ с констатаций четких результатов и выводов.


Трудности с учебой?

Требуется поддержка?


Помощь в написании студенческих и
аспирантских работ!