База знаний по компьютерной лингвистике
Узнайте о статистических методах, формулах и концепциях, используемых в исследованиях корпусной лингвистики.
Быстрая навигация
KWIC конкорданс
Что это?
KWIC (Key Word In Context — Ключевое слово в контексте) — формат строк конкорданса, который отображает поисковый термин в центре страницы с окружающим контекстом. Это один из фундаментальных инструментов корпусной лингвистики.
Сценарии использования
- Изучение закономерностей употребления слов в аутентичном контексте
- Выявление коллокаций и закономерностей совместной встречаемости
- Изучение семантической просодии (позитивные/негативные ассоциации)
- Анализ грамматических конструкций
- Сравнение языкового употребления в разных регистрах или временных периодах
Как интерпретировать
При анализе строк KWIC:
- Левый контекст: Слова, которые обычно предшествуют поисковому термину
- Правый контекст: Слова, которые обычно следуют за поисковым термином
- Сортировка: Сортируйте по левому/правому контексту для выявления закономерностей
- Частота: Ищите повторяющиеся закономерности в нескольких строках
Анализ коллокаций
Что это?
Анализ коллокаций выявляет слова, которые часто встречаются вместе. Статистические меры помогают отличить значимые ассоциации от случайной совместной встречаемости.
Статистические меры
1. Взаимная информация (MI)
Формула:
MI = log₂(O₁₂ / E₁₂)
Где O₁₂ = наблюдаемая частота, E₁₂ = ожидаемая частота по случайности
Интерпретация:
- MI ≥ 3: Сильная ассоциация (пара слов встречается в 8× чаще ожидаемого)
- MI 0-3: Слабая или умеренная ассоциация
- MI < 0: Отрицательная ассоциация (слова избегают друг друга)
Лучше всего для: Поиска эксклюзивных коллокаций, технических терминов, идиом
Ограничение: Предпочитает низкочастотные пары; ненадёжна для очень редких слов
2. T-оценка
Формула:
t = (O₁₂ - E₁₂) / √O₁₂
Интерпретация:
- t ≥ 2.0: Статистически значимая ассоциация (95% уверенность)
- t ≥ 3.0: Высоко значимая (99.7% уверенность)
- Более высокие значения = более сильное доказательство неслучайной совместной встречаемости
Лучше всего для: Общие коллокации, частотные словарные пары
Преимущество: Более надёжна для высокочастотных пар, чем MI
3. Коэффициент Дайса
Формула:
Dice = 2 × f(x,y) / (f(x) + f(y))
Где f(x,y) = частота совместной встречаемости, f(x) и f(y) = индивидуальные частоты
Интерпретация:
- Диапазон: от 0 до 1 (0 = никогда не встречаются вместе, 1 = всегда встречаются вместе)
- 0.7-1.0: Очень сильная ассоциация
- 0.4-0.7: Умеренная ассоциация
- 0-0.4: Слабая ассоциация
Лучше всего для: Симметричные ассоциации, сравнение силы коллокаций в корпусах разного размера
Преимущество: Легко интерпретировать (шкала подобна процентам)
4. Логарифмическое правдоподобие (LL)
Формула:
LL = 2 × Σ(O × ln(O/E))
Сумма по всем ячейкам таблицы сопряжённости
Интерпретация:
- LL ≥ 15.13: Высоко значимо (p < 0.0001)
- LL ≥ 10.83: Очень значимо (p < 0.001)
- LL ≥ 6.63: Значимо (p < 0.01)
- LL ≥ 3.84: Пограничная значимость (p < 0.05)
Лучше всего для: Тестирование статистической значимости, большие корпуса
Преимущество: Более надёжно, чем хи-квадрат для корпусной лингвистики
Выбор подходящей меры
- MI: Используйте для поиска эксклюзивных, специализированных коллокаций (технические термины, идиомы)
- T-оценка: Используйте для общего анализа коллокаций с частотными словами
- Дайс: Используйте, когда нужна интуитивная шкала 0-1 или сравнение между корпусами
- Логарифмическое правдоподобие: Используйте для тестирования статистических гипотез или очень больших корпусов
N-граммы
Что это?
N-граммы — это последовательные последовательности из n элементов (слов) текста. Они фиксируют многословные паттерны и фразеологические единицы.
Типы
- Биграммы (2-граммы): Двухсловные последовательности (напр., «корпусная лингвистика», «анализ данных»)
- Триграммы (3-граммы): Трёхсловные последовательности (напр., «для того чтобы», «с другой стороны»)
- 4-граммы и более: Более длинные фразы (напр., «в конце концов»)
Применения
- Выявление формульного языка и устойчивых выражений
- Изучение фразеологии и лексических связок
- Анализ грамматических паттернов (напр., «важно отметить, что»)
- Анализ регистров и жанров (разные тексты используют разные n-граммы)
- Обучение языку (распространённые фразы для изучающих)
Метрики лексического разнообразия
Что это?
Лексическое разнообразие (также называемое лексическим богатством или разнообразием словаря) измеряет, насколько разнообразен словарный запас текста. Более высокое разнообразие указывает на более разнообразный выбор слов.
1. Отношение типов к токенам (TTR)
Формула:
TTR = (Number of unique words / Total words) × 100
Интерпретация:
- Диапазон: 0-100%
- Более высокий TTR = более разнообразный словарь
- 60-80%: Высокое разнообразие (академические тексты, литература)
- 40-60%: Умеренное разнообразие (новости, разговоры)
- Ниже 40%: Низкое разнообразие (повторяющиеся тексты)
Ограничение: Сильно зависит от длины текста (более длинные тексты = ниже TTR)
2. Стандартизированный TTR (STTR)
Метод:
Рассчитать TTR для последовательных фрагментов (напр., каждые 1000 слов), затем усреднить
Преимущество: Более стабильный для текстов разной длины, чем простой TTR
3. Мера текстуального лексического разнообразия (MTLD)
Метод:
Измеряет среднюю длину последовательных строк слов, которые сохраняют критериальный TTR (по умолчанию 0.72)
Интерпретация:
- 80-100+: Высокое разнообразие
- 50-80: Умеренное разнообразие
- Ниже 50: Низкое разнообразие
Преимущество: Не зависит от длины; надёжно для сравнений
4. HD-D (Гипергеометрическое распределение D)
Метод:
Использует вероятность встретить новые типы слов на основе гипергеометрического распределения
Диапазон: от 0 до 1
Преимущество: Математически обоснован; хорошо справляется с вариацией длины текста
5. K Юла
Метод:
Измеряет вероятность того, что два случайно выбранных слова окажутся одинаковыми
Интерпретация:
- МЕНЬШИЕ значения = БОЛЬШЕЕ разнообразие (обратно другим метрикам)
- Ниже 100: Очень высокое разнообразие
- 100-200: Высокое разнообразие
- 200-300: Умеренное разнообразие
- Выше 300: Низкое разнообразие
Сценарий использования: Атрибуция авторства, анализ регистров
Применения
- Оценка качества и изощрённости письма
- Сравнение лексического богатства между жанрами
- Отслеживание языкового развития у изучающих L2
- Атрибуция авторства и стилометрия
- Обнаружение упрощённого или контролируемого языка
Индексы читаемости
Что это?
Индексы читаемости оценивают, насколько сложен текст для чтения, часто выражая это в уровне образования (система образования США). Они используют поверхностные характеристики, такие как длина предложений и сложность слов.
1. Flesch Reading Ease
Формула:
206.835 - 1.015(words/sentences) - 84.6(syllables/words)
Интерпретация:
- 90-100: Очень легко (5 класс)
- 60-70: Стандартно (8-9 класс)
- 30-50: Сложно (университетский уровень)
- 0-30: Очень сложно (уровень аспирантуры)
Примечание: Более высокий балл = легче читать
2. Flesch-Kincaid Grade Level
Формула:
0.39(words/sentences) + 11.8(syllables/words) - 15.59
Интерпретация:
Результат — уровень класса США (напр., 8.0 = 8 класс, 13.0 = первокурсник университета)
3. Индекс Gunning Fog
Формула:
0.4 × [(words/sentences) + 100(complex words/words)]
Сложные слова = 3+ слога
Интерпретация:
- 6: Легко (6 класс)
- 12: Старшеклассник
- 17+: Уровень выпускника университета
4. Индекс SMOG
Формула:
1.0430 × √(polysyllables × 30/sentences) + 3.1291
Многосложные слова = слова с 3+ слогами
Лучше всего для: Медицинские материалы, потребительские документы
5. Индекс Coleman-Liau
Формула:
0.0588L - 0.296S - 15.8
L = среднее количество букв на 100 слов, S = среднее количество предложений на 100 слов
Преимущество: Использует символы вместо слогов (проще вычислить)
6. Автоматический индекс читаемости (ARI)
Формула:
4.71(characters/words) + 0.5(words/sentences) - 21.43
Использование: Изначально разработан для оценки читаемости в реальном времени на электрических пишущих машинках
Применения
- Обеспечение соответствия контента уровню чтения целевой аудитории
- Упрощение сложных документов (медицинские, юридические, образовательные материалы)
- Сравнение сложности текстов между жанрами или временными периодами
- Контроль качества для инициатив простого языка
Анализ ключевых слов
Что это?
Анализ ключевых слов выявляет слова, которые статистически более частотны в одном корпусе по сравнению с другим референсным корпусом. Эти «ключевые слова» характеризуют отличительный словарь текста или жанра.
1. Хи-квадрат (χ²)
Формула:
χ² = Σ(O - E)² / E
Сумма наблюдаемых vs. ожидаемых частот в таблице сопряжённости 2×2
Интерпретация:
- χ² ≥ 10.83: Высоко значимо (p < 0.001)
- χ² ≥ 6.63: Очень значимо (p < 0.01)
- χ² ≥ 3.84: Значимо (p < 0.05)
Ограничение: Менее надёжно для низкочастотных слов
2. Логарифмическое правдоподобие для ключевых слов
Преимущество: Более надёжно, чем хи-квадрат для сравнения корпусов
Критические значения:
- LL ≥ 15.13: p < 0.0001 (чрезвычайно значимо)
- LL ≥ 10.83: p < 0.001 (высоко значимо)
- LL ≥ 6.63: p < 0.01 (очень значимо)
3. Размер эффекта (Log Ratio)
Формула:
Log Ratio = log₂(freq_target / freq_reference)
Интерпретация:
- Положительные значения: Избыточное использование в целевом корпусе
- Отрицательные значения: Недостаточное использование в целевом корпусе
- ±3: Слово в 8× более/менее частотно
- ±2: Слово в 4× более/менее частотно
Зачем использовать: Показывает практическую значимость, а не только статистическую
Применения
- Выявление характерного словаря жанров, регистров или авторов
- Сравнение языкового употребления в разные временные периоды (диахронический анализ)
- Обнаружение терминологии, специфичной для специализированных областей
- Обнаружение стилистических маркеров для атрибуции авторства
Концепции NLP
Частеречная разметка (POS Tagging)
Что это:
Автоматическая маркировка слов грамматическими категориями (существительное, глагол, прилагательное и т.д.)
Распространённые теги:
- NOUN: Нарицательные существительные (кошка, дом, свобода)
- PROPN: Имена собственные (Лондон, Шекспир)
- VERB: Глаголы (бежать, думать, анализировать)
- ADJ: Прилагательные (красивый, красный, сложный)
- ADV: Наречия (быстро, очень, однако)
- ADP: Предлоги (в, на, у, к)
Применения Грамматический анализ, извлечение признаков, информационный поиск
Лемматизация
Что это:
Приведение слов к их словарной форме (лемме)
Примеры:
- бегущий, бежал, бегут → бежать
- лучше, лучший → хороший
- был, есть, будет → быть
Использование: Группировка связанных словоформ для частотного анализа
Преимущество перед стеммингом: Производит реальные словарные слова
Распознавание именованных сущностей (NER)
Что это:
Выявление и классификация именованных сущностей (люди, места, организации и т.д.)
Распространённые типы сущностей:
- PERSON: Имена людей (Шекспир, Мария Кюри)
- GPE: Геополитические сущности (Лондон, Франция, Калифорния)
- ORG: Организации (Google, ООН, MIT)
- DATE: Даты и временные выражения (понедельник, 2025, XVIII век)
- MONEY: Денежные значения ($100, €50)
Применения Извлечение контента, построение баз знаний, классификация документов
Синтаксический анализ зависимостей
Что это:
Анализ грамматических отношений между словами (подлежащее, дополнение, определение и т.д.)
Использование: Синтаксический анализ, извлечение отношений, ответы на вопросы
Лексическая дисперсия
Что это?
Лексическая дисперсия измеряет, насколько равномерно слово распределено по тексту или корпусу. Высокая дисперсия означает, что слово появляется повсюду; низкая дисперсия означает, что оно сконцентрировано в определённых разделах.
Интерпретация
Диаграмма дисперсии показывает:
- Вертикальные линии: Каждое вхождение поискового термина
- Равномерное распределение: Термин используется последовательно по всему тексту
- Кластерные линии: Термин появляется в определённых разделах (тематическое использование)
- Пробелы: Разделы, где термин не появляется
Применения
- Выявление распределения тем в повествованиях
- Сравнение упоминаний персонажей в романе
- Обнаружение смены тем в научных статьях
- Анализ структуры дискурса
Дополнительная литература
Для более глубокого изучения этих методов:
- McEnery, T., & Hardie, A. (2012). Corpus Linguistics: Method, Theory and Practice. Cambridge University Press.
- Gries, S. Th. (2009). Quantitative Corpus Linguistics with R. Routledge.
- Brezina, V. (2018). Statistics in Corpus Linguistics: A Practical Guide. Cambridge University Press.
- Biber, D., et al. (1998). Corpus Linguistics: Investigating Language Structure and Use. Cambridge University Press.