Документация CorpusCraft

Полное руководство по использованию CorpusCraft для исследований в области корпусной лингвистики

1. Начало работы

Создание аккаунта

CorpusCraft использует аутентификацию через magic link для безопасного входа без пароля:

  1. Нажмите «Начать» на главной странице
  2. Введите ваш адрес электронной почты
  3. Проверьте почту на наличие ссылки для входа
  4. Перейдите по ссылке для доступа к аккаунту

Создание первого корпуса

  1. На панели управления нажмите «Создать новый корпус»
  2. Введите название и описание (необязательно)
  3. Нажмите «Создать корпус»
  4. Начните загрузку документов

2. Тарифы и академическая верификация

Тарифные планы

CorpusCraft предлагает пять тарифных планов для различных исследовательских потребностей:

Бесплатный план - ₽0

  • 10 документов (50 000 токенов)
  • Полнотекстовый поиск и KWIC-конкорданс
  • Базовый частотный анализ
  • Идеален для обучения и небольших проектов

Академический план - ₽3699/год

Требуется верификация
  • Лимит корпуса: 500 000 токенов
  • 40 ИИ-анализов в месяц
  • Полная NLP-обработка (spaCy)
  • Все инструменты статистического анализа
  • Требуется академическая верификация (см. ниже)

Исследователь - ₽1399/мес

  • Лимит корпуса: 500 000 токенов
  • 100 ИИ-анализов в месяц
  • Полная NLP-обработка
  • 3 участника совместной работы

Профессионал - ₽3699/мес

  • Лимит корпуса: 2 000 000 токенов
  • 400 ИИ-анализов в месяц
  • Приоритетная обработка
  • 10 участников совместной работы

Организация - ₽14999/мес

  • Лимит корпуса: 10 000 000 токенов
  • 1 500 ИИ-анализов в месяц
  • Полный доступ к REST API
  • Неограниченное число участников
  • Доступ к панели администратора

Процесс академической верификации

Для доступа к плану Академик необходимо подтвердить академический статус. Мы предлагаем три способа верификации:

1. Верификация по домену email (автоматическая)

Если вы зарегистрируетесь с академического email-адреса, верификация произойдёт автоматически. Поддерживаемые домены включают:

  • .edu (США)
  • .ac.uk (Великобритания)
  • .edu.au (Австралия)
  • .ac.nz (Новая Зеландия)
  • .edu.cn (Китай)
  • .ac.jp (Япония)
  • И более 100 международных академических доменов

2. Верификация через ORCID (автоматическая)

Привяжите ваш ORCID iD для подтверждения статуса исследователя:

  1. Перейдите на страницу верификации
  2. Введите ваш ORCID iD (например, 0000-0002-1825-0097)
  3. Мы проверим ваш ORCID через публичный API
  4. Мгновенная верификация, если ваш ORCID активен

3. Ручная проверка (1-2 рабочих дня)

Если у вас нет академического email или ORCID, предоставьте документы:

  • Удостоверение университета
  • Письмо от кафедры
  • Страница профиля сотрудника на сайте вуза
  • Недавняя публикация с указанием аффилиации

Наша команда рассмотрит заявку в течение 1-2 рабочих дней и уведомит вас по email.

Начало работы: Перейдите на панель управления и нажмите «Подтвердить →» или откройте /verify-academic для начала процесса верификации.

Значок статуса верификации

После верификации на панели управления и в профиле появится зелёный значок:

  • Подтверждённый статус: Зелёный значок с галочкой
  • Способ верификации: Домен email, ORCID или ручная проверка
  • На рассмотрении: Жёлтый значок во время ожидания ручной проверки

3. Управление документами

Поддерживаемые форматы файлов

  • TXT - Текстовые файлы
  • CSV - Таблицы со столбцом текста
  • JSONL - JSON Lines для структурированных данных
  • PDF - Portable Document Format
  • DOCX - Документы Microsoft Word

Загрузка документов

Перейдите на вкладку «Загрузить» в вашем корпусе и:

  • Нажмите для выбора файлов
  • Перетащите файлы в область загрузки

Язык документов определяется автоматически.

Создать из текста

Создавайте документы напрямую, вводя или вставляя текст:

  1. Перейдите на страницу корпуса
  2. Найдите раздел «Создать из текста»
  3. Введите название документа
  4. Напишите или вставьте текст
  5. Нажмите «Создать документ» для добавления в корпус

Идеально для быстрых заметок, расшифрованного контента или текста из других источников.

3. Поиск и KWIC-конкорданс

Полнотекстовый поиск

CorpusCraft использует SQLite FTS5 для мощного полнотекстового поиска с операторами:

  • guerra — Найти точное слово
  • "guerra civil" — Поиск фразы
  • guerra OR paz — Любое из слов
  • guerra NOT civil — Исключить термин
  • guerr* — Поиск по префиксу

KWIC-конкорданс

Key Word in Context (KWIC) отображает результаты поиска с окружающим контекстом:

  • Левый контекст - Слова перед ключевым словом
  • Ключевое слово - Ваш поисковый термин (выделен)
  • Правый контекст - Слова после ключевого слова
  • Источник - Название документа

Нажмите на заголовок столбца для сортировки по левому контексту, ключевому слову, правому контексту или источнику.

Окно контекста

Настройте количество слов до и после ключевого слова (5-20 слов).

Поиск по регулярным выражениям Расширенный

Включите режим regex в расширенном поиске для поиска по шаблонам:

  • \b(war|battle|conflict)\b — Границы слов для альтернативных слов
  • \d{4} — Поиск 4-значных чисел (например, годов)
  • colou?r — Необязательные символы
  • [A-Z][a-z]+ — Слова с заглавной буквы
  • \b\w{10,}\b — Слова из 10+ символов
Примечание: Установите флажок «Использовать режим регулярных выражений (Regex)» в расширенном поиске для включения шаблонов regex.

Пакетные операции Массовое редактирование

Выполняйте операции с несколькими документами одновременно:

  • Массовое удаление - Удаление нескольких документов за одно действие
  • Обновление метаданных - Применение одного значения метаданных к выбранным документам
  • Массовый экспорт - Экспорт выбранных документов в TXT или CSV
Как использовать: Выберите документы с помощью флажков, затем нажмите кнопку «Пакетные операции» для доступа к инструментам массового редактирования.

4. Частотный анализ

Частота слов

Анализируйте, как часто слова появляются в вашем корпусе:

  • Установите минимальный порог частоты для фильтрации редких слов
  • Просматривайте количество и проценты частоты
  • Результаты сортируются по рангу, слову или частоте
  • Экспортируйте результаты в PDF, Word, Excel или CSV

Анализ N-грамм

Анализируйте многословные последовательности:

  • Биграммы - 2-словные последовательности
  • Триграммы - 3-словные последовательности
  • 4-граммы+ - Более длинные последовательности

Анализ коллокаций

Находите слова, которые часто появляются вместе с целевым словом, используя несколько статистических мер:

  • MI score - Взаимная информация, измеряет силу связи
  • t-score - Чувствительна к частоте, хороша для частотных слов
  • Коэффициент Дайса - Симметричная связь (шкала 0-1)
  • Log-Likelihood - Мера статистической значимости
Совет: Используйте несколько мер вместе для надёжного анализа коллокаций. Экспортируйте результаты кнопкой экспорта.

5. Статистический анализ

Мощные функции статистического анализа, не требующие ИИ, предоставляющие объективные метрики для вашего корпуса.

Индексы читаемости Бесплатно

Оценивайте сложность текста с помощью нескольких формул читаемости:

  • Flesch Reading Ease - Шкала 0-100, чем выше — тем легче
  • Flesch-Kincaid Grade Level - Требуемый уровень образования (США)
  • Gunning Fog Index - Необходимые годы образования
  • SMOG Index - Simple Measure of Gobbledygook
  • Coleman-Liau Index - Уровень образования на основе символов
  • Automated Readability Index (ARI) - Формула на основе символов
Как использовать: Перейдите на вкладку Статистика и нажмите «Рассчитать читаемость»

Лексическое разнообразие Исследователь+

Измеряйте богатство словарного запаса с помощью продвинутых метрик:

  • Type-Token Ratio (TTR) - Простая мера лексического разнообразия
  • Standardized TTR (STTR) - Менее зависит от длины текста
  • MTLD - Measure of Textual Lexical Diversity, наиболее стабильная метрика
  • HD-D - Hypergeometric Distribution D, вероятностный подход
  • Yule's K - Мера концентрации словаря
  • Hapax Legomena - Слова, встречающиеся только один раз
Интерпретация: Более высокие значения TTR, STTR, MTLD и HD-D указывают на более разнообразный словарь. Более низкий Yule's K означает большее разнообразие.

Анализ ключевых слов (Keyness) Профессионал+

Сравнивайте два корпуса для выявления статистически значимых различий:

  • Критерий хи-квадрат - Тестирование статистической значимости
  • Log-likelihood - Более надёжен для разреженных данных
  • Размер эффекта - Практическая значимость (логарифмическое соотношение)
  • Нормализованные частоты - Сравнение на 10 000 слов
Применение: Определите, какие слова характерно чаще встречаются в одном корпусе по сравнению с другим (например, сравнение исторических периодов, жанров или авторов)

6. ИИ-анализ (18 функций)

Примечание: Функции ИИ используют модели GPT-5 mini и GPT-5.2. 9 из этих функций обогащены NLP-предобработкой — ИИ получает количественные лингвистические данные (подсчёт сущностей, распределение частей речи, статистику предложений) для обоснования анализа реальными метриками вашего корпуса. Проверьте лимиты ИИ-запросов вашего тарифа на панели управления.

Анализ документов

Автоклассификация

Автоматическая категоризация документов по типу и теме

Обнаружение тем

Выявление основных тем в корпусе

Умное резюме

Генерация кратких или подробных резюме

Извлечение сущностей

Извлечение людей, мест, дат и организаций

Поиск и обнаружение

Запрос на естественном языке

Задавайте вопросы обычным языком

Семантическое сходство

Поиск документов с похожим смыслом

Извлечение ключевых слов

Автоматическое извлечение значимых ключевых слов

Предложение паттернов

Обнаружение трендов и закономерностей в данных

Стилистический анализ

Стиль письма

Сравнение стилей письма разных авторов

Читаемость

Анализ сложности текста и уровня чтения

Определение регистра

Определение уровней формальности языка

Анализ тональности

Обнаружение эмоций и тона в корпусе

Лингвистический анализ

Дискурсивные маркеры

Выявление дискурсивных маркеров и их функций

Семантические поля

Картирование семантических связей

Контекстуальное определение

Получение исторического/лингвистического контекста терминов

Извлечение цитат

Извлечение важных цитат

Сравнительный анализ

Сравнение корпусов

Сравнение двух корпусов бок о бок

Диахронические изменения

Отслеживание эволюции языка во времени

Генерация презентаций Новое

Генератор презентаций на базе ИИ

Генерируйте профессиональные презентации PowerPoint из данных анализа корпуса. Идеально для конференций, защит диссертаций и исследовательских отчётов.

Поддержка языков (10 языков)

Английский, испанский, русский, французский, немецкий, китайский, японский, арабский, португальский, итальянский

Настраиваемые слайды (до 15)

Выберите разделы для включения: Обзор, Статистика, Частоты, Биграммы, Триграммы, Коллокации, Части речи, Сущности, Лексическое разнообразие, Статистика предложений, Методология, Примеры текстов и Ключевые выводы.

Как сгенерировать
  1. Перейдите на вкладку ИИ-анализ в вашем корпусе
  2. Найдите раздел «Пользовательская презентация»
  3. Выберите предпочтительный язык
  4. Выберите количество слайдов (3-15)
  5. Выберите разделы контента для включения
  6. Нажмите «Сгенерировать презентацию»
  7. Скачайте файл PPTX

7. NLP-обработка

Как использовать NLP-обработку

  1. Перейдите на страницу корпуса
  2. Нажмите вкладку NLP в навигации анализа
  3. Выберите документ из выпадающего меню
  4. Нажмите «Анализировать документ» для обработки через spaCy
Примечание: NLP-обработка анализирует отдельные документы, а не весь корпус. Язык определяется автоматически на основе метаданных документа.

Поддерживаемые языки

NLP-обработка доступна для 8 языков:

  • Английский - en_core_web_sm (продвинутый пайплайн с лемматизатором, NER, парсером)
  • Испанский - es_core_news_sm (оптимизирован для испанского текста)
  • Русский - ru_core_news_sm (поддержка кириллицы)
  • Французский - fr_core_news_sm (полный французский пайплайн)
  • Немецкий - de_core_news_sm (поддержка немецкой морфологии)
  • Китайский - zh_core_web_sm (упрощённый китайский с сегментацией слов)
  • Японский - ja_core_news_sm (японская токенизация и анализ)
  • Арабский - pyarabic + NLTK (токенизация, стемминг, стоп-слова)

Функции NLP

  • Полный анализ токенов - Лемматизация, POS-разметка и синтаксический анализ для всех токенов с определением стоп-слов
  • Сегментация предложений - Автоматическое извлечение предложений со статистикой (общее количество, средняя/мин/макс длина в токенах)
  • Именные группы - Извлечение именных групп с корневыми словами и синтаксическими связями
  • Морфологические признаки - Детальный грамматический анализ: род, падеж, число, время, лицо, наклонение и вид
  • Частоты лемм - Ранжированное частотное распределение базовых форм без стоп-слов
  • Фильтрация стоп-слов - Выявление и фильтрация служебных слов для фокуса на знаменательных словах
  • Распознавание именованных сущностей - Выявление людей (PERSON), мест (GPE, LOC), организаций (ORG), дат и др.
  • Синтаксический анализ - Анализ грамматической структуры и связей между словами

Результаты анализа

Вкладка NLP отображает комплексные результаты:

  • Статистика документа - Всего токенов, токенов без стоп-слов, информация о языке
  • Статистика предложений - Всего предложений, средняя/мин/макс длина с полным списком предложений
  • Именные группы - Все извлечённые именные группы с корневыми словами и зависимостями
  • Частоты лемм - Полный ранжированный список частот без стоп-слов с количеством и процентами
  • Морфологические признаки - Все токены с грамматическими признаками (род, падеж, время и т.д.)
  • Распределение частей речи - Все теги частей речи с количеством
  • Именованные сущности - Все обнаруженные сущности с их метками
  • Полный анализ токенов - Все токены с текстом, леммой, POS-тегом, уточнённым тегом, синтаксической связью и статусом стоп-слова
  • Профессиональный экспорт - Экспорт полного анализа в PDF, Word, Excel или CSV

8. Визуализации

Доступные визуализации

  • Облака слов - Визуальное представление частот слов
  • Частотное распределение - Столбчатые диаграммы частот слов
  • Лексическая дисперсия - Отслеживание использования слов по документам

Настройка

Большинство визуализаций позволяют настраивать параметры: количество слов, цвета и фильтрацию.

9. Экспорт и сохранение результатов

Форматы экспорта

Все результаты анализа можно экспортировать в нескольких форматах:

  • PDF - Профессиональные отчёты с форматированными таблицами
  • Word (DOCX) - Редактируемые документы для дальнейшей работы
  • Excel (XLSX) - Таблицы для анализа данных
  • CSV - Импорт в другие инструменты

Функция автосохранения

Все результаты анализа автоматически сохраняются для последующего экспорта:

  • Результаты KWIC-конкорданса
  • Частотный анализ
  • Все 18 функций ИИ-анализа
  • Результаты NLP-обработки

Страница экспорта

Доступ ко всем сохранённым результатам со страницы Экспорт:

  • Просмотр всех сохранённых результатов анализа
  • Фильтрация по корпусу или типу анализа
  • Экспорт отдельных результатов в любом формате
  • Массовый экспорт: выберите несколько результатов и объедините в один документ

Экспорт корпуса

Экспортируйте весь корпус в формате JSONL для резервного копирования или обмена.

10. Совместная работа

Добавление участников

Делитесь корпусом с другими исследователями:

  1. Откройте корпус, которым хотите поделиться
  2. Перейдите в раздел «Участники»
  3. Добавьте участников по email
  4. Установите права доступа (просмотр, редактирование, администратор)

Слои аннотаций

Создавайте слои аннотаций для совместной разметки и анализа.

12. Контроль версий (снимки)

Создание снимков

Сохраняйте версии корпуса на разных этапах:

  1. Перейдите в раздел «Экспорт и снимки»
  2. Нажмите «Создать снимок»
  3. Добавьте тег (например, «v1.0», «до-очистки»)
  4. Просматривайте историю снимков

Восстановление снимков

Снимки можно использовать для восстановления корпуса к предыдущему состоянию при необходимости.

13. Поддержка и помощь

Система обращений

Нужна помощь? Создайте обращение для получения помощи от нашей команды:

  1. Перейдите в Поддержку с панели управления
  2. Нажмите «Создать обращение»
  3. Введите тему и опишите проблему
  4. Выберите приоритет (Низкий, Обычный или Высокий)
  5. Отправьте обращение

Функции обращений

  • Цепочки сообщений - Отвечайте на обращения для продолжения обсуждения
  • Отслеживание статуса - Просматривайте статус обращения (Открыто, В работе, Закрыто)
  • Email-уведомления - Получайте уведомления, когда мы отвечаем
  • Уровни приоритета - Отмечайте срочные вопросы как высокоприоритетные

Альтернативные способы связи

Советы и лучшие практики

Советы по рабочему процессу

  • 1. Начните с метаданных - Определите схему перед загрузкой документов
  • 2. Используйте снимки - Создавайте снимки перед значительными изменениями
  • 3. Фильтруйте поиск - Используйте фильтры документов для сужения анализа
  • 4. Экспортируйте регулярно - Сохраняйте результаты для исследовательских заметок
  • 5. Пробуйте ИИ-функции - ИИ-анализ может выявить неожиданные закономерности
  • 6. Следите за лимитами токенов - Контролируйте использование ИИ на панели управления

Советы по производительности

  • Используйте фильтры минимальной частоты для уменьшения шума в частотном анализе
  • Фильтруйте по конкретным документам при анализе больших корпусов
  • ИИ-функции автоматически сэмплируют большие тексты для соблюдения лимитов токенов
  • Экспортируйте в CSV для пользовательского анализа в R, Python или Excel

Нужна дополнительная помощь?

Ознакомьтесь с дополнительными ресурсами: