Документация CorpusCraft
Полное руководство по использованию CorpusCraft для исследований в области корпусной лингвистики
Содержание
1. Начало работы
Создание аккаунта
CorpusCraft использует аутентификацию через magic link для безопасного входа без пароля:
- Нажмите «Начать» на главной странице
- Введите ваш адрес электронной почты
- Проверьте почту на наличие ссылки для входа
- Перейдите по ссылке для доступа к аккаунту
Создание первого корпуса
- На панели управления нажмите «Создать новый корпус»
- Введите название и описание (необязательно)
- Нажмите «Создать корпус»
- Начните загрузку документов
2. Тарифы и академическая верификация
Тарифные планы
CorpusCraft предлагает пять тарифных планов для различных исследовательских потребностей:
Бесплатный план - ₽0
- 10 документов (50 000 токенов)
- Полнотекстовый поиск и KWIC-конкорданс
- Базовый частотный анализ
- Идеален для обучения и небольших проектов
Академический план - ₽3699/год
Требуется верификация- Лимит корпуса: 500 000 токенов
- 40 ИИ-анализов в месяц
- Полная NLP-обработка (spaCy)
- Все инструменты статистического анализа
- Требуется академическая верификация (см. ниже)
Исследователь - ₽1399/мес
- Лимит корпуса: 500 000 токенов
- 100 ИИ-анализов в месяц
- Полная NLP-обработка
- 3 участника совместной работы
Профессионал - ₽3699/мес
- Лимит корпуса: 2 000 000 токенов
- 400 ИИ-анализов в месяц
- Приоритетная обработка
- 10 участников совместной работы
Организация - ₽14999/мес
- Лимит корпуса: 10 000 000 токенов
- 1 500 ИИ-анализов в месяц
- Полный доступ к REST API
- Неограниченное число участников
- Доступ к панели администратора
Процесс академической верификации
Для доступа к плану Академик необходимо подтвердить академический статус. Мы предлагаем три способа верификации:
1. Верификация по домену email (автоматическая)
Если вы зарегистрируетесь с академического email-адреса, верификация произойдёт автоматически. Поддерживаемые домены включают:
- .edu (США)
- .ac.uk (Великобритания)
- .edu.au (Австралия)
- .ac.nz (Новая Зеландия)
- .edu.cn (Китай)
- .ac.jp (Япония)
- И более 100 международных академических доменов
2. Верификация через ORCID (автоматическая)
Привяжите ваш ORCID iD для подтверждения статуса исследователя:
- Перейдите на страницу верификации
- Введите ваш ORCID iD (например, 0000-0002-1825-0097)
- Мы проверим ваш ORCID через публичный API
- Мгновенная верификация, если ваш ORCID активен
3. Ручная проверка (1-2 рабочих дня)
Если у вас нет академического email или ORCID, предоставьте документы:
- Удостоверение университета
- Письмо от кафедры
- Страница профиля сотрудника на сайте вуза
- Недавняя публикация с указанием аффилиации
Наша команда рассмотрит заявку в течение 1-2 рабочих дней и уведомит вас по email.
Начало работы: Перейдите на панель управления и нажмите «Подтвердить →» или откройте /verify-academic для начала процесса верификации.
Значок статуса верификации
После верификации на панели управления и в профиле появится зелёный значок:
- Подтверждённый статус: Зелёный значок с галочкой
- Способ верификации: Домен email, ORCID или ручная проверка
- На рассмотрении: Жёлтый значок во время ожидания ручной проверки
3. Управление документами
Поддерживаемые форматы файлов
- TXT - Текстовые файлы
- CSV - Таблицы со столбцом текста
- JSONL - JSON Lines для структурированных данных
- PDF - Portable Document Format
- DOCX - Документы Microsoft Word
Загрузка документов
Перейдите на вкладку «Загрузить» в вашем корпусе и:
- Нажмите для выбора файлов
- Перетащите файлы в область загрузки
Язык документов определяется автоматически.
Создать из текста
Создавайте документы напрямую, вводя или вставляя текст:
- Перейдите на страницу корпуса
- Найдите раздел «Создать из текста»
- Введите название документа
- Напишите или вставьте текст
- Нажмите «Создать документ» для добавления в корпус
Идеально для быстрых заметок, расшифрованного контента или текста из других источников.
3. Поиск и KWIC-конкорданс
Полнотекстовый поиск
CorpusCraft использует SQLite FTS5 для мощного полнотекстового поиска с операторами:
guerra— Найти точное слово"guerra civil"— Поиск фразыguerra OR paz— Любое из словguerra NOT civil— Исключить терминguerr*— Поиск по префиксу
KWIC-конкорданс
Key Word in Context (KWIC) отображает результаты поиска с окружающим контекстом:
- Левый контекст - Слова перед ключевым словом
- Ключевое слово - Ваш поисковый термин (выделен)
- Правый контекст - Слова после ключевого слова
- Источник - Название документа
Нажмите на заголовок столбца для сортировки по левому контексту, ключевому слову, правому контексту или источнику.
Окно контекста
Настройте количество слов до и после ключевого слова (5-20 слов).
Поиск по регулярным выражениям Расширенный
Включите режим regex в расширенном поиске для поиска по шаблонам:
\b(war|battle|conflict)\b— Границы слов для альтернативных слов\d{4}— Поиск 4-значных чисел (например, годов)colou?r— Необязательные символы[A-Z][a-z]+— Слова с заглавной буквы\b\w{10,}\b— Слова из 10+ символов
Пакетные операции Массовое редактирование
Выполняйте операции с несколькими документами одновременно:
- Массовое удаление - Удаление нескольких документов за одно действие
- Обновление метаданных - Применение одного значения метаданных к выбранным документам
- Массовый экспорт - Экспорт выбранных документов в TXT или CSV
4. Частотный анализ
Частота слов
Анализируйте, как часто слова появляются в вашем корпусе:
- Установите минимальный порог частоты для фильтрации редких слов
- Просматривайте количество и проценты частоты
- Результаты сортируются по рангу, слову или частоте
- Экспортируйте результаты в PDF, Word, Excel или CSV
Анализ N-грамм
Анализируйте многословные последовательности:
- Биграммы - 2-словные последовательности
- Триграммы - 3-словные последовательности
- 4-граммы+ - Более длинные последовательности
Анализ коллокаций
Находите слова, которые часто появляются вместе с целевым словом, используя несколько статистических мер:
- MI score - Взаимная информация, измеряет силу связи
- t-score - Чувствительна к частоте, хороша для частотных слов
- Коэффициент Дайса - Симметричная связь (шкала 0-1)
- Log-Likelihood - Мера статистической значимости
5. Статистический анализ
Мощные функции статистического анализа, не требующие ИИ, предоставляющие объективные метрики для вашего корпуса.
Индексы читаемости Бесплатно
Оценивайте сложность текста с помощью нескольких формул читаемости:
- Flesch Reading Ease - Шкала 0-100, чем выше — тем легче
- Flesch-Kincaid Grade Level - Требуемый уровень образования (США)
- Gunning Fog Index - Необходимые годы образования
- SMOG Index - Simple Measure of Gobbledygook
- Coleman-Liau Index - Уровень образования на основе символов
- Automated Readability Index (ARI) - Формула на основе символов
Лексическое разнообразие Исследователь+
Измеряйте богатство словарного запаса с помощью продвинутых метрик:
- Type-Token Ratio (TTR) - Простая мера лексического разнообразия
- Standardized TTR (STTR) - Менее зависит от длины текста
- MTLD - Measure of Textual Lexical Diversity, наиболее стабильная метрика
- HD-D - Hypergeometric Distribution D, вероятностный подход
- Yule's K - Мера концентрации словаря
- Hapax Legomena - Слова, встречающиеся только один раз
Анализ ключевых слов (Keyness) Профессионал+
Сравнивайте два корпуса для выявления статистически значимых различий:
- Критерий хи-квадрат - Тестирование статистической значимости
- Log-likelihood - Более надёжен для разреженных данных
- Размер эффекта - Практическая значимость (логарифмическое соотношение)
- Нормализованные частоты - Сравнение на 10 000 слов
6. ИИ-анализ (18 функций)
Примечание: Функции ИИ используют модели GPT-5 mini и GPT-5.2. 9 из этих функций обогащены NLP-предобработкой — ИИ получает количественные лингвистические данные (подсчёт сущностей, распределение частей речи, статистику предложений) для обоснования анализа реальными метриками вашего корпуса. Проверьте лимиты ИИ-запросов вашего тарифа на панели управления.
Анализ документов
Автоклассификация
Автоматическая категоризация документов по типу и теме
Обнаружение тем
Выявление основных тем в корпусе
Умное резюме
Генерация кратких или подробных резюме
Извлечение сущностей
Извлечение людей, мест, дат и организаций
Поиск и обнаружение
Запрос на естественном языке
Задавайте вопросы обычным языком
Семантическое сходство
Поиск документов с похожим смыслом
Извлечение ключевых слов
Автоматическое извлечение значимых ключевых слов
Предложение паттернов
Обнаружение трендов и закономерностей в данных
Стилистический анализ
Стиль письма
Сравнение стилей письма разных авторов
Читаемость
Анализ сложности текста и уровня чтения
Определение регистра
Определение уровней формальности языка
Анализ тональности
Обнаружение эмоций и тона в корпусе
Лингвистический анализ
Дискурсивные маркеры
Выявление дискурсивных маркеров и их функций
Семантические поля
Картирование семантических связей
Контекстуальное определение
Получение исторического/лингвистического контекста терминов
Извлечение цитат
Извлечение важных цитат
Сравнительный анализ
Сравнение корпусов
Сравнение двух корпусов бок о бок
Диахронические изменения
Отслеживание эволюции языка во времени
Генерация презентаций Новое
Генератор презентаций на базе ИИ
Генерируйте профессиональные презентации PowerPoint из данных анализа корпуса. Идеально для конференций, защит диссертаций и исследовательских отчётов.
Поддержка языков (10 языков)
Английский, испанский, русский, французский, немецкий, китайский, японский, арабский, португальский, итальянский
Настраиваемые слайды (до 15)
Выберите разделы для включения: Обзор, Статистика, Частоты, Биграммы, Триграммы, Коллокации, Части речи, Сущности, Лексическое разнообразие, Статистика предложений, Методология, Примеры текстов и Ключевые выводы.
Как сгенерировать
- Перейдите на вкладку ИИ-анализ в вашем корпусе
- Найдите раздел «Пользовательская презентация»
- Выберите предпочтительный язык
- Выберите количество слайдов (3-15)
- Выберите разделы контента для включения
- Нажмите «Сгенерировать презентацию»
- Скачайте файл PPTX
7. NLP-обработка
Как использовать NLP-обработку
- Перейдите на страницу корпуса
- Нажмите вкладку NLP в навигации анализа
- Выберите документ из выпадающего меню
- Нажмите «Анализировать документ» для обработки через spaCy
Поддерживаемые языки
NLP-обработка доступна для 8 языков:
- Английский - en_core_web_sm (продвинутый пайплайн с лемматизатором, NER, парсером)
- Испанский - es_core_news_sm (оптимизирован для испанского текста)
- Русский - ru_core_news_sm (поддержка кириллицы)
- Французский - fr_core_news_sm (полный французский пайплайн)
- Немецкий - de_core_news_sm (поддержка немецкой морфологии)
- Китайский - zh_core_web_sm (упрощённый китайский с сегментацией слов)
- Японский - ja_core_news_sm (японская токенизация и анализ)
- Арабский - pyarabic + NLTK (токенизация, стемминг, стоп-слова)
Функции NLP
- Полный анализ токенов - Лемматизация, POS-разметка и синтаксический анализ для всех токенов с определением стоп-слов
- Сегментация предложений - Автоматическое извлечение предложений со статистикой (общее количество, средняя/мин/макс длина в токенах)
- Именные группы - Извлечение именных групп с корневыми словами и синтаксическими связями
- Морфологические признаки - Детальный грамматический анализ: род, падеж, число, время, лицо, наклонение и вид
- Частоты лемм - Ранжированное частотное распределение базовых форм без стоп-слов
- Фильтрация стоп-слов - Выявление и фильтрация служебных слов для фокуса на знаменательных словах
- Распознавание именованных сущностей - Выявление людей (PERSON), мест (GPE, LOC), организаций (ORG), дат и др.
- Синтаксический анализ - Анализ грамматической структуры и связей между словами
Результаты анализа
Вкладка NLP отображает комплексные результаты:
- Статистика документа - Всего токенов, токенов без стоп-слов, информация о языке
- Статистика предложений - Всего предложений, средняя/мин/макс длина с полным списком предложений
- Именные группы - Все извлечённые именные группы с корневыми словами и зависимостями
- Частоты лемм - Полный ранжированный список частот без стоп-слов с количеством и процентами
- Морфологические признаки - Все токены с грамматическими признаками (род, падеж, время и т.д.)
- Распределение частей речи - Все теги частей речи с количеством
- Именованные сущности - Все обнаруженные сущности с их метками
- Полный анализ токенов - Все токены с текстом, леммой, POS-тегом, уточнённым тегом, синтаксической связью и статусом стоп-слова
- Профессиональный экспорт - Экспорт полного анализа в PDF, Word, Excel или CSV
8. Визуализации
Доступные визуализации
- Облака слов - Визуальное представление частот слов
- Частотное распределение - Столбчатые диаграммы частот слов
- Лексическая дисперсия - Отслеживание использования слов по документам
Настройка
Большинство визуализаций позволяют настраивать параметры: количество слов, цвета и фильтрацию.
9. Экспорт и сохранение результатов
Форматы экспорта
Все результаты анализа можно экспортировать в нескольких форматах:
- PDF - Профессиональные отчёты с форматированными таблицами
- Word (DOCX) - Редактируемые документы для дальнейшей работы
- Excel (XLSX) - Таблицы для анализа данных
- CSV - Импорт в другие инструменты
Функция автосохранения
Все результаты анализа автоматически сохраняются для последующего экспорта:
- Результаты KWIC-конкорданса
- Частотный анализ
- Все 18 функций ИИ-анализа
- Результаты NLP-обработки
Страница экспорта
Доступ ко всем сохранённым результатам со страницы Экспорт:
- Просмотр всех сохранённых результатов анализа
- Фильтрация по корпусу или типу анализа
- Экспорт отдельных результатов в любом формате
- Массовый экспорт: выберите несколько результатов и объедините в один документ
Экспорт корпуса
Экспортируйте весь корпус в формате JSONL для резервного копирования или обмена.
10. Совместная работа
Добавление участников
Делитесь корпусом с другими исследователями:
- Откройте корпус, которым хотите поделиться
- Перейдите в раздел «Участники»
- Добавьте участников по email
- Установите права доступа (просмотр, редактирование, администратор)
Слои аннотаций
Создавайте слои аннотаций для совместной разметки и анализа.
12. Контроль версий (снимки)
Создание снимков
Сохраняйте версии корпуса на разных этапах:
- Перейдите в раздел «Экспорт и снимки»
- Нажмите «Создать снимок»
- Добавьте тег (например, «v1.0», «до-очистки»)
- Просматривайте историю снимков
Восстановление снимков
Снимки можно использовать для восстановления корпуса к предыдущему состоянию при необходимости.
13. Поддержка и помощь
Система обращений
Нужна помощь? Создайте обращение для получения помощи от нашей команды:
- Перейдите в Поддержку с панели управления
- Нажмите «Создать обращение»
- Введите тему и опишите проблему
- Выберите приоритет (Низкий, Обычный или Высокий)
- Отправьте обращение
Функции обращений
- Цепочки сообщений - Отвечайте на обращения для продолжения обсуждения
- Отслеживание статуса - Просматривайте статус обращения (Открыто, В работе, Закрыто)
- Email-уведомления - Получайте уведомления, когда мы отвечаем
- Уровни приоритета - Отмечайте срочные вопросы как высокоприоритетные
Альтернативные способы связи
- Email: support@corpuscraft.org
- Форма обратной связи: Страница контактов
Советы и лучшие практики
Советы по рабочему процессу
- 1. Начните с метаданных - Определите схему перед загрузкой документов
- 2. Используйте снимки - Создавайте снимки перед значительными изменениями
- 3. Фильтруйте поиск - Используйте фильтры документов для сужения анализа
- 4. Экспортируйте регулярно - Сохраняйте результаты для исследовательских заметок
- 5. Пробуйте ИИ-функции - ИИ-анализ может выявить неожиданные закономерности
- 6. Следите за лимитами токенов - Контролируйте использование ИИ на панели управления
Советы по производительности
- Используйте фильтры минимальной частоты для уменьшения шума в частотном анализе
- Фильтруйте по конкретным документам при анализе больших корпусов
- ИИ-функции автоматически сэмплируют большие тексты для соблюдения лимитов токенов
- Экспортируйте в CSV для пользовательского анализа в R, Python или Excel
Нужна дополнительная помощь?
Ознакомьтесь с дополнительными ресурсами: