О CorpusCraft

Наша миссия

CorpusCraft посвящён демократизации исследований в области корпусной лингвистики, предоставляя мощные и доступные инструменты анализа, которые работают прямо в вашем браузере. Мы считаем, что сложный лингвистический анализ не должен требовать дорогостоящего программного обеспечения, технической экспертизы или институциональных ресурсов.

Создан для исследователей

CorpusCraft обслуживает глобальное лингвистическое сообщество, включая:

Академические исследователи

Изучают языковые паттерны, дискурс-анализ и лингвистическую вариативность

Аспиранты и магистранты

Проводят корпусные исследования для диссертаций и дипломных работ

Специалисты Digital Humanities

Анализируют исторические тексты и культурные паттерны

Специалисты по языку

Преподаватели, переводчики и лексикографы, готовящие материалы

Что делает CorpusCraft уникальным

Браузерная платформа

Установка не требуется. Получайте доступ к исследованиям откуда угодно, с любого устройства. Ваши данные надёжно защищены.

Профессиональные статистические инструменты

Реальные меры корпусной лингвистики: статистика коллокаций (MI, t-score, Dice, Log-likelihood), лексическое разнообразие (TTR, MTLD, HD-D), индексы читаемости и анализ ключевых слов.

Гибридная ИИ-стратегия

Умное использование GPT-5 mini для эффективных массовых операций и GPT-5.2 для продвинутого анализа. Экономичный ИИ, дающий реальные результаты.

Комплексный многоязыковой NLP

Продвинутый лингвистический анализ для 8 языков (английский, испанский, русский, французский, немецкий, китайский, японский и арабский), включая полный анализ токенов, сегментацию предложений, именные группы, морфологические признаки (род, падеж, число, время), частоты лемм, фильтрацию стоп-слов, POS-разметку, синтаксический анализ и распознавание именованных сущностей с профессиональными форматами экспорта.

Экспорт всего

Все результаты анализа экспортируются в PDF, Word, Excel и CSV. Ваше исследование — ваши форматы.

Технологии и архитектура

CorpusCraft построен на современных, надёжных технологиях, выбранных для производительности, надёжности и исследовательских потребностей:

  • FastAPI (Python) - Высокопроизводительный бэкенд для быстрого анализа
  • SQLite с FTS5 - Молниеносный полнотекстовый поиск, оптимизированный для лингвистических запросов
  • spaCy - Современная NLP-обработка с обученными языковыми моделями
  • Модели OpenAI GPT - Продвинутые ИИ-возможности для семантического анализа
  • HTMX и Tailwind CSS - Отзывчивый, современный интерфейс без излишеств

Приватность и безопасность: Данные вашего корпуса хранятся безопасно и никогда не передаются третьим лицам. Мы используем стандартное для отрасли шифрование и аутентификацию. Вы сохраняете полное владение своими исследовательскими данными.

Честные, прозрачные цены

Наша модель ценообразования на основе токенов обеспечивает устойчивость при сохранении справедливых и предсказуемых затрат:

Бесплатный тариф

Идеален для обучения и небольших проектов. Всегда бесплатно, банковская карта не требуется.

Платите за то, что используете

Лимиты на основе токенов гарантируют, что вы платите только за те функции, которые вам действительно нужны.

Наша маржа (72-92%) позволяет нам постоянно улучшать CorpusCraft, добавлять новые функции и обеспечивать надёжную поддержку исследовательского сообщества. Мы ориентированы на долгосрочную устойчивость, а не на краткосрочную прибыль.

Основные возможности

Поиск и анализ

  • • Полнотекстовый поиск с операторами
  • • KWIC-конкорданс
  • • Поиск по регулярным выражениям
  • • Частотный анализ
  • • Извлечение N-грамм
  • • Статистика коллокаций

Статистический анализ

  • • Индексы читаемости (6 формул)
  • • Лексическое разнообразие (TTR, MTLD, HD-D)
  • • Анализ ключевых слов
  • • Расчёт размера эффекта
  • • Нормализованные частоты

ИИ и NLP

  • • 18 ИИ-функций
  • • Обнаружение тем
  • • Анализ тональности
  • • Семантическое сходство
  • • POS-разметка
  • • Распознавание именованных сущностей

Планы развития

CorpusCraft постоянно развивается на основе обратной связи от исследователей. Запланированные функции включают:

  • Дополнительная языковая поддержка (французский, немецкий, китайский)
  • Продвинутая фильтрация конкорданса и инструменты аннотации
  • Улучшения сравнения корпусов и диахронического анализа
  • API-доступ для программного анализа корпусов
  • Интеграция с популярными менеджерами цитирования

Свяжитесь с нами

Мы ценим обратную связь от исследовательского сообщества и готовы помочь вам добиться успеха.

Документация: Полное руководство пользователя

Поддержка: support@corpuscraft.org

Запросы на функции: feedback@corpuscraft.org

Обычно мы отвечаем на запросы в службу поддержки в течение 24 часов в рабочие дни.

О разработчике

CorpusCraft разработан и поддерживается Ярославом Маром, переводчиком и магистрантом программы «Фундаментальная и прикладная лингвистика» НИУ ВШЭ.

Как лингвист и разработчик, Ярослав понимает исследовательские проблемы, с которыми сталкиваются специалисты по корпусной лингвистике, и стремится создавать инструменты, делающие лингвистический анализ более доступным и мощным.

Создано с любовью для глобального исследовательского лингвистического сообщества.

CorpusCraft © 2025 — Расширяем возможности языковых исследований