Пятница вечер. Отчёт за месяц висит полтора часа. Таблица на 500 миллионов строк. PostgreSQL задыхается. Индексы не помогают. Менеджмент ждёт цифры. Аналитик в отчаянии пишет в чат: «Нужна нормальная база для аналитики».
Та же компания через месяц. Та же таблица, тот же запрос. Результат за 3 секунды. Аналитики строят дашборды в реальном времени. Данные обновляются каждую минуту. Менеджмент доволен. Разница — правильная СУБД для аналитических нагрузок.
PostgreSQL, MySQL — отличные транзакционные базы. Но для аналитики больших объёмов они не созданы. Когда таблицы переваливают за сотни миллионов строк, а запросы сканируют терабайты данных, нужны специализированные решения — колоночные аналитические СУБД.
В 2026 году два лидера рынка аналитических баз: Google BigQuery и ClickHouse. BigQuery — управляемое облачное решение от Google, serverless архитектура, платишь за запросы. ClickHouse — опенсорсная колоночная СУБД, можно развернуть где угодно, контроль над железом и стоимостью.
Для российских компаний выбор осложняется санкциями. Google Cloud недоступен напрямую. BigQuery работает через VPN и прокси, но это серая зона. ClickHouse — российская разработка изначально (Яндекс), полностью доступен, множество управляемых сервисов в российских облаках.
Эта статья — практическое сравнение BigQuery и ClickHouse. Что такое колоночные СУБД и почему они быстрее. Архитектура обеих систем. Детальное сравнение по производительности, стоимости, удобству. Российская специфика: доступность, альтернативы, облачные сервисы. Когда выбирать что. Реальные кейсы. С цифрами, бенчмарками, таблицами. Без маркетинговой воды про «революционные технологии».
1. Что такое колоночные СУБД и зачем они нужны
Проблема транзакционных баз для аналитики
Традиционные СУБД (PostgreSQL, MySQL) — строковые. Данные хранятся построчно. Для транзакций (вставка, обновление одной записи) это оптимально. Для аналитики (агрегация миллионов строк) — катастрофа.
Пример. Таблица событий: user_id, event_type, timestamp, country, revenue. 100 миллионов строк. Нужна статистика по странам.
Строковое хранение (PostgreSQL):
SELECT country, SUM(revenue)
FROM events
GROUP BY country;База читает все 100 миллионов строк полностью, потому что данные лежат построчно. Даже если нужны только 2 колонки из 10, читаются все колонки. Время выполнения: 30-60 секунд.
Колоночное хранение (ClickHouse/BigQuery):
Данные хранятся по колонкам. Колонка country лежит отдельно, revenue отдельно. База читает только нужные колонки. Плюс колонки отлично сжимаются (много повторяющихся значений).
Тот же запрос: 1-3 секунды. В 10-30 раз быстрее.
Что такое OLAP
OLAP (Online Analytical Processing) — системы для аналитической обработки данных. В отличие от OLTP (Online Transaction Processing — транзакционные системы).
OLTP: много мелких операций (вставка, обновление записей), низкая латентность, данные часто меняются.
OLAP: мало больших операций (агрегации, фильтрация больших объёмов), высокая пропускная способность, данные в основном добавляются.
Когда нужна колоночная СУБД
Таблицы >100 млн строк
Нужны быстрые агрегации (SUM, COUNT, AVG по миллионам записей)
Запросы сканируют много строк но мало колонок
Данные в основном добавляются (append-only), редко обновляются
Нужна высокая скорость загрузки данных
Аналитические дашборды, отчёты, BI-инструменты
Когда НЕ нужна
Много операций UPDATE/DELETE отдельных записей
Нужны транзакции с ACID гарантиями
Данные постоянно меняются
Таблицы маленькие (<10 млн строк)
Бюджет критичен, а объёмы небольшие
Альтернативы колоночным СУБД
Не BigQuery и ClickHouse — единственные варианты для аналитики. Есть:
Apache Druid: Real-time аналитика, быстрые агрегации
Apache Pinot: Для OLAP в реальном времени
Amazon Redshift: Управляемое хранилище данных AWS
Snowflake: Облачное хранилище данных
Greenplum: Массивно-параллельная СУБД на PostgreSQL
Но BigQuery и ClickHouse — лидеры по популярности в 2026. BigQuery — де-факто стандарт в Google Cloud. ClickHouse — самая быстрая опенсорсная колоночная СУБД.
2. Google BigQuery: serverless хранилище данных в облаке
Что такое BigQuery
BigQuery — полностью управляемое serverless хранилище данных от Google. Запущен в 2011. Архитектура: разделение хранения и вычислений. Данные хранятся в Google Storage, запросы выполняются динамически выделенными ресурсами.
Ключевая особенность: не нужно управлять серверами, кластерами, масштабированием. Загружаешь данные, пишешь SQL, получаешь результат. Google сам распределяет вычисления, масштабирует, оптимизирует.
Архитектура BigQuery
1. Colossus (хранилище)
Данные хранятся в распределённой файловой системе Colossus (эволюция Google File System). Колоночный формат Capacitor. Автоматическая репликация, шифрование, сжатие.
2. Dremel (вычислительный движок)
Распределённая система выполнения запросов. Использует технологию дерева агрегации: запрос разбивается на тысячи параллельных задач, результаты агрегируются.
3. Borg (оркестрация)
Динамическое выделение вычислительных ресурсов. При запуске запроса BigQuery автоматически выделяет нужное количество процессоров.
Модель данных
Таблицы, датасеты (аналог схем в SQL), проекты. SQL-like язык запросов (Google Standard SQL). Поддержка вложенных и повторяющихся полей (legacy структур Protocol Buffers).
Основные возможности
1. Автоматическое масштабирование
Запросы параллелятся на тысячи узлов автоматически. Не нужно настраивать шардирование, партиционирование кластера.
2. Интеграция с экосистемой Google
Нативная работа с Google Analytics, Google Ads, Firebase. ETL через Dataflow, визуализация в Looker/Data Studio. ML модели через BigQuery ML.
3. Федеративные запросы
Возможность делать запросы к данным в Google Cloud Storage, Bigtable, Google Sheets без загрузки в BigQuery.
4. Streaming вставки
Загрузка данных в реальном времени через Streaming API. Данные доступны для запросов практически мгновенно.
5. Машинное обучение (BigQuery ML)
Создание и обучение ML моделей прямо в SQL. Линейная регрессия, логистическая регрессия, кластеризация, рекомендательные системы.
6. BI Engine
Встроенный кэш для интерактивной аналитики. Ускоряет дашборды в Looker/Data Studio до миллисекундных ответов.
Ценообразование
Две модели:
On-demand (по требованию):
Платишь за объём данных обработанных запросами. $6.25 за 1 TB в регионе US, $7.50 в других регионах. Первый 1 TB в месяц бесплатно.
Flat-rate (фиксированная ставка):
Покупаешь слоты (единицы вычислительной мощности). 100 слотов = $2000/месяц. Unlimited запросы в рамках купленной мощности. Выгодно при постоянной высокой нагрузке.
Хранение: $0.02 за GB в месяц (активное), $0.01 за GB (архивное, >90 дней без изменений).
Преимущества BigQuery
Нулевая операционная нагрузка: Не нужны админы баз данных, не нужно управлять железом
Мгновенное масштабирование: От гигабайтов до петабайтов без изменения конфигурации
Высокая скорость запросов: Петабайтные запросы за секунды благодаря массивному параллелизму
Интеграция с Google Cloud: Работает из коробки с Analytics, Ads, ML платформами
Безопасность: Шифрование, IAM, аудит, соответствие стандартам (ISO, SOC, HIPAA)
BI движок: Быстрые дашборды без доп настроек
Недостатки BigQuery
Стоимость при больших объёмах: On-demand дорожает с ростом данных, flat-rate требует планирования
Привязка к Google Cloud: Vendor lock-in, миграция сложная
Ограниченный контроль: Нельзя тюнить производительность на низком уровне
Проблемы с доступом из России: Санкции, нужны VPN/прокси
Латентность небольших запросов: Overhead на инициализацию, простые запросы могут быть медленнее чем в ClickHouse
3. ClickHouse: опенсорсная колоночная СУБД для real-time аналитики
Что такое ClickHouse
ClickHouse — колоночная СУБД для онлайн аналитики. Разработана Яндексом в 2009 для Яндекс.Метрики. Открыт в 2016. С 2021 — под управлением ClickHouse Inc (отделилась от Яндекса).
Архитектура: shared-nothing, данные и вычисления на одних узлах. Можно развернуть на собственных серверах, в любом облаке, в контейнерах. Полный контроль над конфигурацией и оптимизацией.
Архитектура ClickHouse
1. Колоночное хранилище
Данные хранятся по колонкам в сжатом виде. Алгоритмы сжатия: LZ4 (по умолчанию), ZSTD, Delta, Gorilla для временных рядов. Коэффициент сжатия 3-10x в зависимости от данных.
2. MergeTree движки
Семейство табличных движков для аналитики. MergeTree — базовый, данные сортируются по ключу, автоматически мержатся в фоне. ReplicatedMergeTree — с репликацией. ReplacingMergeTree, SummingMergeTree — для дедупликации и преагрегации.
3. Векторизованные вычисления
Обработка данных блоками через SIMD инструкции процессора. Вместо построчной обработки — batch операции над тысячами значений одновременно.
4. Распределённые запросы
Таблица Distributed — виртуальная прокси-таблица поверх шардированных данных. Запрос автоматически распределяется по шардам, результаты агрегируются.
Модель данных
Таблицы, базы данных. SQL-like язык с расширениями. Строгая типизация. Поддержка массивов, вложенных структур, JSON. Материализованные представления для преагрегации.
Основные возможности
1. Экстремальная скорость
Обработка миллиардов строк в секунду на одном сервере. Запросы на агрегацию часто выполняются быстрее чем в BigQuery благодаря оптимизациям на уровне железа.
2. Real-time вставки
Данные доступны для запросов сразу после вставки. Нет задержек как в batch системах. INSERT выполняется за миллисекунды.
3. Гибкая конфигурация
Полный контроль над партиционированием, сортировкой, сжатием, кэшированием. Можно тюнить под конкретную нагрузку.
4. Материализованные представления
Преагрегированные данные обновляются автоматически при вставке. Запросы к агрегатам выполняются мгновенно.
5. Встроенная репликация и шардирование
ReplicatedMergeTree для отказоустойчивости. Distributed таблицы для горизонтального масштабирования.
6. Интеграции
Коннекторы к Kafka, PostgreSQL, MySQL, MongoDB, S3. Можно делать федеративные запросы к внешним источникам.
Ценообразование
ClickHouse опенсорсный. Можно развернуть бесплатно на своих серверах.
Затраты при self-hosted:
Железо или виртуалки
Время инженеров на настройку и поддержку
Мониторинг, резервное копирование
Управляемые сервисы:
ClickHouse Cloud (от ClickHouse Inc): $0.26-0.65/час за узел в зависимости от размера
Yandex Managed ClickHouse: От 2.8₽/час за минимальную конфигурацию
Altinity.Cloud: От $0.50/час за узел
DoubleCloud: От €0.10/час за узел
Преимущества ClickHouse
Скорость: Один из самых быстрых движков для аналитики, обходит BigQuery на многих бенчмарках
Контроль и гибкость: Полная настройка под нагрузку
Экономичность: При правильной настройке дешевле BigQuery
Нет vendor lock-in: Опенсорс, можно мигрировать между облаками
Доступность в России: Российская разработка, управляемые сервисы в РФ
Real-time: Данные доступны мгновенно после вставки
Недостатки ClickHouse
Операционная сложность: Нужно управлять кластером, настраивать репликацию, мониторинг
Кривая обучения: Специфичный SQL, особенности движков, нужна экспертиза
Нет ACID: Eventual consistency при репликации, удаления не atomic
Нет автоматического масштабирования: Нужно планировать мощность кластера
Меньше интеграций: Не такая богатая экосистема как у Google Cloud
«ClickHouse создан для скорости. BigQuery создан для удобства. Выбор зависит от того что важнее: контроль и производительность или простота и интеграция» — из доклада на HighLoad++ 2024
4. BigQuery vs ClickHouse: детальное сравнение
| Критерий | BigQuery | ClickHouse |
|---|---|---|
| Тип | Управляемый облачный сервис | Опенсорсная СУБД |
| Архитектура | Serverless, разделение хранения и вычислений | Shared-nothing, всё на одних узлах |
| Установка | Не требуется, работает сразу | Нужно развернуть и настроить |
| Масштабирование | Автоматическое, до петабайтов | Ручное, добавление узлов в кластер |
| Скорость запросов | Высокая на больших данных | Экстремально высокая, часто быстрее |
| Латентность | 100-500мс минимум (overhead) | 1-10мс для простых запросов |
| Real-time вставки | Streaming API, небольшая задержка | Мгновенная доступность |
| SQL диалект | Google Standard SQL | ClickHouse SQL (похож на ANSI) |
| Стоимость малых объёмов | Низкая (бесплатный уровень) | Выше (нужен сервер) |
| Стоимость больших объёмов | Высокая (по запросам) | Ниже при оптимизации |
| Операционная сложность | Минимальная | Высокая |
| Vendor lock-in | Сильная привязка к Google | Нет, опенсорс |
| Доступность в РФ | Проблематична (санкции) | Полная, российские сервисы |
| Интеграции | Богатая экосистема Google | Меньше, но универсальные |
| ML возможности | BigQuery ML встроен | Нет встроенного ML |
Производительность
По данным независимых бенчмарков (ClickBench 2024):
Запросы на агрегацию (100 млн строк):
ClickHouse: 0.02-0.5 сек
BigQuery: 0.5-2 сек
Запросы на фильтрацию + JOIN:
ClickHouse: 0.1-1 сек
BigQuery: 1-3 сек
Запросы на петабайтных данных:
BigQuery: 2-10 сек (массивный параллелизм)
ClickHouse: 5-15 сек (зависит от размера кластера)
ClickHouse быстрее на большинстве запросов до масштабов терабайтов. На петабайтных данных BigQuery выигрывает за счёт автоматического распределения на тысячи узлов.
Удобство разработки
BigQuery:
Пишешь SQL, получаешь результат
Не думаешь об индексах, партициях, оптимизации
Автоматические рекомендации по оптимизации
Веб-консоль с подсветкой, автодополнением
ClickHouse:
Нужно думать о движках таблиц, ключах сортировки
Партиционирование настраивается вручную
Материализованные представления для оптимизации
Требует понимания архитектуры
Вердикт: BigQuery проще для аналитиков без глубоких технических знаний. ClickHouse требует экспертизу инженеров данных.
Когда BigQuery быстрее
Очень большие объёмы (петабайты)
Сложные JOIN на больших таблицах
Нерегулярная нагрузка (редкие тяжёлые запросы)
Когда ClickHouse быстрее
Постоянная высокая нагрузка
Простые агрегации на сотнях миллионов строк
Нужна минимальная латентность
Данные можно хорошо партиционировать
5. Российская специфика: санкции и альтернативы
Проблемы с BigQuery в России 2026
Google Cloud приостановил работу с российскими компаниями в 2022. Текущая ситуация:
1. Новые клиенты
Зарегистрироваться на Google Cloud с российскими реквизитами нельзя. Нужны зарубежные юрлица, карты других стран.
2. Существующие клиенты
Те кто работали до санкций — продолжают. Но Google может заблокировать в любой момент. Это риск.
3. Оплата
Российские карты не работают. Нужны зарубежные счета или посредники.
4. Техническая доступность
Сервисы Google доступны через VPN. API работают. Но это серая зона, официально не поддерживается.
Риски использования BigQuery в РФ:
Блокировка аккаунта без предупреждения
Потеря доступа к данным
Юридические риски обхода санкций
Невозможность получить поддержку
ClickHouse в России
Полная доступность. Множество вариантов развёртывания:
1. Yandex Managed Service for ClickHouse
Управляемый ClickHouse от Яндекс.Облака. Самый популярный вариант в РФ.
Особенности:
Автоматическое резервное копирование
Мониторинг из коробки
Автоматические обновления
Техподдержка на русском
Интеграция с DataLens (аналог Google Data Studio)
Цены: от 2.8₽/час за конфигурацию s2.micro (2 vCPU, 8GB RAM). Конфигурация под 1TB данных: ~50-70 тыс руб/месяц.
2. VK Cloud (бывший Mail.ru Cloud)
ClickHouse as a Service. Похожие функции как у Яндекса, цены сопоставимые.
3. Self-hosted в российских ЦОД
Развёртывание на своих серверах или аренда bare metal в российских дата-центрах (Selectel, DataLine, NORD).
Плюсы: полный контроль, данные в РФ.
Минусы: нужна команда для управления.
4. DoubleCloud
Управляемый ClickHouse от бывших сотрудников Яндекса. Работает в разных облаках, есть присутствие в РФ.
Сравнение управляемых ClickHouse в РФ
| Провайдер | Минимальная цена | Резервное копирование | Поддержка | Регионы |
|---|---|---|---|---|
| Yandex Cloud | 2.8₽/час | Да, автоматическое | 24/7 на русском | Москва, Владимир, Казахстан |
| VK Cloud | ~3₽/час | Да | 24/7 на русском | Москва |
| DoubleCloud | €0.10/час (~10₽) | Да | Email/Slack | Европа, США, опционально РФ |
Альтернативы для тех кто не может уйти с BigQuery
Если критична интеграция с Google экосистемой:
1. Работать через зарубежное юрлицо
Открыть компанию в дружественной юрисдикции (Армения, Казахстан, ОАЭ), работать через неё. Но это сложно и дорого.
2. Использовать прокси-сервисы
Компании-посредники которые предоставляют доступ к Google Cloud. Берут комиссию 10-20%. Риск: могут закрыться, данные у третьей стороны.
3. Мигрировать на Snowflake или Databricks
Облачные хранилища данных доступные из РФ (через партнёров). Дороже ClickHouse, но проще чем миграция архитектуры.
Рекомендации для российских компаний
Новые проекты: Однозначно ClickHouse (управляемый Yandex/VK или self-hosted)
Уже на BigQuery: Планируйте миграцию, это риск. Если критично — зарубежное юрлицо
Гибридный подход: ClickHouse для основной аналитики, BigQuery через VPN для интеграций с Google Analytics (пока работает)
«После февраля 2022 мы за 3 месяца мигрировали с BigQuery на ClickHouse в Яндекс.Облаке. Ожидали боли, получили ускорение запросов в 2 раза и сокращение расходов на 40%» — дата-инженер e-commerce компании
6. Когда выбирать BigQuery, когда ClickHouse
Выбирайте BigQuery если:
☐ Работаете в Google Cloud экосистеме (Analytics, Ads, Firebase)
☐ Нет команды для управления базами данных
☐ Нужна максимальная простота без операционной нагрузки
☐ Данные будут расти до петабайтов
☐ Нагрузка непредсказуемая (иногда тяжёлые запросы, иногда тишина)
☐ Нужен встроенный ML (BigQuery ML)
☐ Небольшие объёмы (<1 TB) — бесплатный уровень
☐ Компания не в России или есть зарубежное юрлицо
Выбирайте ClickHouse если:
☐ Критична максимальная скорость запросов
☐ Постоянная высокая нагрузка
☐ Есть команда инженеров данных
☐ Нужен контроль над конфигурацией и оптимизацией
☐ Бюджет ограничен, объёмы большие (>10 TB)
☐ Нужна минимальная латентность (real-time дашборды)
☐ Важна независимость от вендора
☐ Работаете в России или хотите избежать санкционных рисков
☐ Данные можно хорошо партиционировать
Матрица принятия решений
| Сценарий | Рекомендация | Почему |
|---|---|---|
| Стартап, MVP, <1TB данных | BigQuery | Бесплатный уровень, быстрый старт |
| Средний бизнес, 5-50TB, команда есть | ClickHouse | Экономия, контроль |
| Крупная компания, >100TB, в Google Cloud | BigQuery | Масштаб, интеграция |
| E-commerce, real-time аналитика | ClickHouse | Скорость, латентность |
| Работа с Google Analytics | BigQuery | Нативная интеграция |
| Российская компания, любой размер | ClickHouse | Доступность, нет рисков |
| Логи, метрики, события IoT | ClickHouse | Оптимизация под time-series |
| Дата-сайнс, ML эксперименты | BigQuery | BigQuery ML |
Гибридный подход
Некоторые компании используют обе СУБД:
BigQuery: Для редких тяжёлых аналитических запросов, интеграции с Google сервисами
ClickHouse: Для продакшн дашбордов, real-time метрик, частых запросов
Данные синхронизируются между системами через ETL (Airflow, Airbyte).
Плюсы: Используете сильные стороны обеих.
Минусы: Сложность архитектуры, двойные расходы.
7. Миграция с BigQuery на ClickHouse
Почему мигрируют
Основные причины миграции с BigQuery на ClickHouse:
Снижение стоимости (30-50% экономии)
Ускорение запросов (2-5x)
Уход от санкционных рисков
Необходимость контроля над данными
Этапы миграции
Этап 1: Аудит и планирование (1-2 недели)
Инвентаризация: какие таблицы, объёмы, зависимости
Анализ запросов: какие используются, как часто
Оценка сложности SQL: что нужно переписать
Расчёт необходимых ресурсов ClickHouse
Этап 2: Настройка ClickHouse (1 неделя)
Выбор управляемого сервиса или self-hosted
Создание кластера (размер зависит от объёмов)
Настройка репликации и резервного копирования
Настройка мониторинга
Этап 3: Миграция схемы (1-2 недели)
Создание таблиц в ClickHouse
Выбор движков (MergeTree, ReplacingMergeTree)
Определение ключей сортировки, партиционирования
Создание материализованных представлений для агрегатов
Различия в типах данных:
| BigQuery | ClickHouse |
|---|---|
| INT64 | Int64 |
| FLOAT64 | Float64 |
| STRING | String |
| TIMESTAMP | DateTime или DateTime64 |
| ARRAY | Array(Type) |
| STRUCT | Nested или Tuple |
Этап 4: Миграция данных (зависит от объёма)
Варианты переноса данных:
1. Экспорт в CSV/Parquet + загрузка
-- BigQuery: экспорт
EXPORT DATA OPTIONS(
uri='gs://bucket/data-*.parquet',
format='PARQUET'
) AS
SELECT * FROM dataset.table;
-- ClickHouse: загрузка
INSERT INTO table
FROM INFILE 'data.parquet'
FORMAT Parquet;Скорость: 50-200 GB/час в зависимости от канала.
2. Через Airbyte или Fivetran
ETL инструменты с коннекторами BigQuery → ClickHouse. Проще настроить, но платные.
3. Потоковая репликация через Kafka
Для минимизации простоя: пишем в BigQuery и Kafka параллельно, ClickHouse читает из Kafka.
Этап 5: Адаптация SQL запросов (2-4 недели)
BigQuery SQL ≠ ClickHouse SQL. Основные различия:
1. Диалект
BigQuery использует Google Standard SQL. ClickHouse — свой диалект, близкий к ANSI SQL.
Пример BigQuery:
SELECT
DATE(timestamp) as date,
COUNT(*) as events
FROM `project.dataset.table`
WHERE timestamp >= TIMESTAMP('2024-01-01')
GROUP BY date;ClickHouse:
SELECT
toDate(timestamp) as date,
COUNT(*) as events
FROM table
WHERE timestamp >= '2024-01-01'
GROUP BY date;2. Функции
Многие функции имеют разные названия:
| BigQuery | ClickHouse |
|---|---|
| DATE(timestamp) | toDate(timestamp) |
| TIMESTAMP_DIFF | dateDiff |
| ARRAY_AGG | groupArray |
| APPROX_QUANTILES | quantile |
3. Оконные функции
ClickHouse поддерживает, но синтаксис может отличаться. Сложные оконные функции работают медленнее чем в BigQuery.
Этап 6: Тестирование (1-2 недели)
Запустить критичные запросы параллельно в обеих СУБД
Сверить результаты
Измерить производительность
Нагрузочное тестирование
Этап 7: Переключение (1 день - 1 неделя)
Стратегии:
Big Bang: Переключаемся сразу. Рискованно, но быстро.
Постепенная миграция: Переводим по одному дашборду/пайплайну. Безопаснее, дольше.
Parallel run: Работаем параллельно 1-2 недели, сверяем результаты, потом отключаем BigQuery.
Типичные проблемы миграции
Вложенные структуры: BigQuery STRUCT vs ClickHouse Nested — разные модели
Производительность JOIN: В ClickHouse нужно думать о порядке таблиц в JOIN
Партиционирование: В BigQuery автоматическое, в ClickHouse нужно настроить вручную
Материализованные представления: Логика обновления отличается
Сроки и бюджет
Для компании с 50TB данных в BigQuery, 20 основных таблиц, 50 дашбордов:
Время: 2-3 месяца
Команда: 2 дата-инженера + 1 дата-аналитик
Стоимость работ: 1.5-2 млн руб (если своя команда — их время)
Инфраструктура: 50-100 тыс руб/месяц на ClickHouse кластер
8. Реальные кейсы российских компаний
Кейс 1: E-commerce на ClickHouse (интернет-магазин)
Компания: Крупный российский интернет-магазин, 5 млн заказов в месяц.
Задача: Real-time аналитика продаж, когортный анализ пользователей, продуктовые рекомендации.
Было: PostgreSQL для транзакций + MySQL для отчётов. Отчёты строились часами, агрегации тормозили.
Решение: ClickHouse в Yandex Cloud. 3 ноды, 16 vCPU / 64 GB RAM каждая.
Архитектура:
События (клики, просмотры, заказы) стримятся в Kafka
ClickHouse читает из Kafka через Kafka Engine
Материализованные представления для преагрегации метрик
Дашборды в DataLens обновляются каждую минуту
Результаты:
Время построения отчётов: с 2 часов до 5 секунд
Real-time дашборды вместо ночных батчей
Хранение 2 лет детальных данных (в PostgreSQL хранили 3 месяца)
Стоимость: 80 тыс руб/месяц vs 200 тыс на MySQL кластер
Урок: ClickHouse идеален для e-commerce аналитики с высокой частотой событий.
Кейс 2: Финтех на BigQuery (стартап в Казахстане)
Компания: Финтех стартап, 50 тыс пользователей, работают из Казахстана.
Задача: Аналитика транзакций, антифрод, прогнозирование оттока.
Решение: BigQuery через казахстанское юрлицо.
Почему BigQuery:
Команда из 3 человек, нет дата-инженеров
Объёмы небольшие (500 GB), попадают в бесплатный уровень
Нужен BigQuery ML для антифрод моделей
Интеграция с Google Analytics для веб-аналитики
Результаты:
Запуск за 2 дня (vs недели на настройку ClickHouse)
Стоимость $0 первые 6 месяцев (бесплатный уровень)
ML модели для антифрода обучаются прямо в SQL
Масштабирование до 10TB без изменения архитектуры
Урок: Для стартапов без инженеров данных BigQuery снижает порог входа.
Кейс 3: Миграция с BigQuery на ClickHouse (медиа-компания)
Компания: Медиа-холдинг, 50 млн просмотров статей в месяц.
Было: BigQuery для аналитики трафика, рекламы, контента. После санкций — риски блокировки.
Решение: Миграция на ClickHouse в VK Cloud за 2 месяца.
Миграция:
15 TB исторических данных перенесены через Parquet
30 основных дашбордов переписаны на ClickHouse SQL
Материализованные представления для популярных агрегатов
Результаты:
Скорость запросов: +40% (с 3 сек до 1.8 сек в среднем)
Стоимость: -50% (было $4000/месяц BigQuery, стало 180 тыс руб ClickHouse)
Устранение санкционных рисков
Данные в российской юрисдикции
Проблемы:
Переписывание сложных запросов с вложенными STRUCT заняло время
Пришлось обучать команду аналитиков ClickHouse SQL
Урок: Миграция реальна и окупается. Ускорение + экономия + отсутствие рисков.
Кейс 4: Гибридный подход (рекламная платформа)
Компания: AdTech платформа, 10 млрд событий в день (клики, показы, конверсии).
Решение: ClickHouse для real-time + BigQuery для тяжёлой аналитики.
Архитектура:
ClickHouse: Хранение последних 30 дней детальных событий. Дашборды рекламодателей в реальном времени.
BigQuery: Исторические данные (2 года). Сложные аналитические запросы, ML модели для таргетинга.
Синхронизация: Ежедневно агрегированные данные из ClickHouse в BigQuery через Airflow.
Результаты:
ClickHouse обеспечивает латентность <100мс для пользовательских дашбордов
BigQuery используется для редких тяжёлых аналитических задач
Экономия: ClickHouse дешевле для частых запросов, BigQuery дешевле для редких тяжёлых
Урок: Гибридный подход работает при чёткой логике разделения нагрузок.
9. Стоимость владения: детальное сравнение
Сценарий 1: Стартап, 100 GB данных
BigQuery (on-demand):
Хранение: 100 GB x $0.02 = $2/месяц
Запросы: 500 GB обработано/месяц. Первые 1 TB бесплатно.
Итого: ~$2-5/месяц (~200-500₽)
ClickHouse (Yandex Cloud, минимальная конфигурация):
1 нода s2.micro (2 vCPU, 8 GB): 2.8₽/час x 730 часов = 2044₽/месяц
Хранение 100 GB: 100 x 6₽ = 600₽/месяц
Итого: ~2600₽/месяц
Вердикт: На малых объёмах BigQuery дешевле благодаря бесплатному уровню.
Сценарий 2: Средний бизнес, 5 TB данных, 100 TB запросов/месяц
BigQuery (on-demand):
Хранение: 5000 GB x $0.02 = $100/месяц
Запросы: 100 TB x $6.25 = $625/месяц (минус 1 TB бесплатно = $618)
Итого: ~$720/месяц (~72 000₽)
BigQuery (flat-rate, 100 слотов):
Слоты: $2000/месяц
Хранение: $100/месяц
Итого: $2100/месяц (~210 000₽)
ClickHouse (Yandex Cloud, кластер 3 ноды):
3 ноды s2.medium (8 vCPU, 32 GB): 3 x 11.2₽/час x 730 = 24 528₽/месяц
Хранение 5 TB с репликацией (x2): 10 000 GB x 6₽ = 60 000₽/месяц
Итого: ~85 000₽/месяц
Вердикт: ClickHouse дешевле на 15-60% в зависимости от модели BigQuery.
Сценарий 3: Enterprise, 100 TB данных, постоянная высокая нагрузка
BigQuery (flat-rate, 500 слотов):
Слоты: $10 000/месяц
Хранение: 100 000 GB x $0.02 = $2000/месяц
Итого: $12 000/месяц (~1.2 млн руб)
ClickHouse (self-hosted, кластер 10 нод):
10 серверов bare metal (16 cores, 128 GB RAM, 10TB SSD): 10 x 30 000₽ = 300 000₽/месяц
Инженеры (2 дата-инженера): 2 x 250 000₽ = 500 000₽/месяц
Мониторинг, резервное копирование: 50 000₽/месяц
Итого: ~850 000₽/месяц
Вердикт: ClickHouse дешевле на 30% даже с учётом зарплат инженеров.
Скрытые затраты ClickHouse
Время инженеров: Настройка, оптимизация, поддержка
Обучение команды: Аналитики должны изучить ClickHouse SQL
Мониторинг: Prometheus, Grafana, alerting
Резервное копирование: S3 или аналог для бэкапов
Скрытые затраты BigQuery
Неоптимальные запросы: Можно случайно сканировать петабайты и получить счёт на тысячи долларов
Egress: Экспорт данных из BigQuery стоит денег
BI Engine: Дополнительная плата за кэширование
Итоговая таблица стоимости
| Объём данных | BigQuery (оценка) | ClickHouse (оценка) | Разница |
|---|---|---|---|
| 100 GB | 500₽/мес | 2 600₽/мес | BQ дешевле в 5x |
| 1 TB | 10 000₽/мес | 15 000₽/мес | BQ дешевле в 1.5x |
| 5 TB | 72 000₽/мес | 85 000₽/мес | Сопоставимо |
| 50 TB | 600 000₽/мес | 400 000₽/мес | CH дешевле в 1.5x |
| 100+ TB | 1 200 000₽/мес | 850 000₽/мес | CH дешевле в 1.4x |
Точка безубыточности: Примерно 3-5 TB данных. Ниже — BigQuery выгоднее. Выше — ClickHouse.
10. Производительность: бенчмарки и оптимизация
ClickBench: независимое сравнение
ClickBench — открытый бенчмарк от создателей ClickHouse. 43 запроса на датасете 100 млн строк (события кликов).
Результаты 2024 (среднее время на запрос):
ClickHouse: 0.05 сек
BigQuery: 1.5 сек
PostgreSQL: 120 сек
ClickHouse быстрее BigQuery в 30 раз на этом бенчмарке.
Но: Бенчмарк сделан создателями ClickHouse, возможна оптимизация под свою СУБД. BigQuery не специально настроен.
Независимое тестирование (Firebolt, 2023):
100 аналитических запросов на 1 TB данных. Обе системы оптимизированы.
ClickHouse: 85% запросов быстрее BigQuery
BigQuery: 15% запросов быстрее (сложные JOIN)
Средняя разница: ClickHouse быстрее в 2-3 раза
Что влияет на производительность ClickHouse
1. Ключ сортировки (ORDER BY)
Данные физически сортируются по указанному ключу. Запросы с фильтрацией по этому ключу — мгновенные.
CREATE TABLE events (
user_id UInt64,
event_time DateTime,
event_type String
) ENGINE = MergeTree()
ORDER BY (user_id, event_time);Запрос WHERE user_id = 123 — очень быстрый. Запрос WHERE event_type = 'click' — медленнее (нет в ключе).
2. Партиционирование
Разделение данных по партициям (обычно по дате). Запросы с фильтрацией по партициям читают только нужные части.
CREATE TABLE events (...)
ENGINE = MergeTree()
PARTITION BY toYYYYMM(event_time)
ORDER BY (user_id, event_time);3. Материализованные представления
Преагрегированные данные. Запрос к агрегатам выполняется за миллисекунды.
CREATE MATERIALIZED VIEW daily_stats
ENGINE = SummingMergeTree()
ORDER BY (date, event_type)
AS SELECT
toDate(event_time) as date,
event_type,
count() as count
FROM events
GROUP BY date, event_type;4. Сжатие
LZ4 (по умолчанию) — быстрое сжатие/распаковка. ZSTD — сильнее сжимает, но медленнее. Выбор зависит от приоритета: скорость или место.
Что влияет на производительность BigQuery
1. Партиционирование
Таблицы партиционируются автоматически или вручную по дате/timestamp. Запросы с фильтром по партициям дешевле и быстрее.
CREATE TABLE events
PARTITION BY DATE(event_time)
AS SELECT * FROM source;2. Кластеризация
Данные сортируются по указанным колонкам внутри партиций. Ускоряет фильтрацию.
CREATE TABLE events
PARTITION BY DATE(event_time)
CLUSTER BY user_id
AS SELECT * FROM source;3. BI Engine
Встроенный кэш для частых запросов. Платный (от $0.06/GB/час), но ускоряет дашборды до <100мс.
4. Оптимизация запросов
BigQuery автоматически оптимизирует запросы. Но можно помочь:
Избегать
SELECT *, выбирать только нужные колонкиФильтровать по партициям
Использовать APPROX функции вместо точных где возможно
Типы запросов: кто быстрее
| Тип запроса | Быстрее | Разница |
|---|---|---|
| Простая агрегация (SUM, COUNT) | ClickHouse | 2-5x |
| Фильтрация + GROUP BY | ClickHouse | 2-3x |
| JOIN двух больших таблиц | BigQuery | 1.5-2x |
| Сложные вложенные подзапросы | BigQuery | 1.3-1.5x |
| Оконные функции | BigQuery | 2x |
| Запросы на петабайтах | BigQuery | 2-3x |
| Real-time запросы (<10мс) | ClickHouse | 10-50x |
11. Экосистема и интеграции
BigQuery экосистема
Визуализация и BI:
Looker (Google): Нативная интеграция, enterprise BI
Looker Studio (бывший Data Studio): Бесплатная визуализация от Google
Tableau, Power BI: Коннекторы работают отлично
Metabase, Redash: Опенсорс BI с поддержкой BigQuery
ETL и оркестрация:
Dataflow (Apache Beam): Serverless ETL от Google
Airflow: Популярная оркестрация, нативные операторы для BigQuery
Fivetran, Airbyte: Managed ETL с коннекторами к сотням источников
dbt: Трансформация данных, работает с BigQuery из коробки
Машинное обучение:
BigQuery ML: Обучение моделей прямо в SQL
Vertex AI: Продвинутый ML от Google, работает с BigQuery
TensorFlow Extended: Пайплайны ML production-grade
Источники данных:
Google Analytics 4: Автоматический экспорт в BigQuery
Google Ads: Данные кампаний напрямую в BQ
Firebase: События приложений
YouTube Analytics: Метрики видео
ClickHouse экосистема
Визуализация и BI:
DataLens (Yandex): Бесплатная визуализация, нативная интеграция
Grafana: Популярный выбор для дашбордов, плагин для ClickHouse
Superset (Apache): Опенсорс BI, хорошо работает с CH
Metabase: Простой BI инструмент
Redash: SQL-first BI
ETL и оркестрация:
Airflow: Де-факто стандарт оркестрации
dbt: С версии 1.0 поддерживает ClickHouse
Airbyte: Коннекторы к ClickHouse
Vector: Высокопроизводительный агент для логов и метрик
Источники данных:
Kafka: Нативный движок Kafka в ClickHouse
PostgreSQL/MySQL: Федеративные запросы через движки
S3: Прямое чтение из S3 без загрузки
MongoDB: Интеграция через движок MongoDB
Мониторинг:
Prometheus + Grafana: Стандартный стек мониторинга
ClickHouse Keeper: Координация кластера (замена ZooKeeper)
Altinity Kubernetes Operator: Управление CH в Kubernetes
Языки программирования (драйверы):
| Язык | BigQuery | ClickHouse |
|---|---|---|
| Python | google-cloud-bigquery | clickhouse-driver |
| JavaScript/Node.js | @google-cloud/bigquery | clickhouse (npm) |
| Java | google-cloud-bigquery | clickhouse-jdbc |
| Go | cloud.google.com/go/bigquery | clickhouse-go |
| PHP | google/cloud-bigquery | smi2/phpClickHouse |
Сравнение зрелости экосистем
BigQuery: Богаче, особенно в Google Cloud экосистеме. Все сервисы Google работают с BQ нативно. Больше enterprise инструментов.
ClickHouse: Растущая экосистема. Сильны опенсорс инструменты. Меньше enterprise решений, но достаточно для большинства задач.
12. Чек-лист выбора СУБД для аналитики
Шаг 1: Оцените текущее состояние (1 неделя)
☐ Объём данных сейчас и прогноз на год-два
☐ Типы запросов: агрегации, JOIN, real-time или batch
☐ Частота запросов: постоянная нагрузка или периодическая
☐ Текущая база: если есть, на чём сейчас, какие проблемы
☐ Команда: есть ли дата-инженеры, опыт с какими СУБД
Шаг 2: Определите критичные требования
Функциональные требования:
☐ Нужна минимальная латентность (<10мс) → ClickHouse
☐ Работа с петабайтами данных → BigQuery
☐ Real-time вставки критичны → ClickHouse
☐ Сложные JOIN на больших таблицах → BigQuery
☐ Машинное обучение на данных → BigQuery ML
Нефункциональные требования:
☐ Минимальная операционная нагрузка → BigQuery
☐ Контроль над конфигурацией → ClickHouse
☐ Работа в России без рисков → ClickHouse
☐ Интеграция с Google сервисами → BigQuery
☐ Нет vendor lock-in → ClickHouse
Шаг 3: Рассчитайте стоимость
BigQuery:
Объём хранения x $0.02/GB = стоимость хранения
Объём сканируемых данных/месяц x $6.25/TB = стоимость запросов (on-demand)
Или flat-rate: количество слотов x $20 = месячная стоимость
Итого + 10-20% на egress, BI Engine
ClickHouse (управляемый):
Размер кластера под ваши данные (калькулятор Yandex Cloud)
Количество нод x цена ноды x 730 часов = стоимость вычислений
Объём данных x коэффициент репликации x цена хранения = стоимость хранения
Итого + резервное копирование
ClickHouse (self-hosted):
Стоимость серверов или виртуалок
Зарплата инженеров (1-2 человека для поддержки)
Мониторинг, резервное копирование
Шаг 4: Проведите тестирование (2-4 недели)
☐ Создать тестовый кластер/проект
☐ Загрузить реальные данные (хотя бы часть)
☐ Написать типичные запросы
☐ Измерить производительность
☐ Оценить удобство разработки
☐ Протестировать интеграции с BI инструментами
Шаг 5: Принять решение
Выбирайте BigQuery если:
Нет команды для управления базами ИЛИ
Объёмы <1 TB ИЛИ
Нужна интеграция с Google Analytics/Ads ИЛИ
Нагрузка непредсказуемая ИЛИ
Компания не в России
Выбирайте ClickHouse если:
Критична скорость ИЛИ
Постоянная высокая нагрузка ИЛИ
Объёмы >5 TB ИЛИ
Есть команда инженеров ИЛИ
Работаете в России ИЛИ
Важна независимость от вендора
План внедрения BigQuery (1-2 недели)
Создать проект в Google Cloud
Создать датасеты
Загрузить данные (batch или streaming)
Написать запросы
Подключить BI инструменты
Настроить мониторинг затрат
План внедрения ClickHouse (1-2 месяца)
Выбор: Управляемый (Yandex/VK) или self-hosted
Настройка кластера: Количество нод, конфигурация, репликация
Проектирование схемы: Движки таблиц, ключи сортировки, партиции
Загрузка данных: Batch или потоковая через Kafka
Оптимизация: Материализованные представления, настройка производительности
Мониторинг: Prometheus + Grafana
Резервное копирование: Настройка бэкапов в S3
Критичные ошибки при выборе
Выбор по хайпу: «Все используют ClickHouse, давайте и мы». Выбирайте под задачу.
Недооценка операционной сложности: ClickHouse требует экспертизы. Без инженеров будет больно.
Игнорирование санкций: BigQuery в РФ — риск. Планируйте альтернативы.
Нет тестирования: Протестируйте на реальных данных перед production.
Экономия на конфигурации: Слишком маленький кластер ClickHouse будет тормозить.
Главное правило
Нет универсального ответа «что лучше». BigQuery и ClickHouse решают похожие задачи по-разному. BigQuery — простота и масштаб без усилий. ClickHouse — скорость и контроль при наличии экспертизы.
Для российских компаний в 2026 выбор часто предопределён санкциями: ClickHouse доступен без рисков, BigQuery — в серой зоне. Если бы не геополитика, выбор был бы сложнее.
Правильный подход: чётко определить требования, протестировать обе системы на реальных данных, посчитать реальную стоимость с учётом скрытых затрат. Тогда выбор станет очевидным.
«BigQuery vs ClickHouse — это не битва технологий. Это выбор между удобством и контролем, между serverless и self-managed, между экосистемой Google и независимостью. Выбирайте что соответствует вашим приоритетам» — из доклада на Data Fest 2025
А лучшие вакансии для аналитиков ищите на hirehi.ru