BigQuery vs ClickHouse: какую СУБД выбрать для аналитики больших данных в России

BigQuery vs ClickHouse: какую СУБД выбрать для аналитики больших данных в России

Пятница вечер. Отчёт за месяц висит полтора часа. Таблица на 500 миллионов строк. PostgreSQL задыхается. Индексы не помогают. Менеджмент ждёт цифры. Аналитик в отчаянии пишет в чат: «Нужна нормальная база для аналитики».

Та же компания через месяц. Та же таблица, тот же запрос. Результат за 3 секунды. Аналитики строят дашборды в реальном времени. Данные обновляются каждую минуту. Менеджмент доволен. Разница — правильная СУБД для аналитических нагрузок.

PostgreSQL, MySQL — отличные транзакционные базы. Но для аналитики больших объёмов они не созданы. Когда таблицы переваливают за сотни миллионов строк, а запросы сканируют терабайты данных, нужны специализированные решения — колоночные аналитические СУБД.

В 2026 году два лидера рынка аналитических баз: Google BigQuery и ClickHouse. BigQuery — управляемое облачное решение от Google, serverless архитектура, платишь за запросы. ClickHouse — опенсорсная колоночная СУБД, можно развернуть где угодно, контроль над железом и стоимостью.

Для российских компаний выбор осложняется санкциями. Google Cloud недоступен напрямую. BigQuery работает через VPN и прокси, но это серая зона. ClickHouse — российская разработка изначально (Яндекс), полностью доступен, множество управляемых сервисов в российских облаках.

Эта статья — практическое сравнение BigQuery и ClickHouse. Что такое колоночные СУБД и почему они быстрее. Архитектура обеих систем. Детальное сравнение по производительности, стоимости, удобству. Российская специфика: доступность, альтернативы, облачные сервисы. Когда выбирать что. Реальные кейсы. С цифрами, бенчмарками, таблицами. Без маркетинговой воды про «революционные технологии».

1. Что такое колоночные СУБД и зачем они нужны

Проблема транзакционных баз для аналитики

Традиционные СУБД (PostgreSQL, MySQL) — строковые. Данные хранятся построчно. Для транзакций (вставка, обновление одной записи) это оптимально. Для аналитики (агрегация миллионов строк) — катастрофа.

Пример. Таблица событий: user_id, event_type, timestamp, country, revenue. 100 миллионов строк. Нужна статистика по странам.

Строковое хранение (PostgreSQL):

SELECT country, SUM(revenue) 
FROM events 
GROUP BY country;

База читает все 100 миллионов строк полностью, потому что данные лежат построчно. Даже если нужны только 2 колонки из 10, читаются все колонки. Время выполнения: 30-60 секунд.

Колоночное хранение (ClickHouse/BigQuery):

Данные хранятся по колонкам. Колонка country лежит отдельно, revenue отдельно. База читает только нужные колонки. Плюс колонки отлично сжимаются (много повторяющихся значений).

Тот же запрос: 1-3 секунды. В 10-30 раз быстрее.

Что такое OLAP

OLAP (Online Analytical Processing) — системы для аналитической обработки данных. В отличие от OLTP (Online Transaction Processing — транзакционные системы).

OLTP: много мелких операций (вставка, обновление записей), низкая латентность, данные часто меняются.

OLAP: мало больших операций (агрегации, фильтрация больших объёмов), высокая пропускная способность, данные в основном добавляются.

Когда нужна колоночная СУБД

  • Таблицы >100 млн строк

  • Нужны быстрые агрегации (SUM, COUNT, AVG по миллионам записей)

  • Запросы сканируют много строк но мало колонок

  • Данные в основном добавляются (append-only), редко обновляются

  • Нужна высокая скорость загрузки данных

  • Аналитические дашборды, отчёты, BI-инструменты

Когда НЕ нужна

  • Много операций UPDATE/DELETE отдельных записей

  • Нужны транзакции с ACID гарантиями

  • Данные постоянно меняются

  • Таблицы маленькие (<10 млн строк)

  • Бюджет критичен, а объёмы небольшие

Альтернативы колоночным СУБД

Не BigQuery и ClickHouse — единственные варианты для аналитики. Есть:

  • Apache Druid: Real-time аналитика, быстрые агрегации

  • Apache Pinot: Для OLAP в реальном времени

  • Amazon Redshift: Управляемое хранилище данных AWS

  • Snowflake: Облачное хранилище данных

  • Greenplum: Массивно-параллельная СУБД на PostgreSQL

Но BigQuery и ClickHouse — лидеры по популярности в 2026. BigQuery — де-факто стандарт в Google Cloud. ClickHouse — самая быстрая опенсорсная колоночная СУБД.

2. Google BigQuery: serverless хранилище данных в облаке

Что такое BigQuery

BigQuery — полностью управляемое serverless хранилище данных от Google. Запущен в 2011. Архитектура: разделение хранения и вычислений. Данные хранятся в Google Storage, запросы выполняются динамически выделенными ресурсами.

Ключевая особенность: не нужно управлять серверами, кластерами, масштабированием. Загружаешь данные, пишешь SQL, получаешь результат. Google сам распределяет вычисления, масштабирует, оптимизирует.

Архитектура BigQuery

1. Colossus (хранилище)

Данные хранятся в распределённой файловой системе Colossus (эволюция Google File System). Колоночный формат Capacitor. Автоматическая репликация, шифрование, сжатие.

2. Dremel (вычислительный движок)

Распределённая система выполнения запросов. Использует технологию дерева агрегации: запрос разбивается на тысячи параллельных задач, результаты агрегируются.

3. Borg (оркестрация)

Динамическое выделение вычислительных ресурсов. При запуске запроса BigQuery автоматически выделяет нужное количество процессоров.

Модель данных

Таблицы, датасеты (аналог схем в SQL), проекты. SQL-like язык запросов (Google Standard SQL). Поддержка вложенных и повторяющихся полей (legacy структур Protocol Buffers).

Основные возможности

1. Автоматическое масштабирование

Запросы параллелятся на тысячи узлов автоматически. Не нужно настраивать шардирование, партиционирование кластера.

2. Интеграция с экосистемой Google

Нативная работа с Google Analytics, Google Ads, Firebase. ETL через Dataflow, визуализация в Looker/Data Studio. ML модели через BigQuery ML.

3. Федеративные запросы

Возможность делать запросы к данным в Google Cloud Storage, Bigtable, Google Sheets без загрузки в BigQuery.

4. Streaming вставки

Загрузка данных в реальном времени через Streaming API. Данные доступны для запросов практически мгновенно.

5. Машинное обучение (BigQuery ML)

Создание и обучение ML моделей прямо в SQL. Линейная регрессия, логистическая регрессия, кластеризация, рекомендательные системы.

6. BI Engine

Встроенный кэш для интерактивной аналитики. Ускоряет дашборды в Looker/Data Studio до миллисекундных ответов.

Ценообразование

Две модели:

On-demand (по требованию):

Платишь за объём данных обработанных запросами. $6.25 за 1 TB в регионе US, $7.50 в других регионах. Первый 1 TB в месяц бесплатно.

Flat-rate (фиксированная ставка):

Покупаешь слоты (единицы вычислительной мощности). 100 слотов = $2000/месяц. Unlimited запросы в рамках купленной мощности. Выгодно при постоянной высокой нагрузке.

Хранение: $0.02 за GB в месяц (активное), $0.01 за GB (архивное, >90 дней без изменений).

Преимущества BigQuery

  • Нулевая операционная нагрузка: Не нужны админы баз данных, не нужно управлять железом

  • Мгновенное масштабирование: От гигабайтов до петабайтов без изменения конфигурации

  • Высокая скорость запросов: Петабайтные запросы за секунды благодаря массивному параллелизму

  • Интеграция с Google Cloud: Работает из коробки с Analytics, Ads, ML платформами

  • Безопасность: Шифрование, IAM, аудит, соответствие стандартам (ISO, SOC, HIPAA)

  • BI движок: Быстрые дашборды без доп настроек

Недостатки BigQuery

  • Стоимость при больших объёмах: On-demand дорожает с ростом данных, flat-rate требует планирования

  • Привязка к Google Cloud: Vendor lock-in, миграция сложная

  • Ограниченный контроль: Нельзя тюнить производительность на низком уровне

  • Проблемы с доступом из России: Санкции, нужны VPN/прокси

  • Латентность небольших запросов: Overhead на инициализацию, простые запросы могут быть медленнее чем в ClickHouse

3. ClickHouse: опенсорсная колоночная СУБД для real-time аналитики

Что такое ClickHouse

ClickHouse — колоночная СУБД для онлайн аналитики. Разработана Яндексом в 2009 для Яндекс.Метрики. Открыт в 2016. С 2021 — под управлением ClickHouse Inc (отделилась от Яндекса).

Архитектура: shared-nothing, данные и вычисления на одних узлах. Можно развернуть на собственных серверах, в любом облаке, в контейнерах. Полный контроль над конфигурацией и оптимизацией.

Архитектура ClickHouse

1. Колоночное хранилище

Данные хранятся по колонкам в сжатом виде. Алгоритмы сжатия: LZ4 (по умолчанию), ZSTD, Delta, Gorilla для временных рядов. Коэффициент сжатия 3-10x в зависимости от данных.

2. MergeTree движки

Семейство табличных движков для аналитики. MergeTree — базовый, данные сортируются по ключу, автоматически мержатся в фоне. ReplicatedMergeTree — с репликацией. ReplacingMergeTree, SummingMergeTree — для дедупликации и преагрегации.

3. Векторизованные вычисления

Обработка данных блоками через SIMD инструкции процессора. Вместо построчной обработки — batch операции над тысячами значений одновременно.

4. Распределённые запросы

Таблица Distributed — виртуальная прокси-таблица поверх шардированных данных. Запрос автоматически распределяется по шардам, результаты агрегируются.

Модель данных

Таблицы, базы данных. SQL-like язык с расширениями. Строгая типизация. Поддержка массивов, вложенных структур, JSON. Материализованные представления для преагрегации.

Основные возможности

1. Экстремальная скорость

Обработка миллиардов строк в секунду на одном сервере. Запросы на агрегацию часто выполняются быстрее чем в BigQuery благодаря оптимизациям на уровне железа.

2. Real-time вставки

Данные доступны для запросов сразу после вставки. Нет задержек как в batch системах. INSERT выполняется за миллисекунды.

3. Гибкая конфигурация

Полный контроль над партиционированием, сортировкой, сжатием, кэшированием. Можно тюнить под конкретную нагрузку.

4. Материализованные представления

Преагрегированные данные обновляются автоматически при вставке. Запросы к агрегатам выполняются мгновенно.

5. Встроенная репликация и шардирование

ReplicatedMergeTree для отказоустойчивости. Distributed таблицы для горизонтального масштабирования.

6. Интеграции

Коннекторы к Kafka, PostgreSQL, MySQL, MongoDB, S3. Можно делать федеративные запросы к внешним источникам.

Ценообразование

ClickHouse опенсорсный. Можно развернуть бесплатно на своих серверах.

Затраты при self-hosted:

  • Железо или виртуалки

  • Время инженеров на настройку и поддержку

  • Мониторинг, резервное копирование

Управляемые сервисы:

  • ClickHouse Cloud (от ClickHouse Inc): $0.26-0.65/час за узел в зависимости от размера

  • Yandex Managed ClickHouse: От 2.8₽/час за минимальную конфигурацию

  • Altinity.Cloud: От $0.50/час за узел

  • DoubleCloud: От €0.10/час за узел

Преимущества ClickHouse

  • Скорость: Один из самых быстрых движков для аналитики, обходит BigQuery на многих бенчмарках

  • Контроль и гибкость: Полная настройка под нагрузку

  • Экономичность: При правильной настройке дешевле BigQuery

  • Нет vendor lock-in: Опенсорс, можно мигрировать между облаками

  • Доступность в России: Российская разработка, управляемые сервисы в РФ

  • Real-time: Данные доступны мгновенно после вставки

Недостатки ClickHouse

  • Операционная сложность: Нужно управлять кластером, настраивать репликацию, мониторинг

  • Кривая обучения: Специфичный SQL, особенности движков, нужна экспертиза

  • Нет ACID: Eventual consistency при репликации, удаления не atomic

  • Нет автоматического масштабирования: Нужно планировать мощность кластера

  • Меньше интеграций: Не такая богатая экосистема как у Google Cloud

«ClickHouse создан для скорости. BigQuery создан для удобства. Выбор зависит от того что важнее: контроль и производительность или простота и интеграция» — из доклада на HighLoad++ 2024

4. BigQuery vs ClickHouse: детальное сравнение

КритерийBigQueryClickHouse
ТипУправляемый облачный сервисОпенсорсная СУБД
АрхитектураServerless, разделение хранения и вычисленийShared-nothing, всё на одних узлах
УстановкаНе требуется, работает сразуНужно развернуть и настроить
МасштабированиеАвтоматическое, до петабайтовРучное, добавление узлов в кластер
Скорость запросовВысокая на больших данныхЭкстремально высокая, часто быстрее
Латентность100-500мс минимум (overhead)1-10мс для простых запросов
Real-time вставкиStreaming API, небольшая задержкаМгновенная доступность
SQL диалектGoogle Standard SQLClickHouse SQL (похож на ANSI)
Стоимость малых объёмовНизкая (бесплатный уровень)Выше (нужен сервер)
Стоимость больших объёмовВысокая (по запросам)Ниже при оптимизации
Операционная сложностьМинимальнаяВысокая
Vendor lock-inСильная привязка к GoogleНет, опенсорс
Доступность в РФПроблематична (санкции)Полная, российские сервисы
ИнтеграцииБогатая экосистема GoogleМеньше, но универсальные
ML возможностиBigQuery ML встроенНет встроенного ML

Производительность

По данным независимых бенчмарков (ClickBench 2024):

Запросы на агрегацию (100 млн строк):

  • ClickHouse: 0.02-0.5 сек

  • BigQuery: 0.5-2 сек

Запросы на фильтрацию + JOIN:

  • ClickHouse: 0.1-1 сек

  • BigQuery: 1-3 сек

Запросы на петабайтных данных:

  • BigQuery: 2-10 сек (массивный параллелизм)

  • ClickHouse: 5-15 сек (зависит от размера кластера)

ClickHouse быстрее на большинстве запросов до масштабов терабайтов. На петабайтных данных BigQuery выигрывает за счёт автоматического распределения на тысячи узлов.

Удобство разработки

BigQuery:

  • Пишешь SQL, получаешь результат

  • Не думаешь об индексах, партициях, оптимизации

  • Автоматические рекомендации по оптимизации

  • Веб-консоль с подсветкой, автодополнением

ClickHouse:

  • Нужно думать о движках таблиц, ключах сортировки

  • Партиционирование настраивается вручную

  • Материализованные представления для оптимизации

  • Требует понимания архитектуры

Вердикт: BigQuery проще для аналитиков без глубоких технических знаний. ClickHouse требует экспертизу инженеров данных.

Когда BigQuery быстрее

  • Очень большие объёмы (петабайты)

  • Сложные JOIN на больших таблицах

  • Нерегулярная нагрузка (редкие тяжёлые запросы)

Когда ClickHouse быстрее

  • Постоянная высокая нагрузка

  • Простые агрегации на сотнях миллионов строк

  • Нужна минимальная латентность

  • Данные можно хорошо партиционировать

5. Российская специфика: санкции и альтернативы

Проблемы с BigQuery в России 2026

Google Cloud приостановил работу с российскими компаниями в 2022. Текущая ситуация:

1. Новые клиенты

Зарегистрироваться на Google Cloud с российскими реквизитами нельзя. Нужны зарубежные юрлица, карты других стран.

2. Существующие клиенты

Те кто работали до санкций — продолжают. Но Google может заблокировать в любой момент. Это риск.

3. Оплата

Российские карты не работают. Нужны зарубежные счета или посредники.

4. Техническая доступность

Сервисы Google доступны через VPN. API работают. Но это серая зона, официально не поддерживается.

Риски использования BigQuery в РФ:

  • Блокировка аккаунта без предупреждения

  • Потеря доступа к данным

  • Юридические риски обхода санкций

  • Невозможность получить поддержку

ClickHouse в России

Полная доступность. Множество вариантов развёртывания:

1. Yandex Managed Service for ClickHouse

Управляемый ClickHouse от Яндекс.Облака. Самый популярный вариант в РФ.

Особенности:

  • Автоматическое резервное копирование

  • Мониторинг из коробки

  • Автоматические обновления

  • Техподдержка на русском

  • Интеграция с DataLens (аналог Google Data Studio)

Цены: от 2.8₽/час за конфигурацию s2.micro (2 vCPU, 8GB RAM). Конфигурация под 1TB данных: ~50-70 тыс руб/месяц.

2. VK Cloud (бывший Mail.ru Cloud)

ClickHouse as a Service. Похожие функции как у Яндекса, цены сопоставимые.

3. Self-hosted в российских ЦОД

Развёртывание на своих серверах или аренда bare metal в российских дата-центрах (Selectel, DataLine, NORD).

Плюсы: полный контроль, данные в РФ.

Минусы: нужна команда для управления.

4. DoubleCloud

Управляемый ClickHouse от бывших сотрудников Яндекса. Работает в разных облаках, есть присутствие в РФ.

Сравнение управляемых ClickHouse в РФ

ПровайдерМинимальная ценаРезервное копированиеПоддержкаРегионы
Yandex Cloud2.8₽/часДа, автоматическое24/7 на русскомМосква, Владимир, Казахстан
VK Cloud~3₽/часДа24/7 на русскомМосква
DoubleCloud€0.10/час (~10₽)ДаEmail/SlackЕвропа, США, опционально РФ

Альтернативы для тех кто не может уйти с BigQuery

Если критична интеграция с Google экосистемой:

1. Работать через зарубежное юрлицо

Открыть компанию в дружественной юрисдикции (Армения, Казахстан, ОАЭ), работать через неё. Но это сложно и дорого.

2. Использовать прокси-сервисы

Компании-посредники которые предоставляют доступ к Google Cloud. Берут комиссию 10-20%. Риск: могут закрыться, данные у третьей стороны.

3. Мигрировать на Snowflake или Databricks

Облачные хранилища данных доступные из РФ (через партнёров). Дороже ClickHouse, но проще чем миграция архитектуры.

Рекомендации для российских компаний

  • Новые проекты: Однозначно ClickHouse (управляемый Yandex/VK или self-hosted)

  • Уже на BigQuery: Планируйте миграцию, это риск. Если критично — зарубежное юрлицо

  • Гибридный подход: ClickHouse для основной аналитики, BigQuery через VPN для интеграций с Google Analytics (пока работает)

«После февраля 2022 мы за 3 месяца мигрировали с BigQuery на ClickHouse в Яндекс.Облаке. Ожидали боли, получили ускорение запросов в 2 раза и сокращение расходов на 40%» — дата-инженер e-commerce компании

6. Когда выбирать BigQuery, когда ClickHouse

Выбирайте BigQuery если:

  • ☐ Работаете в Google Cloud экосистеме (Analytics, Ads, Firebase)

  • ☐ Нет команды для управления базами данных

  • ☐ Нужна максимальная простота без операционной нагрузки

  • ☐ Данные будут расти до петабайтов

  • ☐ Нагрузка непредсказуемая (иногда тяжёлые запросы, иногда тишина)

  • ☐ Нужен встроенный ML (BigQuery ML)

  • ☐ Небольшие объёмы (<1 TB) — бесплатный уровень

  • ☐ Компания не в России или есть зарубежное юрлицо

Выбирайте ClickHouse если:

  • ☐ Критична максимальная скорость запросов

  • ☐ Постоянная высокая нагрузка

  • ☐ Есть команда инженеров данных

  • ☐ Нужен контроль над конфигурацией и оптимизацией

  • ☐ Бюджет ограничен, объёмы большие (>10 TB)

  • ☐ Нужна минимальная латентность (real-time дашборды)

  • ☐ Важна независимость от вендора

  • ☐ Работаете в России или хотите избежать санкционных рисков

  • ☐ Данные можно хорошо партиционировать

Матрица принятия решений

СценарийРекомендацияПочему
Стартап, MVP, <1TB данныхBigQueryБесплатный уровень, быстрый старт
Средний бизнес, 5-50TB, команда естьClickHouseЭкономия, контроль
Крупная компания, >100TB, в Google CloudBigQueryМасштаб, интеграция
E-commerce, real-time аналитикаClickHouseСкорость, латентность
Работа с Google AnalyticsBigQueryНативная интеграция
Российская компания, любой размерClickHouseДоступность, нет рисков
Логи, метрики, события IoTClickHouseОптимизация под time-series
Дата-сайнс, ML экспериментыBigQueryBigQuery ML

Гибридный подход

Некоторые компании используют обе СУБД:

  • BigQuery: Для редких тяжёлых аналитических запросов, интеграции с Google сервисами

  • ClickHouse: Для продакшн дашбордов, real-time метрик, частых запросов

Данные синхронизируются между системами через ETL (Airflow, Airbyte).

Плюсы: Используете сильные стороны обеих.

Минусы: Сложность архитектуры, двойные расходы.

7. Миграция с BigQuery на ClickHouse

Почему мигрируют

Основные причины миграции с BigQuery на ClickHouse:

  • Снижение стоимости (30-50% экономии)

  • Ускорение запросов (2-5x)

  • Уход от санкционных рисков

  • Необходимость контроля над данными

Этапы миграции

Этап 1: Аудит и планирование (1-2 недели)

  1. Инвентаризация: какие таблицы, объёмы, зависимости

  2. Анализ запросов: какие используются, как часто

  3. Оценка сложности SQL: что нужно переписать

  4. Расчёт необходимых ресурсов ClickHouse

Этап 2: Настройка ClickHouse (1 неделя)

  1. Выбор управляемого сервиса или self-hosted

  2. Создание кластера (размер зависит от объёмов)

  3. Настройка репликации и резервного копирования

  4. Настройка мониторинга

Этап 3: Миграция схемы (1-2 недели)

  1. Создание таблиц в ClickHouse

  2. Выбор движков (MergeTree, ReplacingMergeTree)

  3. Определение ключей сортировки, партиционирования

  4. Создание материализованных представлений для агрегатов

Различия в типах данных:

BigQueryClickHouse
INT64Int64
FLOAT64Float64
STRINGString
TIMESTAMPDateTime или DateTime64
ARRAYArray(Type)
STRUCTNested или Tuple

Этап 4: Миграция данных (зависит от объёма)

Варианты переноса данных:

1. Экспорт в CSV/Parquet + загрузка

-- BigQuery: экспорт
EXPORT DATA OPTIONS(
  uri='gs://bucket/data-*.parquet',
  format='PARQUET'
) AS
SELECT * FROM dataset.table;

-- ClickHouse: загрузка
INSERT INTO table 
FROM INFILE 'data.parquet' 
FORMAT Parquet;

Скорость: 50-200 GB/час в зависимости от канала.

2. Через Airbyte или Fivetran

ETL инструменты с коннекторами BigQuery → ClickHouse. Проще настроить, но платные.

3. Потоковая репликация через Kafka

Для минимизации простоя: пишем в BigQuery и Kafka параллельно, ClickHouse читает из Kafka.

Этап 5: Адаптация SQL запросов (2-4 недели)

BigQuery SQL ≠ ClickHouse SQL. Основные различия:

1. Диалект

BigQuery использует Google Standard SQL. ClickHouse — свой диалект, близкий к ANSI SQL.

Пример BigQuery:

SELECT 
  DATE(timestamp) as date,
  COUNT(*) as events
FROM `project.dataset.table`
WHERE timestamp >= TIMESTAMP('2024-01-01')
GROUP BY date;

ClickHouse:

SELECT 
  toDate(timestamp) as date,
  COUNT(*) as events
FROM table
WHERE timestamp >= '2024-01-01'
GROUP BY date;

2. Функции

Многие функции имеют разные названия:

BigQueryClickHouse
DATE(timestamp)toDate(timestamp)
TIMESTAMP_DIFFdateDiff
ARRAY_AGGgroupArray
APPROX_QUANTILESquantile

3. Оконные функции

ClickHouse поддерживает, но синтаксис может отличаться. Сложные оконные функции работают медленнее чем в BigQuery.

Этап 6: Тестирование (1-2 недели)

  1. Запустить критичные запросы параллельно в обеих СУБД

  2. Сверить результаты

  3. Измерить производительность

  4. Нагрузочное тестирование

Этап 7: Переключение (1 день - 1 неделя)

Стратегии:

Big Bang: Переключаемся сразу. Рискованно, но быстро.

Постепенная миграция: Переводим по одному дашборду/пайплайну. Безопаснее, дольше.

Parallel run: Работаем параллельно 1-2 недели, сверяем результаты, потом отключаем BigQuery.

Типичные проблемы миграции

  • Вложенные структуры: BigQuery STRUCT vs ClickHouse Nested — разные модели

  • Производительность JOIN: В ClickHouse нужно думать о порядке таблиц в JOIN

  • Партиционирование: В BigQuery автоматическое, в ClickHouse нужно настроить вручную

  • Материализованные представления: Логика обновления отличается

Сроки и бюджет

Для компании с 50TB данных в BigQuery, 20 основных таблиц, 50 дашбордов:

  • Время: 2-3 месяца

  • Команда: 2 дата-инженера + 1 дата-аналитик

  • Стоимость работ: 1.5-2 млн руб (если своя команда — их время)

  • Инфраструктура: 50-100 тыс руб/месяц на ClickHouse кластер

8. Реальные кейсы российских компаний

Кейс 1: E-commerce на ClickHouse (интернет-магазин)

Компания: Крупный российский интернет-магазин, 5 млн заказов в месяц.

Задача: Real-time аналитика продаж, когортный анализ пользователей, продуктовые рекомендации.

Было: PostgreSQL для транзакций + MySQL для отчётов. Отчёты строились часами, агрегации тормозили.

Решение: ClickHouse в Yandex Cloud. 3 ноды, 16 vCPU / 64 GB RAM каждая.

Архитектура:

  • События (клики, просмотры, заказы) стримятся в Kafka

  • ClickHouse читает из Kafka через Kafka Engine

  • Материализованные представления для преагрегации метрик

  • Дашборды в DataLens обновляются каждую минуту

Результаты:

  • Время построения отчётов: с 2 часов до 5 секунд

  • Real-time дашборды вместо ночных батчей

  • Хранение 2 лет детальных данных (в PostgreSQL хранили 3 месяца)

  • Стоимость: 80 тыс руб/месяц vs 200 тыс на MySQL кластер

Урок: ClickHouse идеален для e-commerce аналитики с высокой частотой событий.

Кейс 2: Финтех на BigQuery (стартап в Казахстане)

Компания: Финтех стартап, 50 тыс пользователей, работают из Казахстана.

Задача: Аналитика транзакций, антифрод, прогнозирование оттока.

Решение: BigQuery через казахстанское юрлицо.

Почему BigQuery:

  • Команда из 3 человек, нет дата-инженеров

  • Объёмы небольшие (500 GB), попадают в бесплатный уровень

  • Нужен BigQuery ML для антифрод моделей

  • Интеграция с Google Analytics для веб-аналитики

Результаты:

  • Запуск за 2 дня (vs недели на настройку ClickHouse)

  • Стоимость $0 первые 6 месяцев (бесплатный уровень)

  • ML модели для антифрода обучаются прямо в SQL

  • Масштабирование до 10TB без изменения архитектуры

Урок: Для стартапов без инженеров данных BigQuery снижает порог входа.

Кейс 3: Миграция с BigQuery на ClickHouse (медиа-компания)

Компания: Медиа-холдинг, 50 млн просмотров статей в месяц.

Было: BigQuery для аналитики трафика, рекламы, контента. После санкций — риски блокировки.

Решение: Миграция на ClickHouse в VK Cloud за 2 месяца.

Миграция:

  • 15 TB исторических данных перенесены через Parquet

  • 30 основных дашбордов переписаны на ClickHouse SQL

  • Материализованные представления для популярных агрегатов

Результаты:

  • Скорость запросов: +40% (с 3 сек до 1.8 сек в среднем)

  • Стоимость: -50% (было $4000/месяц BigQuery, стало 180 тыс руб ClickHouse)

  • Устранение санкционных рисков

  • Данные в российской юрисдикции

Проблемы:

  • Переписывание сложных запросов с вложенными STRUCT заняло время

  • Пришлось обучать команду аналитиков ClickHouse SQL

Урок: Миграция реальна и окупается. Ускорение + экономия + отсутствие рисков.

Кейс 4: Гибридный подход (рекламная платформа)

Компания: AdTech платформа, 10 млрд событий в день (клики, показы, конверсии).

Решение: ClickHouse для real-time + BigQuery для тяжёлой аналитики.

Архитектура:

  • ClickHouse: Хранение последних 30 дней детальных событий. Дашборды рекламодателей в реальном времени.

  • BigQuery: Исторические данные (2 года). Сложные аналитические запросы, ML модели для таргетинга.

  • Синхронизация: Ежедневно агрегированные данные из ClickHouse в BigQuery через Airflow.

Результаты:

  • ClickHouse обеспечивает латентность <100мс для пользовательских дашбордов

  • BigQuery используется для редких тяжёлых аналитических задач

  • Экономия: ClickHouse дешевле для частых запросов, BigQuery дешевле для редких тяжёлых

Урок: Гибридный подход работает при чёткой логике разделения нагрузок.

9. Стоимость владения: детальное сравнение

Сценарий 1: Стартап, 100 GB данных

BigQuery (on-demand):

  • Хранение: 100 GB x $0.02 = $2/месяц

  • Запросы: 500 GB обработано/месяц. Первые 1 TB бесплатно.

  • Итого: ~$2-5/месяц (~200-500₽)

ClickHouse (Yandex Cloud, минимальная конфигурация):

  • 1 нода s2.micro (2 vCPU, 8 GB): 2.8₽/час x 730 часов = 2044₽/месяц

  • Хранение 100 GB: 100 x 6₽ = 600₽/месяц

  • Итого: ~2600₽/месяц

Вердикт: На малых объёмах BigQuery дешевле благодаря бесплатному уровню.

Сценарий 2: Средний бизнес, 5 TB данных, 100 TB запросов/месяц

BigQuery (on-demand):

  • Хранение: 5000 GB x $0.02 = $100/месяц

  • Запросы: 100 TB x $6.25 = $625/месяц (минус 1 TB бесплатно = $618)

  • Итого: ~$720/месяц (~72 000₽)

BigQuery (flat-rate, 100 слотов):

  • Слоты: $2000/месяц

  • Хранение: $100/месяц

  • Итого: $2100/месяц (~210 000₽)

ClickHouse (Yandex Cloud, кластер 3 ноды):

  • 3 ноды s2.medium (8 vCPU, 32 GB): 3 x 11.2₽/час x 730 = 24 528₽/месяц

  • Хранение 5 TB с репликацией (x2): 10 000 GB x 6₽ = 60 000₽/месяц

  • Итого: ~85 000₽/месяц

Вердикт: ClickHouse дешевле на 15-60% в зависимости от модели BigQuery.

Сценарий 3: Enterprise, 100 TB данных, постоянная высокая нагрузка

BigQuery (flat-rate, 500 слотов):

  • Слоты: $10 000/месяц

  • Хранение: 100 000 GB x $0.02 = $2000/месяц

  • Итого: $12 000/месяц (~1.2 млн руб)

ClickHouse (self-hosted, кластер 10 нод):

  • 10 серверов bare metal (16 cores, 128 GB RAM, 10TB SSD): 10 x 30 000₽ = 300 000₽/месяц

  • Инженеры (2 дата-инженера): 2 x 250 000₽ = 500 000₽/месяц

  • Мониторинг, резервное копирование: 50 000₽/месяц

  • Итого: ~850 000₽/месяц

Вердикт: ClickHouse дешевле на 30% даже с учётом зарплат инженеров.

Скрытые затраты ClickHouse

  • Время инженеров: Настройка, оптимизация, поддержка

  • Обучение команды: Аналитики должны изучить ClickHouse SQL

  • Мониторинг: Prometheus, Grafana, alerting

  • Резервное копирование: S3 или аналог для бэкапов

Скрытые затраты BigQuery

  • Неоптимальные запросы: Можно случайно сканировать петабайты и получить счёт на тысячи долларов

  • Egress: Экспорт данных из BigQuery стоит денег

  • BI Engine: Дополнительная плата за кэширование

Итоговая таблица стоимости

Объём данныхBigQuery (оценка)ClickHouse (оценка)Разница
100 GB500₽/мес2 600₽/месBQ дешевле в 5x
1 TB10 000₽/мес15 000₽/месBQ дешевле в 1.5x
5 TB72 000₽/мес85 000₽/месСопоставимо
50 TB600 000₽/мес400 000₽/месCH дешевле в 1.5x
100+ TB1 200 000₽/мес850 000₽/месCH дешевле в 1.4x

Точка безубыточности: Примерно 3-5 TB данных. Ниже — BigQuery выгоднее. Выше — ClickHouse.

10. Производительность: бенчмарки и оптимизация

ClickBench: независимое сравнение

ClickBench — открытый бенчмарк от создателей ClickHouse. 43 запроса на датасете 100 млн строк (события кликов).

Результаты 2024 (среднее время на запрос):

  • ClickHouse: 0.05 сек

  • BigQuery: 1.5 сек

  • PostgreSQL: 120 сек

ClickHouse быстрее BigQuery в 30 раз на этом бенчмарке.

Но: Бенчмарк сделан создателями ClickHouse, возможна оптимизация под свою СУБД. BigQuery не специально настроен.

Независимое тестирование (Firebolt, 2023):

100 аналитических запросов на 1 TB данных. Обе системы оптимизированы.

  • ClickHouse: 85% запросов быстрее BigQuery

  • BigQuery: 15% запросов быстрее (сложные JOIN)

  • Средняя разница: ClickHouse быстрее в 2-3 раза

Что влияет на производительность ClickHouse

1. Ключ сортировки (ORDER BY)

Данные физически сортируются по указанному ключу. Запросы с фильтрацией по этому ключу — мгновенные.

CREATE TABLE events (
    user_id UInt64,
    event_time DateTime,
    event_type String
) ENGINE = MergeTree()
ORDER BY (user_id, event_time);

Запрос WHERE user_id = 123 — очень быстрый. Запрос WHERE event_type = 'click' — медленнее (нет в ключе).

2. Партиционирование

Разделение данных по партициям (обычно по дате). Запросы с фильтрацией по партициям читают только нужные части.

CREATE TABLE events (...)
ENGINE = MergeTree()
PARTITION BY toYYYYMM(event_time)
ORDER BY (user_id, event_time);

3. Материализованные представления

Преагрегированные данные. Запрос к агрегатам выполняется за миллисекунды.

CREATE MATERIALIZED VIEW daily_stats
ENGINE = SummingMergeTree()
ORDER BY (date, event_type)
AS SELECT 
    toDate(event_time) as date,
    event_type,
    count() as count
FROM events
GROUP BY date, event_type;

4. Сжатие

LZ4 (по умолчанию) — быстрое сжатие/распаковка. ZSTD — сильнее сжимает, но медленнее. Выбор зависит от приоритета: скорость или место.

Что влияет на производительность BigQuery

1. Партиционирование

Таблицы партиционируются автоматически или вручную по дате/timestamp. Запросы с фильтром по партициям дешевле и быстрее.

CREATE TABLE events
PARTITION BY DATE(event_time)
AS SELECT * FROM source;

2. Кластеризация

Данные сортируются по указанным колонкам внутри партиций. Ускоряет фильтрацию.

CREATE TABLE events
PARTITION BY DATE(event_time)
CLUSTER BY user_id
AS SELECT * FROM source;

3. BI Engine

Встроенный кэш для частых запросов. Платный (от $0.06/GB/час), но ускоряет дашборды до <100мс.

4. Оптимизация запросов

BigQuery автоматически оптимизирует запросы. Но можно помочь:

  • Избегать SELECT *, выбирать только нужные колонки

  • Фильтровать по партициям

  • Использовать APPROX функции вместо точных где возможно

Типы запросов: кто быстрее

Тип запросаБыстрееРазница
Простая агрегация (SUM, COUNT)ClickHouse2-5x
Фильтрация + GROUP BYClickHouse2-3x
JOIN двух больших таблицBigQuery1.5-2x
Сложные вложенные подзапросыBigQuery1.3-1.5x
Оконные функцииBigQuery2x
Запросы на петабайтахBigQuery2-3x
Real-time запросы (<10мс)ClickHouse10-50x

11. Экосистема и интеграции

BigQuery экосистема

Визуализация и BI:

  • Looker (Google): Нативная интеграция, enterprise BI

  • Looker Studio (бывший Data Studio): Бесплатная визуализация от Google

  • Tableau, Power BI: Коннекторы работают отлично

  • Metabase, Redash: Опенсорс BI с поддержкой BigQuery

ETL и оркестрация:

  • Dataflow (Apache Beam): Serverless ETL от Google

  • Airflow: Популярная оркестрация, нативные операторы для BigQuery

  • Fivetran, Airbyte: Managed ETL с коннекторами к сотням источников

  • dbt: Трансформация данных, работает с BigQuery из коробки

Машинное обучение:

  • BigQuery ML: Обучение моделей прямо в SQL

  • Vertex AI: Продвинутый ML от Google, работает с BigQuery

  • TensorFlow Extended: Пайплайны ML production-grade

Источники данных:

  • Google Analytics 4: Автоматический экспорт в BigQuery

  • Google Ads: Данные кампаний напрямую в BQ

  • Firebase: События приложений

  • YouTube Analytics: Метрики видео

ClickHouse экосистема

Визуализация и BI:

  • DataLens (Yandex): Бесплатная визуализация, нативная интеграция

  • Grafana: Популярный выбор для дашбордов, плагин для ClickHouse

  • Superset (Apache): Опенсорс BI, хорошо работает с CH

  • Metabase: Простой BI инструмент

  • Redash: SQL-first BI

ETL и оркестрация:

  • Airflow: Де-факто стандарт оркестрации

  • dbt: С версии 1.0 поддерживает ClickHouse

  • Airbyte: Коннекторы к ClickHouse

  • Vector: Высокопроизводительный агент для логов и метрик

Источники данных:

  • Kafka: Нативный движок Kafka в ClickHouse

  • PostgreSQL/MySQL: Федеративные запросы через движки

  • S3: Прямое чтение из S3 без загрузки

  • MongoDB: Интеграция через движок MongoDB

Мониторинг:

  • Prometheus + Grafana: Стандартный стек мониторинга

  • ClickHouse Keeper: Координация кластера (замена ZooKeeper)

  • Altinity Kubernetes Operator: Управление CH в Kubernetes

Языки программирования (драйверы):

ЯзыкBigQueryClickHouse
Pythongoogle-cloud-bigqueryclickhouse-driver
JavaScript/Node.js@google-cloud/bigqueryclickhouse (npm)
Javagoogle-cloud-bigqueryclickhouse-jdbc
Gocloud.google.com/go/bigqueryclickhouse-go
PHPgoogle/cloud-bigquerysmi2/phpClickHouse

Сравнение зрелости экосистем

BigQuery: Богаче, особенно в Google Cloud экосистеме. Все сервисы Google работают с BQ нативно. Больше enterprise инструментов.

ClickHouse: Растущая экосистема. Сильны опенсорс инструменты. Меньше enterprise решений, но достаточно для большинства задач.

12. Чек-лист выбора СУБД для аналитики

Шаг 1: Оцените текущее состояние (1 неделя)

  1. ☐ Объём данных сейчас и прогноз на год-два

  2. ☐ Типы запросов: агрегации, JOIN, real-time или batch

  3. ☐ Частота запросов: постоянная нагрузка или периодическая

  4. ☐ Текущая база: если есть, на чём сейчас, какие проблемы

  5. ☐ Команда: есть ли дата-инженеры, опыт с какими СУБД

Шаг 2: Определите критичные требования

Функциональные требования:

  1. ☐ Нужна минимальная латентность (<10мс) → ClickHouse

  2. ☐ Работа с петабайтами данных → BigQuery

  3. ☐ Real-time вставки критичны → ClickHouse

  4. ☐ Сложные JOIN на больших таблицах → BigQuery

  5. ☐ Машинное обучение на данных → BigQuery ML

Нефункциональные требования:

  1. ☐ Минимальная операционная нагрузка → BigQuery

  2. ☐ Контроль над конфигурацией → ClickHouse

  3. ☐ Работа в России без рисков → ClickHouse

  4. ☐ Интеграция с Google сервисами → BigQuery

  5. ☐ Нет vendor lock-in → ClickHouse

Шаг 3: Рассчитайте стоимость

BigQuery:

  1. Объём хранения x $0.02/GB = стоимость хранения

  2. Объём сканируемых данных/месяц x $6.25/TB = стоимость запросов (on-demand)

  3. Или flat-rate: количество слотов x $20 = месячная стоимость

  4. Итого + 10-20% на egress, BI Engine

ClickHouse (управляемый):

  1. Размер кластера под ваши данные (калькулятор Yandex Cloud)

  2. Количество нод x цена ноды x 730 часов = стоимость вычислений

  3. Объём данных x коэффициент репликации x цена хранения = стоимость хранения

  4. Итого + резервное копирование

ClickHouse (self-hosted):

  1. Стоимость серверов или виртуалок

  2. Зарплата инженеров (1-2 человека для поддержки)

  3. Мониторинг, резервное копирование

Шаг 4: Проведите тестирование (2-4 недели)

  1. ☐ Создать тестовый кластер/проект

  2. ☐ Загрузить реальные данные (хотя бы часть)

  3. ☐ Написать типичные запросы

  4. ☐ Измерить производительность

  5. ☐ Оценить удобство разработки

  6. ☐ Протестировать интеграции с BI инструментами

Шаг 5: Принять решение

Выбирайте BigQuery если:

  • Нет команды для управления базами ИЛИ

  • Объёмы <1 TB ИЛИ

  • Нужна интеграция с Google Analytics/Ads ИЛИ

  • Нагрузка непредсказуемая ИЛИ

  • Компания не в России

Выбирайте ClickHouse если:

  • Критична скорость ИЛИ

  • Постоянная высокая нагрузка ИЛИ

  • Объёмы >5 TB ИЛИ

  • Есть команда инженеров ИЛИ

  • Работаете в России ИЛИ

  • Важна независимость от вендора

План внедрения BigQuery (1-2 недели)

  1. Создать проект в Google Cloud

  2. Создать датасеты

  3. Загрузить данные (batch или streaming)

  4. Написать запросы

  5. Подключить BI инструменты

  6. Настроить мониторинг затрат

План внедрения ClickHouse (1-2 месяца)

  1. Выбор: Управляемый (Yandex/VK) или self-hosted

  2. Настройка кластера: Количество нод, конфигурация, репликация

  3. Проектирование схемы: Движки таблиц, ключи сортировки, партиции

  4. Загрузка данных: Batch или потоковая через Kafka

  5. Оптимизация: Материализованные представления, настройка производительности

  6. Мониторинг: Prometheus + Grafana

  7. Резервное копирование: Настройка бэкапов в S3

Критичные ошибки при выборе

  • Выбор по хайпу: «Все используют ClickHouse, давайте и мы». Выбирайте под задачу.

  • Недооценка операционной сложности: ClickHouse требует экспертизы. Без инженеров будет больно.

  • Игнорирование санкций: BigQuery в РФ — риск. Планируйте альтернативы.

  • Нет тестирования: Протестируйте на реальных данных перед production.

  • Экономия на конфигурации: Слишком маленький кластер ClickHouse будет тормозить.

Главное правило

Нет универсального ответа «что лучше». BigQuery и ClickHouse решают похожие задачи по-разному. BigQuery — простота и масштаб без усилий. ClickHouse — скорость и контроль при наличии экспертизы.

Для российских компаний в 2026 выбор часто предопределён санкциями: ClickHouse доступен без рисков, BigQuery — в серой зоне. Если бы не геополитика, выбор был бы сложнее.

Правильный подход: чётко определить требования, протестировать обе системы на реальных данных, посчитать реальную стоимость с учётом скрытых затрат. Тогда выбор станет очевидным.

«BigQuery vs ClickHouse — это не битва технологий. Это выбор между удобством и контролем, между serverless и self-managed, между экосистемой Google и независимостью. Выбирайте что соответствует вашим приоритетам» — из доклада на Data Fest 2025

А лучшие вакансии для аналитиков ищите на hirehi.ru