Компания VK Tech стала первым в России вендором, предложившим пользователям решение для построения корпоративного Data Lakehouse на управляемых облачных сервисах. Этот шаг стал возможен благодаря новому сервису Cloud Trino, который обеспечивает обработку больших данных из разных источников на платформе VK Cloud.
Data Lakehouse представляет собой гибридный подход, объединяющий преимущества “озёр данных” (Data Lake) и корпоративного хранилища данных (Data Warehouse). Это позволяет значительно снизить нагрузку на системы хранения и уменьшить расходы на хранение неструктурированных данных, благодаря разделению вычислительных узлов и хранилищ данных.
Решение реализовано на базе S3-совместимого объектного хранилища и высокопроизводительного SQL-движка Cloud Trino, который функционирует на Kubernetes. Использование доработанных опенсорс-компонентов обеспечивает компаниям доступ к современным инструментам для работы с крупными проектами с оплатой исключительно за потребленные ресурсы, без необходимости приобретения лицензий. Пользователи могут подключаться одновременно к нескольким источникам данных, что упрощает и ускоряет ETL-процессы.
Директор по продукту VK Cloud, Дмитрий Лазаренко, отметил, что объем создаваемых данных в 2024 году достигает 402,89 млн терабайт в день, что соответствует 147 зеттабайтам в год. Прогнозируется, что к 2025 году этот показатель вырастет до 181 зеттабайта. “Мы создаем инструменты, которые позволяют работать с данными быстрее и дешевле, чтобы компании могли увеличивать свою эффективность за счет Data Driven-подхода,” – добавил он.
По данным компании, стоимость хранения данных в облаке снизилась в 10 раз: 1 ГБ теперь стоит всего 3 рубля, в отличие от 35 рублей на Data Warehouse. Это решение доступно как на облачной платформе, так и на собственной инфраструктуре Private Cloud и VK Data Platform.
С запуском Data Lakehouse VK Tech продолжает развивать свои решения, удовлетворяющие потребности бизнеса в области хранения и анализа данных. Ранее компания представила платформу OpenVK, способствующую публикации программного обеспечения с открытым исходным кодом. Это демонстрирует стремление компании поддерживать инновации и развивать экосистему для разработчиков.
