Илон Маск предсказывает переход к синтетическим данным в ИИ

Илон Маск, основатель компании xAI, заявил, что индустрия искусственного интеллекта достигла предела использования данных, созданных людьми. По его мнению, “пик данных” был достигнут в 2023 году, и в будущем развитие моделей станет невозможным без перехода к использованию синтетических данных, созданных самими ИИ-моделями. Эти слова совпадают с мнением Ильи Суцкевера, бывшего главного учёного OpenAI, который на конференции NeurIPS в декабре 2024 года также указал на необходимость переосмысления методов разработки моделей из-за нехватки реальных данных.

Синтетические данные уже активно применяются крупными компаниями, такими как Microsoft, OpenAI и Anthropic, что объясняется их многочисленными преимуществами. Они позволяют создавать практически неограниченное количество информации с минимальными затратами. Например, модель Palmyra X 004 от компании Writer была разработана почти полностью на синтетических данных и обошлась в $700 000, в то время как аналогичная модель OpenAI стоила около $4,6 миллионов. Это наглядно демонстрирует экономическую эффективность использования синтетической информации.

Кроме того, многие передовые модели, такие как Microsoft Phi-4, Gemma от Google и Claude 3.5 Sonnet от Anthropic, были созданы с использованием смешанных источников данных, включая как реальные, так и синтетические данные. Прогноз исследования Gartner указывает на то, что к 2024 году 60% всех данных, используемых в проектах по ИИ и аналитике, будут синтетическими. Это подчеркивает растущую тенденцию в индустрии, которая движется к более активному использованию созданных ИИ данных.

Тем не менее, переход к синтетическим данным также сопряжён с определенными рисками. Исследования показывают, что чрезмерная зависимость от синтетических данных может привести к ухудшению функциональности моделей, проявляющемуся в снижении их творческих возможностей и увеличении предвзятости в выводах. Если базовые данные содержат ошибки или ограничения, эти проблемы могут лишь усугубляться в синтетических результатах. Модели, тренированные на таких данных, могут потерять адаптивность и способность к созданию оригинальных решений.

Несмотря на эти вызовы, синие данные открывают новые возможности для развития искусственного интеллекта. Компании стремятся найти баланс между эффективностью и качеством с целью минимизировать риски и поддерживать высокие стандарты. Маск подчеркивает, что переход к синтетическим данным неизбежен и важен для будущего индустрии. Он отмечает необходимость контроля качества и внедрения новых подходов к обучению ИИ, что может стать ключевым этапом в эволюции технологий искусственного интеллекта.

“Мы исчерпали практически весь накопленный объём человеческих знаний для обучения ИИ. Это произошло фактически в прошлом году”, — сказал Маск в ходе беседы с председателем Stagwell, Марком Пенном, на платформе X. По словам Маска, “единственный способ дополнить реальные данные — это синтетические данные, где ИИ сам создаёт обучающие материалы”. В итоге, синтетические данные могут занять центральное место в будущем развития технологий искусственного интеллекта.