Тайваньская компания Foxconn, известная как крупнейший производитель компьютерных комплектующих, представила первую большую языковую модель на традиционном китайском языке с функцией глубокого логического анализа. Модель получила название FoxBrain и была разработана всего за четыре недели. В будущем компания планирует сделать её открытой и общедоступной.
FoxBrain создана на архитектуре Meta Llama 3.1 и имеет 70 миллиардов параметров. Она превосходит существующие аналоги того же масштаба, в частности модель Taiwan-Llama-70B. Особенно высокие результаты FoxBrain показывает в тестах на математику и логическое мышление, максимально учитывая особенности тайваньского варианта китайского языка.
В процессе обучения использовалось 120 графических процессоров NVIDIA H100 и высокоскоростная сеть NVIDIA Quantum-2 InfiniBand. Весь процесс занял около четырёх недель и потребовал 2688 GPU-дней вычислений. Благодаря оптимизированному подходу к обучению удалось значительно снизить затраты и повысить эффективность.
По словам директора Центра исследований искусственного интеллекта института Hon Hai, доктора Юн-Хуэй Ли, главный акцент в разработке сделан на оптимизацию процесса обучения, а не на увеличение вычислительных мощностей. В FoxBrain применена особая методика под названием Adaptive Reasoning Reflection, которая обучает модель самостоятельно вести логические рассуждения и находить решения сложных задач.
FoxBrain обучалась на уникальном наборе данных, состоящем из 98 миллиардов токенов текста высокого качества на китайском языке. Контекстное окно модели может вместить 128 тысяч токенов. По результатам тестирования на базе TMMLU модель продемонстрировала значительные улучшения по сравнению с базовой моделью Meta Llama 3.1 и даже приблизилась к мировым лидерам в области логических рассуждений, таким как DeepSeek.
FoxBrain разрабатывалась для внутренних задач Foxconn, включая аналитику данных, поддержку принятия решений, совместную работу с документами, решение математических задач и генерацию программного кода. Однако компания уже объявила о планах сотрудничества с другими разработчиками и технологическими партнёрами. В будущем модель будет открытой, а её возможности планируется расширить на производство, управление цепочками поставок и принятие решений на основе искусственного интеллекта.
Поддержку в разработке FoxBrain оказывала компания NVIDIA, предоставившая мощности суперкомпьютера Taipei-1 и консультации своих технических специалистов. Новая модель станет частью общей технологической модернизации трёх ключевых направлений Foxconn: умного производства, умного электротранспорта и умных городов.
