Исследовательское подразделение Tether Data AI анонсировало QVAC-fabric-llm — инфраструктуру для Low-Rank Adaptation (LoRA)-дообучения больших языковых моделей (LLM) в рамках llama.cpp. Компания подчёркивает, что это первое решение, которое обеспечивает параметро-эффективное обучение на широком спектре оборудования, включая мобильные GPU и настольные видеокарты.
Tether отмечает, что технология делает обучение LLM аппаратно-независимым, устраняя привязку к конкретным производителям. Разработчики заявляют, что теперь дообучение можно проводить на любом современном устройстве, включая мобильные телефоны и серверные системы. Одной из ключевых особенностей является возможность использовать мобильные графические процессоры, что ранее считалось невозможным. Поддержка охватывает GPU Adreno, Mali и Apple, а также решения AMD, Intel, NVIDIA и Apple для настольных ПК.
QVAC-fabric-llm впервые предоставляет кроссплатформенную поддержку LoRA-обучения для моделей Qwen3 и Gemma3, расширяя функциональность llama.cpp. Tether Data AI открывает доступ к мультиплатформенным бинарным файлам, адаптерам LoRA, дообученным на устройствах, и исходному коду новых модулей, сохраняя публичные API llama.cpp неизменными. Код распространяется под лицензией Apache 2.0.
Для Tether, крупнейшего эмитента стейблкоина USDT, локальное дообучение важно по нескольким причинам: создание автономных систем для регионов с нестабильной инфраструктурой, защита приватности данных пользователей и масштабируемость без зависимости от конкретного GPU. Компания подчёркивает, что возможность персонализированного обучения LLM на данных пользователя критична для внедрения технологий ИИ.
Технически QVAC-fabric-llm переносит полный LoRA-workflow в llama.cpp с API для инициализации, обучения и слияния адаптеров. Используются Vulkan для универсальной поддержки GPU, Metal для устройств Apple, а также методы инструкционного дообучения с маскированными потерями. Система поддерживает современные архитектуры и динамическое разбиение на блоки для обхода ограничений драйверов мобильных GPU.
Тесты показали, что качество дообучения на мобильных и настольных устройствах сопоставимо с PyTorch-HuggingFace. Модели демонстрируют высокую точность в биомедицинских задачах и сопоставимое с PyTorch качество косинусного сходства. Tether отмечает, что технология особенно полезна в медицине, науке и регулируемых финансовых сервисах.
Дальнейшие планы компании включают расширение поддержки форматов GPTQ-INT8 и Q5_K_M, оптимизацию GPU-операторов и улучшение управления памятью. QVAC-fabric-llm переносит возможности дата-центров на пользовательские устройства, открывая путь к локальным и защищённым ИИ-решениям. Недавно Tether также подписала соглашение на аренду 20 000 GPU для поддержки своего ИИ-направления в рамках партнёрства с Rumble и Northern Data.