Дослідницький підрозділ Tether Data AI анонсував QVAC-fabric-llm - інфраструктуру для Low-Rank Adaptation (LoRA)-донавчання великих мовних моделей (LLM) в рамках llama.cpp. Компанія наголошує, що це перше рішення, яке забезпечує параметро-ефективне навчання на широкому спектрі обладнання, включаючи мобільні GPU та настільні відеокарти.
Tether зазначає, що технологія робить навчання LLM апаратно-незалежним, усуваючи прив'язку до конкретних виробників. Розробники заявляють, що тепер навчання можна проводити на будь-якому сучасному пристрої, включаючи мобільні телефони і серверні системи. Однією з ключових особливостей є можливість використовувати мобільні графічні процесори, що вважалося раніше неможливим. Підтримка охоплює GPU Adreno, Mali та Apple, а також рішення AMD, Intel, NVIDIA та Apple для настільних ПК.
QVAC-fabric-llm вперше надає кроссплатформенну підтримку LoRA-навчання для моделей Qwen3 та Gemma3, розширюючи функціональність llama.cpp. Tether Data AI відкриває доступ до мультиплатформних бінарних файлів, адаптерів LoRA, донавчених на пристроях, і вихідного коду нових модулів, зберігаючи публічні API llama.cpp незмінними. Код розповсюджується під ліцензією Apache 2.0.
Для Tether, найбільшого емітента стейблкоіна USDT, локальне донавчання важливе з кількох причин: створення автономних систем для регіонів з нестабільною інфраструктурою, захист приватності даних користувачів та масштабування незалежно від конкретного GPU. Компанія підкреслює, що можливість персоналізованого навчання LLM на даних користувача є критичною для впровадження технологій ІІ.
Технічно QVAC-fabric-llm переносить повний LoRA-workflow в llama.cpp з API для ініціалізації, навчання та злиття адаптерів. Використовуються Vulkan для універсальної підтримки GPU, Metal для пристроїв Apple, а також методи інструкційного навчання з маскованими втратами. Система підтримує сучасні архітектури та динамічний розбиття на блоки для обходу обмежень драйверів мобільних GPU.
Тести показали, що якість донавчання на мобільних і настільних пристроях можна порівняти з PyTorch-HuggingFace. Моделі демонструють високу точність у біомедичних завданнях та порівнянну з PyTorch якість косинусної подібності. Tether зазначає, що технологія особливо корисна в медицині, науці та регульованих фінансових сервісах.
Подальші плани компанії включають розширення підтримки форматів GPTQ-INT8 та Q5_K_M, оптимізацію GPU-операторів та покращення управління пам'яттю. QVAC-fabric-llm переносить можливості дата-центрів на пристрої, відкриваючи шлях до локальних і захищених ІІ-рішень. Нещодавно Tether також підписала угоду на оренду 20 000 GPU для підтримки свого ІІ-напрямку в рамках партнерства з Rumble та Northern Data.