Укрдержархів надав 10 терабайтів інформації для навчання національної моделі LLM "Сяйво".

Технології

Державна архівна служба України надає для навчання національної мовної моделі "Сяйво" 10 терабайтів історичних документів, офіційних записів та наукових матеріалів, що еквівалентно 70 тисячам книг, згідно з повідомленням Міністерства цифрової трансформації.

"Для тренування національної мовної моделі ми збираємо дані, щоб мовна модель була натренована на унікальному масиві інформації", - цитуються в релізі слова в.о. міністра цифрової трансформації Олександра Борнякова.

Згідно з інформацією, наданою головою Держархіву Анатолієм Хромовим, до кінця 2026 року кількість цифрових реплік, які зберігаються в державних архівах, зросте з 150 мільйонів до понад 200 мільйонів.

"Цей випадок є безпрецедентним, оскільки вперше Укрдержархів відкриває свої дані для сприяння розвитку цифрових послуг в Україні," - зазначив Хромов у прес-релізі.

У Міністерстві цифрової трансформації повідомили, що в даний час більше 50 партнерів, включаючи медіа, вищі навчальні заклади та бібліотеки, надають свої ресурси.

Невдовзі буде опубліковано повний список установ, які внесли свої матеріали для навчання національної моделі, як зазначено в повідомленні.

Наприкінці березня 22,6 тис. українців проголосували за обрання назви "Сяйво" для національної мовної моделі.

На початку січня було зазначено, що бета-тестування національної моделі LLM планується розпочати навесні 2026 року.

Тоді, як зазначив колишній перший віцепрем'єр-міністр цифрової трансформації Михайло Федоров, у січні планувалося створити першу базу текстових даних для навчання LLM, вдосконалити токенізатор, що розбиває слова на складові частини, з метою забезпечення швидшої та ефективнішої обробки мовних даних, а також розробити власні бенчмарки для оцінки якості.

У грудні 2025 року повідомлялось, що Мінцифри разом з найбільшим українським оператором мобільного зв'язку "Київстар" обрали модель Gemma 3 від Google (відкрита ШІ-модель) для тренування української LLM.

У своєму оголошенні "Київстар" підкреслив, що модель Gemma вже показала успішні результати в ролі основи для MamayLM та Lapa LLM — перших українських мовних моделей, а також для INSAIT BgGPT — сучасної LLM, яка підтримує болгарську мову.

Українці Google Університет Бібліотека Болгарська мова Терабайт Мобільний зв'язок «Сяйво» (фільм)«Київстар»