ЖИ жұмысын жақсарту үшін қазақ тіліндегі деректер жиналып жатыр

Цифрлық даму, инновациялар және аэроғарыш өнеркәсібі министрі Жаслан Мәдиев қазақ тіліндегі үлкен тілдік модель KazLLM жұмысы туралы айтып берді.

Оның айтуынша, Назарбаев университеті «Ұлттық ақпараттық технологиялар» компаниясымен бірігіп, қазақ тілінде үлкен тілдік модель (KazLLM) әзірлейді. Бұл модель 100 млрд токенге негізделеді.

«Модельдің сапасын жақсарту үшін қазақ тіліндегі деректерді жинау өте маңызды. Осы мақсатта ұлттық деректер жинау науқаны Hugging Face платформасында жүргізіледі. Қазірдің өзінде ашық көздерден 54 млрд токен, оның ішінде 28 млрд токен қазақ және 26 млрд токен орыс тілдерінде жиналды. Мемлекеттік және квазимемлекеттік органдардан, сондай-ақ БАҚ пен мұрағаттардан 90 терабайт дерек жиналды», – деді Ж.Мәдиев Үкіметтің бүгінгі отырысында.

Сонымен бірге, KazLLM халықаралық компаниялармен бірлесіп әзірленеді. Аталған модель ашық көздерден алынған деректер негізінде 30-40 млрд токенге негізделетін болады. Бұл жоба өтеусіз тегін негізде жасалады.

«KazLLM-нің алғашқы нұсқасы осы жылдың желтоқсанында ұсынылады. 2029 жылға қарай біз жасанды интеллект саласындағы патенттер санын жылына кемінде 20-ға жеткізу жоспарлануда. Қазақ тілінде жасанды интеллект дағдыларын оқыту және сапалы контент жасау үшін ауқымды жасанды интеллект экожүйесін құру қажет. Экожүйені дамыту шеңберінде халықаралық компанияларда (Microsoft, Google, Booking және т.б.) жұмыс істейтін қазақстандық мамандардан жасанды интеллект ұлттық құрамасы құрылды», – деді министр.

Айта кетейік, елімізде 2024-2029 жылдарға арналған Жасанды интеллектті дамыту тұжырымдамасы әзірленді. Онда 5 млн адамды жасанды интеллект дағдыларына үйрету; 500 мың салалық маман даярлау; 5 қазақстандық бірегей компания құру; IT-экспортты 5 млрд долларға дейін ұлғайту; экономика секторларында жыл сайын кемінде 25 жасанды интеллект өнімдерін енгізу көзделген.