Скопировано

Разработан аналог ChatGPT на казахском языке

17.07.2024
Дата публикации
В Казахстане появилась первая национальная языковая модель с открытым исходным кодом — IrbisGPT.

Разработчики опубликовали официальный релиз на Хабре, предоставив всем пользователям возможность протестировать эту модель и внести свой вклад в её обучение.

IrbisGPT — общественная некоммерческая инициатива, разработанная в сотрудничестве с MOST Holding и студией Gen2b.ai, специализирующейся на применении ИИ в бизнесе.

Цель проекта — сохранение и распространение казахского языка, а также его интеграция в современные цифровые технологии для развития общества, экономики и науки в Казахстане.

«Это пионерский проект в области развития казахского языка через применение искусственного интеллекта. Мы надеемся, что IrbisGPT поможет в защите и продвижении государственного языка», — рассказал фаундер проекта Бахт Ниязов.

По словам разработчиков, актуальная версия IrbisGPT демонстрирует отличный потенциал для обучения.

В отличие от других моделей с открытым кодом, которые либо отвечают на английском языке, либо генерируют случайные слова на казахском, IrbisGPT отвечает на вопросы без контекста развернуто и правильно.

Так, IrbisGPT дает ответ на государственном языке на вопрос «Шөп неге жасыл?» («Почему трава зеленая?»), знает, кто президент Казахстана, сколько дней в году и даже может пофилософствовать о смысле жизни.

Для обучения модели разработчики использовали 20 гигабайт «сырых» данных из новостей и статей на казахском языке, что расширило словарь почти в три раза.

Однако команда признаёт, что этого недостаточно, и рассчитывает на предоставление качественных данных со стороны государственных органов для дальнейшего усовершенствования IrbisGPT.

Итоговый словарь токенизатора (преобразователь текста в данные) содержит более 60 тысяч токенов. У команды также имеется план по созданию модели в более совершенной архитектуре, которая будет полезна в разных отраслях.

«Мы надеемся на более тесное сотрудничество с государственными структурами, гражданским обществом и частным сектором», — отметил руководитель Gen2b.ai Армен Атаян.

Развитие IrbisGPT открывает новые возможности для продвижения казахского языка в цифровой среде и его использования в различных сферах жизни. А вклад каждого энтузиаста и разработчика поможет сделать модель ещё более эффективной, уверены создатели IrbisGPT.