DeepSeek-R1 — новейшая языковая модель, для разработки которой требуется меньше вычислительных и денежных ресурсов, чем для её аналогов, — оспаривает господство OpenAI, Google и Meta в ИИ-индустрии, сообщает eNews.
Одноимённая большая языковая модель (LLM) китайского ИИ-стартапа DeepSeek вызвала настоящий ажиотаж в Кремниевой долине, в одночасье став конкурентом ChatGPT американской компании OpenAI, пишет Euronews.
Как утверждают специалисты в сфере IT, последняя версия под названием DeepSeek-R1, презентованная в этом месяце, имеет высокую производительность при низкой стоимости.
По числу используемых чипов для разработки своей языковой модели китайская компания уже опережает таких гигантов, как OpenAI, Google и Meta. Вот почему в понедельник акции крупнейшего производителя чипов Nvidia резко упали.
Вот что мы знаем о новой китайской разработке в сфере искусственного интеллекта, которая вполне может стать революционной.
Откуда взялась DeepSeek?
Компанию основал в июле 2023 года в Ханчжоу Лян Вэнфьэн — инженер-электронщик и информатик, выпускник Чжэцзянского университета.
Она появилась в рамках реализации инкубационной программы фонда High-Flyer, созданного Ляном в 2015 году. Этот стартап, как и другие ведущие представители отрасли, имеет цель разработать «универсальный искусственный интеллект», который сможет догнать или превзойти человека в решении различных задач.
Сама модель финансирования DeepSeek предполагает независимость в работе, позволяя компании реализовывать амбициозные проекты в области ИИ без давления со стороны внешних инвесторов и уделять приоритетное внимание долгосрочным исследованиям и разработкам.
Команда DeepSeek состоит из молодых выпускников лучших университетов Китая, а при наборе персонала там отдают предпочтение техническим навыкам, а не опыту работы.
Одним словом, считается, что у компании имеется совершенно новый взгляд на процесс разработки моделей искусственного интеллекта.
DeepSeek заявил о себе в ноябре 2023 года, запустив DeepSeek Coder — модель с открытым исходным кодом, предназначенную для решения задач программирования.
За ней последовал DeepSeek LLM, который был нацелен на конкуренцию с другими крупными языковыми моделями. DeepSeek-V2, выпущенная в мае 2024 года, завоевала популярность благодаря высокой производительности и низкой стоимости.
Она также заставила других крупных китайских технологических гигантов, таких как ByteDance, Tencent, Baidu и Alibaba, снизить цены на свои модели ИИ.
Каковы возможности DeepSeek?
Позже на смену DeepSeek-V2 пришла DeepSeek-Coder-V2, более совершенная модель с 236 миллиардами параметров.
Разработанная для сложных запросов кодирования, она имеет большое контекстное окно, включающее до 128 000 токенов.
Токен — это текстовая единица. Ей могут быть слово, частица, символ или знак препинания и даже пробел.
Контекстное окно в 128 000 токенов — это максимальная длина входного текста, который модель может обрабатывать единовременно.
Такое контекстное окно позволяет модели понимать, обобщать или анализировать более длинные тексты. Это серьёзное преимущество, когда речь идёт о работе с большим объёмом документов, книгами или сложными диалогами.
Последние модели DeepSeek-V3 и DeepSeek-R1 ещё больше укрепили позиции компании.
Модель DeepSeek-V3, имеющая 671 000 параметров, требует значительно меньше ресурсов, чем её аналоги, и при этом демонстрирует впечатляющие результаты в различных тестах по оценке производительности.
DeepSeek-R1, представленный в этом месяце, ориентирован на выполнение сложных задач, касаемых логических рассуждений, программирования и математики. Благодаря своим возможностям в этой области он бросает вызов одной из последних моделей ChatGPT — o1.
Несмотря на то, что DeepSeek добилась значительных успехов за короткое время, компания в основном сосредоточена на исследованиях и не имеет подробных планов по коммерциализации в ближайшем будущем, сообщает Forbes.
Сколько стоит DeepSeek для пользователей?
Одна из главных причин, по которой DeepSeek удалось привлечь к себе внимание, заключается в отсутствии платы за пользование.
Это первая подобная продвинутая система ИИ, доступная пользователям бесплатно. Другие мощные системы, такие как o1 от OpenAI и Claude Sonnet, требуют платной подписки.
Google Gemini также доступна бесплатно, но бесплатные версии ограничены старыми моделями. DeepSeek ограничений пока не имеет.
Как им пользоваться?
Пользователи могут получить доступ к чат-интерфейсу DeepSeek по адресу «chat.deepseek». Достаточно ввести команды на экране чата и нажать кнопку «поиск».
Для получения более подробных данных по любому вопросу предусмотрена опция «глубокий анализ». Она даёт более подробные ответы на запросы пользователей, но также позволяет выполнять поиск по большему количеству сайтов в поисковой системе.
Однако, в отличие от ChatGPT, который осуществляет поиск только по определённым источникам, эта функция может выдавать ложную информацию с некоторых небольших сайтов. Поэтому пользователям необходимо подтверждать информацию, которую они получают от этого чат-бота.
Безопасно ли это?
Ещё один важный вопрос об использовании DeepSeek — безопасен ли он. DeepSeek, как и другие сервисы, требует вводить данные пользователя, которые, скорее всего, хранятся на серверах в Китае.
Как и в случае с любым LLM, важно, чтобы пользователи не передавали чат-боту конфиденциальные сведения.
Поскольку DeepSeek также имеет открытый исходный код, независимые IT-специалисты могут изучить код модели и сами определить, насколько она безопасна. Более подробная информация о проблемах безопасности данных будет опубликована в ближайшие дни.
Что означает открытый исходный код?
Модели, включая DeepSeek-R1, были выпущены с открытым исходным кодом. Это означает, что любой желающий может получить доступ к коду инструмента и использовать его для настройки LLM. Обучающие данные являются собственностью компании.
OpenAI, в свою очередь, выпустила модель o1 с закрытым кодом и продаёт её только пользователям и отдельно — даже обладателям пакетов от $20 (€19) до $200 (€192) в месяц.
Как удалось выпустить такую модель, несмотря на ограничения США?
Компания также наладила стратегические партнёрские отношения, чтобы расширить свои технологические возможности и охват рынка.
Например, стартап сотрудничает с американской компанией AMD, производящей чипы. По данным Forbes, DeepSeek использовала GPU (графические процессоры) AMD Instinct и программное обеспечение ROCM на ключевых этапах разработки модели, в частности для DeepSeek-V3.
MIT Technology Review сообщил, что задолго до того, как США ввели санкции, Лян приобрёл в большом количестве чипы Nvidia A100, экспортировать в Китай которые в настоящее время запрещено.
По оценкам китайского СМИ 36Kr, на складе компании находится более 10 000 чипов. Некоторые утверждают, что эта цифра составляет 50 000.
При этом уже известно, что при обучении DeepSeek используются маломощные чипы, что, по всей видимости, вовсе не уменьшает производительность модели.
Но главное здесь то, что Лян нашёл способ создавать компетентные модели при минимальных затратах.
Ограничения на экспорт чипов из США заставили разработчиков DeepSeek создавать более умные и энергоэффективные алгоритмы, чтобы компенсировать недостаток вычислительной мощности.
Считается, что ChatGPT требуется 10 000 графических процессоров Nvidia для обработки обучающих данных. Инженеры DeepSeek утверждают, что добились аналогичных результатов, используя всего 2 000 GPU.
Какова реакция на появление DeepSeek?
Александр Ванг, генеральный директор компании ScaleAI, которая предоставляет обучающие данные для моделей ИИ таких крупных игроков, как OpenAI и Google, в своём выступлении на Всемирном экономическом форуме (ВЭФ) в Давосе на прошлой неделе заявил, что продукт DeepSeek имеет «сокрушительный эффект».
О том же говорят и аналитики, предупреждая западные компании о серьёзных последствиях появления китайского чат-бота на мировом рынке ИИ-технологий.
«Это вызывает тревогу. Допускать интеграцию китайских технологий искусственного интеллекта в Великобритании и других странах Запада — это не просто плохая идея, это безрассудство», — заявил Росс Берли, соучредитель Центр информационной устойчивости.
«Мы неоднократно видели, как Пекин использует своё технологическое превосходство для наблюдения, контроля и давления как внутри страны, так и за рубежом. Будь то устройства со шпионским ПО, спонсируемые государством кибер-кампании или использование искусственного интеллекта для подавления инакомыслия, послужной список Китая показывает, что его технологии — это часть геополитической стратегии», — добавил он.
«Может показаться, что речь идет о неопасной Большой языковой модели, но мы уже видели, что ИИ скрывает информацию с критикой китайских властей».
Другие согласны с тем, что выпуск новейшей модели языка — это политический шаг, который, скорее всего, приведёт к обострению и без того напряжённых китайско-американских отношений.
«Момент внедрения тех или иных технологических инноваций выбирается исходя из политического контекста,» — заявил агентству AP Грегори Аллен, директор Центра изучения искусственного интеллекта Wadhwani.
Аллен сравнил анонс DeepSeek на прошлой неделе с тем, как китайская компания Huawei, находящаяся под санкциями США, выпустила новый телефон во время дипломатических дискуссий по поводу контроля над экспортом во время президентства Байдена в 2023 году.
«Попытка показать, что экспортный контроль бесполезен или контрпродуктивен, — это действительно важная цель китайской внешней политики в настоящее время», — заключил Аллен.
Подписывайтесь на наш Telegram-канал https://t.me/enewsmd Много интересного: инсайды, заявления, расследования. Много уникальной информации, которой нет у других.