«Я плачу за токены, которые не создают ценности», — глава Palantir недоволен моделями и ИИ-компаниями.
Алекс Карп считает, что в индустрии «что-то пошло совсем не так»: бигтех платит за токены огромные деньги, кормит их своими данными и при этом не владеют ни моделями, ни вычислениями, ни инфраструктурой. Он назвал всю эту схему «налогом на богатство» — и компании сложившейся расстановкой сил крайне недовольны.
💵 GFusion: как мы обучали диффузионную LLM в GigaChat
«А что, если LLM будет генерировать не строго по одному токену слева направо, а сразу блок текста?»
Именно эту идею мы проверяли в проекте GFusion — диффузионной языковой модели на базе GigaChat3-10B-A1.8B-base.
Отдельно хочется отметить, что этот проект начал и довёл до релиза стажер команды GigaChat Pretrain. Он прошёл весь путь от идеи и первых экспериментов до обучения модели, оптимизаций, поддержки в inference runtime и публикации в open source.
Почему это интересно?
Классические LLM генерируют текст авторегрессионно: каждый следующий токен зависит от всех предыдущих. Это устоявшийся подход, но шаги генерации модели выполняются строго последовательно.
В то же время диффузионная LLM берёт частично замаскированный блок и постепенно восстанавливает токены внутри него. За один forward pass модель может финализировать не один, а сразу несколько токенов.
Так и появляется ускорение. Чем больше токенов модель уверенно восстанавливает за один проход, тем меньше шагов ей нужно для генерации ответа.
Вместо дорогостоящего обучения с нуля мы взяли сильную авторегрессионную LLM и перевели её в диффузионный режим генерации.
Цикл обучения включал:
🔘адаптацию AR-модели к диффузионной генерации;
🔘постепенное увеличение размера блока;
🔘сравнение полностью диффузионного обучения и гибридного подхода AR+dLLM;
🔘SFT с complementary masking и стадией confidence tuning для дополнительного ускорения генерации.
Результаты:
🔘GFusion в режиме одного пользователя генерирует в среднем на 70% быстрее GigaChat3-10B-A1.8B.
🔘Даже по сравнению с GigaChat3-10B-A1.8B + MTP-головой ускорение составило около 39%.
🔘Просадка качества относительно авторегрессионной модели осталась в пределах 2–4 п.п., а сам трейд-офф между скоростью и качеством можно контролировать параметрами диффузионной генерации.
🔘Добавлена поддержка GFusion в SGLang и реализован entropy-bounded sampling — алгоритм семплирования, который ускоряет генерацию не только GFusion, но и других диффузионных LLM.
🔘Для обучения написана и выложена в open-source своя реализация attention на TileLang под структуру диффузионной маски и получено до +77% end-to-end ускорения относительно Flex-Attention на длинном контексте.
💡 Главный вывод GFusion состоит в том, что ускорение LLM может требовать переосмысления самого подхода к генерации. Однако, чтобы это заработало на практике, важно довести до рабочего состояния весь стек от обучения и SFT до декодинга, attention-ядер и поддержки в inference runtime.
➡️Подробности — в статье на Habr.
➡️HF: GFusion-10B-A1.8B-base GFusion-10B-A1.8B
➡️GitVerse
Маководы, вам: забираем Techtool Lite — ваш личный диагностический центр для яблока 👍
Компания Micromat, которая уже больше 30 лет занимается диагностикой маков и их ремонтом, выпустила бесплатную утилиту для быстрой проверки здоровья вашего компьютера. Она смотрит SSD, оперативную память, батарею, чистит системные кэши и многое другое. Есть даже мониторинг локальной сети.
Китайцы наносят удар по Claude Code: разрабы GLM выпустили тулзу ZCode 3.0 😮
Это ультимативный комбайн для написания кода и работы с ИИ-агентами: все в одном окне с возможностью удалённого управления через Телеграм, WeChat и Feishu. Сама среда разработки максимально заточена под GLM-5.2 — главную китайскую нейронку прямо сейчас.
Можно пользоваться бесплатно, есть платные тарифы и они сильно дешевле конкурентов — забираем.
Полезное: появился GitHub для электроники — BoardRepo.
Внутри уже 750+ открытых проектов, которые можно посмотреть, скачать и повторить — от простых устройств до контроллеров для клавиатур и LoRa-шлюза. Для каждого проекта доступны все исходники и документация. И всё это прямо в браузере без установки KiCad!
ФАС возбудит дело против Apple, если компания не выполнит требования.
ФАС выдала предупреждение яблочной компании. Они хотят, чтобы на iOS были предустановлены российские программы, в частности — мессенджер «Макс» и RuStore. Выполнить это надо до 15 июля, иначе последует штраф за неисполнение до 4 млрд рублей.
«Компании необходимо устранить дискриминационные условия для российских поисковых систем и исполнить требования о предустановке отечественного программного обеспечения на устройствах с iOS», — заявили в ФАС.
В России впервые отменили дипломные работы из-за ИИ 😳
Сочинский РУДН отказался от защиты дипломов для бакалавров юристов. Там считают, что ИИ уже за пару минут может написать хорошую работу с анализом судебной практики, поэтому такой формат перестал показывать реальные знания студентов.
Вместо диплома выпускники будут проходить устный экзамен. Новые правила коснутся поступивших в 2024, 2025 и 2026 годах.