Звучит щедро, но давайте разберёмся, что там на самом деле.
Платформа build.nvidia.com — каталог из 225+ моделей, 95 из которых доступны бесплатно. Прямо в браузере, без регистрации, открыл и пользуешься. Через API тоже можно бесплатно, но там уже нужна регистрация: дают 1000 кредитов на старте, можно запросить до 5000, потолок 40 запросов в минуту. Для экспериментов хватит, для продакшена — нет. Что, собственно, и является планом NVIDIA: попробовал бесплатно, понравилось, разворачиваешь у себя с платной лицензией. Классика.
Окей, но зачем?
Есть же OpenRouter, который агрегирует 300+ моделей от 60+ провайдеров через один API-ключ. Всё так, но бесплатных моделей у OpenRouter около 29, и это в основном текстовые чатботы. NVIDIA интересна другим — тут зоопарк выходит далеко за пределы «поговорить с нейросетью».
Вот что привлекло внимание.
Речь и звук. Стриминговое распознавание речи в реалтайме (Nemotron ASR), Whisper, очистка шума с микрофона (Studio Voice), голосовой чат и синтез речи из короткого аудиосэмпла.
Зрение и дизайн. FLUX.2 для генерации картинок, TRELLIS от Microsoft для создания 3D-объектов из текста, OCR для распознавания текста на сканах, детекция таблиц и графиков в документах.
Физика и симуляция. Cosmos генерирует физически корректные видео для разработки автопилотов и роботов. Audio2Face превращает аудиодорожку в лицевую анимацию в реалтайме — по сути, липсинк для игровых персонажей.
Экзотика. Модели для дизайна белков, генерации молекул, предсказания погоды и геномная модель Evo 2 на 40 миллиардов параметров.
Короче, OpenRouter — это про сравнение чатботов. NVIDIA — про всё остальное. Хочешь убрать шум с записи, распознать текст на скане или сгенерировать 3D-объект — OpenRouter тут не поможет.
Сам пока не пробовал, но закладку поставил. Если захочется поиграться с чем-то за пределами текстовых моделей — знаю, куда идти.
UPD: Чтобы получить API access надо подтвердить аккаунт с иностранного номера телефона
Помните мой пост про шахматную фигуру, которой нет в правилах? Тогда я писал про утечку. Теперь всё официально.
7 апреля Anthropic запустила Project Glasswing — коалицию из AWS, Apple, Google, Microsoft, CrowdStrike и ещё десятков компаний. Цель: использовать Claude Mythos Preview для защиты критической инфраструктуры. Модель не будет доступна широкой публике, слишком опасна.
И вот что меня зацепило больше всего.
Mythos нашёл тысячи zero-day уязвимостей. В каждом основном браузере. В каждой основной операционной системе. Самой старой найденной дыре 27 лет. Она жила в OpenBSD, системе, которая известна именно своей безопасностью.
Двадцать. Семь. Лет.
Эти проекты тестируются тысячами инженеров. Проходят code review, фаззинг, пентесты, статический анализ. И всё равно тысячи критических багов сидели в коде годами и десятилетиями.
Как тестировщик, я не могу пройти мимо этого факта. Мы привыкли думать, что если продукт зрелый, если у него большое комьюнити, если его постоянно проверяют, то он безопасен. Оказывается, нет. Мы просто не видели то, что не умели искать.
И тут возникает неудобный вопрос: если AI находит то, что не нашли тысячи специалистов за десятилетия, может, проблема не в количестве тестирования, а в его подходе? 🤔
Но есть и вторая сторона медали, ещё более тревожная.
Найти уязвимость это полдела. Теперь её нужно исправить. А чтобы исправление дошло до пользователя, разработчик должен написать патч, патч должен пройти review и тесты, нужно выпустить новую версию, и наконец пользователь должен обновиться. Для браузера это дни или недели. Для ОС недели или месяцы. А для embedded-систем или IoT? Может, никогда.
Получается парадокс: чем больше дыр находит AI, тем шире окно, в котором эти дыры уже известны, но ещё не закрыты. Это как если бы вы нашли все замки в доме сломанными, но слесарь сможет прийти только через месяц. А адрес уже в интернете.
В комментариях к прошлому посту Сергей справедливо заметил, что если Mythos находит zero-day, он может подсказать и решение. Да, может. Но решение нужно выкатить. А выкатка это процесс, в котором можно наделать новых багов. Скорость нахождения и скорость исправления это два совершенно разных процесса, и первый теперь работает на порядки быстрее второго.
И когда мы слышим, что код, написанный AI, небезопасен, полезно вспомнить про хроническую дырявость кода, написанного людьми. Тысячи уязвимостей в зрелых проектах, которые тестировались годами, лучшее тому доказательство.
Мы живём в интересное время. AI не просто меняет тестирование, он показывает, насколько наше текущее тестирование было неполным.
Меня это одновременно пугает и вдохновляет. А вас?
Голосовой ввод это штука, которую все хотят и никто не использует. Потому что варианты на рынке выглядят так:
Wispr Flow стоит $15/мес. Голос летит на серверы OpenAI. Бонусом отправляет скриншоты экрана в облако. Aqua Voice приемлемые $8/мес. Основатели открыто говорят, что не могут запустить распознавание локально. Superwhisper всего лишь $250 за lifetime-лицензию.
Три продукта. Все платные. Все отправляют твой голос куда-то наружу. Все рекламируются у каждого второго блогера.
А есть Handy. Open-source, MIT-лицензия. Whisper под капотом. Голос никуда не уходит — распознавание на твоём компьютере. Mac, Windows, Linux.
Бесплатно.
Я хотел написать такую утилиту сам. Локальный Whisper + хоткей + вставка в буфер. Посмотрел код handy на GitHub — уже сделано. И хорошо сделано.
Передумал.
Механика простая: push-to-talk. Зажал клавишу — говоришь. Отпустил — текст в активном поле. Есть toggle-режим — нажал, говоришь сколько нужно, нажал ещё раз. Готово.
А зачем это тестировщику?
Прохождение сценариев. Включил toggle, идёшь по продукту и проговариваешь всё: что нажимаешь, что видишь, что сломалось. Руки на приложении, глаза на экране, не переключаешься никуда. В конце получается сырая расшифровка, которую нейронка за минуту превращает в структурированные баг-репорты. Я так делаю. Это работает.
Исследовательское тестирование. То же самое, только без скрипта. Ходишь по продукту, комментируешь вслух, на выходе получаешь готовый session report.
Ревью требований. Открыл спеку, читаешь и наговариваешь: тут противоречие, тут непонятно, тут не хватает данных. Из расшифровки получаешь готовый список вопросов к аналитику.
Промпты. Claude Code, ChatGPT — когда нужно объяснить контекст, а не написать три слова. Говоришь полминуты вместо пяти минут печатания.
Скинул ссылку коллегам и оказалось, что никто не слышал. При этом Wispr Flow знают все.
https://handy.computer. Пользуйтесь.
А вы используете что-то для голосового ввода? Или до сих пор всё руками?