Вчера Flower на своём ежегодном саммите показали Lizzy 7B. Компания малоизвестна широкой публике, но в узком кругу federated learning это главная команда в мире: Cambridge-спинаут, YC W23, open-source framework, которым пользуются Samsung, Nokia, Bosch, Siemens Healthcare, Banking Circle. Если вы когда-нибудь слышали словосочетание «federated learning» - с большой вероятностью за этим стоял их код.
Lizzy 7B позиционируется как Sovereign UK LLM - но самое интересное не в позиционировании, а в том как она обучена.
Foundation-модели сегодня тренируют одним способом: сгоняют десятки тысяч GPU в один дата-центр, сливают туда все данные, и месяцами крутят градиенты. Inflection хвасталась кластером из 22 тысяч H100. Isambard-AI в Бристоле построили за 225 миллионов фунтов. Мы привыкли, что pre-training - это физически один объект, обнесённый забором.
Flower первыми показали, что это не обязательно так. Ещё в марте 2024 в партнёрстве с CaMLSys lab в Cambridge они обучили 1.3B LLM через federated learning и побили предыдущий рекорд Google DeepMind больше чем в три раза - модель втрое больше при том же объёме GPU, клиентов и токенов. Год с небольшим - и вот 7B, обученная тем же методом, но на GPU, физически разбросанных по миру. Не fine-tuning поверх чужих весов. Pre-training. С нуля. Распределённо.
Разговор о «суверенных» моделях последние два года идёт по двум осям. Data sovereignty - данные не выезжают из юрисдикции, это про GDPR и CLOUD Act. Compute sovereignty - государство строит свой суперкомпьютер, как UK с Isambard-AI, как EU с EuroHPC. Под обе оси насобирана целая каста 7B-моделей: Mistral во Франции, Lucie там же, Teuken в Германии, Bielik в Польше, Caernarfon от UCL в UK.
Federated learning добавляет третью ось - training sovereignty. Данные и compute остаются у владельцев физически, по сети ходят только градиенты.
Что это меняет практически. Если метод продолжит масштабироваться - а Flower идут по траектории 1B → 3B → 7B довольно уверенно - вопрос «у кого больше H100 в одном здании» перестаёт быть единственным способом играть в foundation models. По расчётам самих Flower, суммарная compute-мощность смартфонов на Snapdragon 8 — 70 экзафлопс против 3 экзафлопс у топового централизованного кластера. Цифры теоретические, но направление понятное.
Как видно на фото с benchmarks относительно других моделей, цифры на удивление очень хорошие.
Вполне достойная модель и можно ее самим попробовать вот тут: https://huggingface.co/flwrlabs/Lizzy-7B
Изображение
Изображение
Изображение