Телеграм канал 'Deep Dive 2 Deep Learning'

Deep Dive 2 Deep Learning


389 подписчиков
55 просмотров на пост

Канал про глубокое машинное обучение: кейсы, новости, открытия и факапы из мира нейросетей и не только

Детальная рекламная статистика будет доступна после прохождения простой процедуры регистрации


Что это дает?
  • Детальная аналитика 5'784'260 каналов
  • Доступ к 1'533'798'153 рекламных постов
  • Поиск по 5'130'334'122 постам
  • Отдача с каждой купленной рекламы
  • Графики динамики изменения показателей канала
  • Где и как размещался канал
  • Детальная статистика по подпискам и отпискам
Telemetr.me

Telemetr.me Подписаться

Аналитика телеграм-каналов - обновления инструмента, новости рынка.

Найдено 336 постов

😎🤖Подборка ИИ-моделей для работы с видео
MiniGPT4-Video — мультимодальная модель большого языка (LLM), разработанная специально для понимания видео. Модель способна обрабатывать как временные визуальные, так и текстовые данные, что позволяет ей понимать сложности видео. Модель превосходит существующие современные методы, регистрируя прирост на 4,22%, 1,13%, 20,82% и 13,1% по тестам MSVD, MSRVTT, TGIF и TVQA соответственно.
MA-LMM - большая мультимодальная модель с расширенной памятью для понимания контекста длинных видео. Модель позволяет использовать длинный контекст за счет существенного сокращения использования памяти графического процессора.
Chat-UniVi - унифицированная зрительно-языковая модель, способная понимать и участвовать в разговоре с использованием изображений и видео с помощью визуального представления. Модель обучается на смешанном наборе данных, содержащем как изображения, так и видео, что позволяет напрямую применять его к задачам, включающим оба носителя, без каких-либо модификаций.
CameraCtrl - модель, которая обеспечивает точное управление положением камеры, что позволяет точно контролировать ракурсы и движения камеры при генерации видео.
Video-LLaVA - демонстрирует замечательные возможности интерактивного взаимодействия между изображениями и видео, несмотря на отсутствие пар изображение-видео в наборе данных.

📖Написать комикс со своим сюжетом теперь достаточно просто
AI Comic Factory предлагает удобный интерфейс и оптимизированные инструменты. Независимо от того, ребенок вы или взрослый, интуитивно понятный дизайн позволяет без труда создавать персонализированные комиксы.
AI Comic Factory обеспечивает простой и интуитивно понятный интерфейс, который позволяет пользователям легко создавать уникальные сюжеты и диалоги для своих комиксов.
Сервис может сгенерировать любые сюжеты и даже визуализировать сны. В общем, достатчно написать промт и вуаля - новый комикс.

💡🤖Модель для генерации похожих лиц
Arc2Face - это модель основы лица с уникальной идентичностью,учитывая встраивание человека в ArcFace, способна создавать многообразные фотореалистичные изображения с высокой степенью схожести лиц, превосходящей существующие модели.
Arc2Face для управления генерацией необходимы только отличительные функции ArcFace.
Таким образом, Arc2Face предлагает надежную основу решения для множества задач, где согласованность идентификаторов имеет первостепенное значение.
🤖💡🔎Локальная система метапоиска

LLocalSearch - это проект, который представляет собой систему метапоиска, использующую LLM-агентов.
Пользователь может задать вопрос, и система будет использовать цепочку ИИ-агентов для поиска ответа. Пользователь может видеть прогресс работы и окончательный ответ. При этом нетребуется никаких ключей или токенов доступа от OpenAI или Google API.

▪️Github

💡🤖😎ИИ, который поможет составить план к обучению
Learn Anything – это ИИ-сервис, который помогает пользователям находить инструменты, необходимые им для изучения всего, что они хотят. Нейронная сеть преобразует абстрактные желания и запросы в структурированный учебный план, предоставляя статьи, руководства и видеоуроки.
Просто введя в текстовое поле то, что они хотят узнать, пользователи увидят карту со ссылками на веб-сайты с информацией, необходимой им для достижения их цели.

🤖😎ИИ для пространственно-временной диффузии от Google Research
Lumiere — модель диффузии текста в видео, предназначенную для синтеза видеороликов, которые изображают реалистичное, разнообразное и связное движение.
Используя одно эталонное изображение, Lumiere может создавать видеоролики в нужном вам стиле, используя точно настроенные веса модели преобразования текста в изображение.
Lumiere AI работает с использованием передовой модели диффузии, известной как Space-Time U-Net или StuNet. Эта модель отличается от традиционных методов генерации видео тем, что она учитывает как пространственные, так и временные аспекты видео. Она генерирует всю длительность видео за один проход, обеспечивая более последовательное движение. Такой подход позволяет искусственному интеллекту Lumiere эффективно обрабатывать более длинные видеоролики с высоким разрешением.
Как отмечают разработчики, по сравнению с другими моделями видео с искусственным интеллектом, такими как Pika, Runway, Stability AI и ImagenVideo, Lumiere AI выделяется в нескольких аспектах. Он превосходит эти модели по величине движения, временной стабильности и общему качеству.
Однако, несмотря на свои расширенные возможности, искусственный интеллект Lumiere не лишен ограничений. Специфика данных, используемых для обучения модели, не полностью прозрачна. Кроме того, возникают трудности при создании видеороликов с несколькими кадрами или переходами между сценами, которые часто встречаются в обычных видеороликах.
Модель пока недоступна для публичного тестирования, так как еще находится на стадии разработки

🤖😳ИИ для полного цикла разработки ПО
Стартап Cognition из США представил новую нейросеть, названную Devin. По заявлению компании, данная разработка обладает способностью автоматизировать весь процесс создания программного обеспечения на более высоком уровне автономности, возможно, даже заменяя роль инженера-программиста.
Разработчики рассказали, что нейрорешение Devin обучено рассуждать, самостоятельно планировать и реализовывать проекты в области написания ПО, принимать по мере их выполнения различные решения. Также ИИ проекта не только обучается, но и исправляет допущенные ошибки и ориентируется в контексте.
Cognition оценили Devin по SWE-Bench бенчмарку и выяснили, что он решает 13.86% всех задач без какой-либо помощи. Этот показатель превосходит другие передовые модели ИИ-помощников программистов, которые в этом тесте в среднем получают 1.96% без помощи и 4.80% с помощью человека.
Согласно пояснению Cognition, основные возможности нейросети Devin включают в себя:
1. Комплексную разработку приложений — создание и развёртывание полнофункциональных веб-приложений, добавление новых опций в проект по мере поступления отзывов от пользователей
2. Адаптацию к новым технологиям — освоение незнакомых инструментов с помощью чтения документации
3. Обучение ИИ — установка и настройка больших языковых моделей на основе инструкций из различных открытых репозиториев
4. Автономное обнаружение ошибок — выявление, исправление и отлаживание проблем в коде. В этом случае Devin выступает полноценным участником в разработке проектов
5. Умение самостоятельно решать программные задачи по веб-разработке и другим направлениям на различных биржах фриланса, включая Upwork.

🤖🔥Техноблогер собрал лазеры, которые управляются взглядом
Ютубер Hacksmith сделал наплечные лазеры, которые управляются движением глаз.
Под капотом устройства находится нейронка, с распознаванием взгляда. Как отмечает разработчик, металл такой лазер не пробьет, но шарики лопает на раз-два. Вся электроника спрятана в рюкзаке, а система наведения встроена в очки.
Подробнее про данную разработку можно узнать тут

🤖🤖ИИ для создания реалистичных 3D-миров
Roblox Assistant — это проект, предназначенный для создания трехмерных миров и доступная как для детей, так и для взрослых. Согласно разработчикам, этот искусственный интеллект способен обеспечить участие более 200 миллионов пользователей одновременно.
Технический директор Roblox Дэниел Стурман заявил, что скептически относится к генеративному ИИ, однако он считает Roblox Assistant интересным применением этой технологии. По его словам, инструмент может создавать базовые игровые модели поведения, например, телепортировать игроков в нужное место после прикосновения к двери. Roblox Assistant также помогает с написанием кода и отвечает на вопросы о разработке на платформе.

💡🤖😎В открытом доступе модель для изменения стиля изображения путем переноса стиля
CycleGAN — это тип генеративно-состязательной сети, используемой для переноса стиля изображения. Сеть способна распознавать объекты на изображениях исходного домена и выполнять необходимые преобразования для соответствия внешнему виду объекта на изображениях целевого домена.
CycleGAN-Turbo является улучшенной по времени версией CycleGAN и превосходит существующие методы на основе GAN и диффузии для различных задач изменения изображений, например, преобразование дня в ночь, добавление / удаление погодных эффектов, таких как туман, снег и дождь и тд.

🤖🎵Подборка нейронок для транскрибации видео и подкастов
Riverside - это инструмент транскрипции AI, который позволяет пользователям транскрибировать аудио и видео файлы в более чем 100 языков
>Podsift - инструмент, который отправляет промты, созданные искусственным интеллектом, ваших любимых подкастов непосредственно на электронную почту.
>Deciphr - это инструмент, основанный на искусственном интеллекте, предназначенный для облегчения производственного процесса. Он помогает экономить время и генерировать подробные заметки о шоу
Transkribieren - это платформа искусственного интеллекта, которая транскрибирует аудио в текст за считанные секунды с высокой точностью.

😎🤖LLM начинают рассуждать
Maisa представили KPU (Knowledge Processing Unit) для улучшения способности LLM рассуждать
KPU - это фреймворк, который использует LLM, добавляет в нее развязку рассуждений и обработку данных в открытой системе, делая ее способной решать сложные задачи.
По сути, KPU - это обертка для LLM, которая состоит из так называемого мыслителя, исполнителя и виртуального контекстного окна.
Мыслитель, опираясь на выходы LLM, организует пошаговый план решения задачи пользователя. Исполнитель выполняет команды мыслителя и возвращает ему же результаты для перепланировки. А последняя компонента как бы обеспечивает оптимальное «общение» между этими двумя.
По мнению разработчиков, данная обертка способна существенно повысить способности модели решать сложные многоэтапные задачи (в том числе математические и алгоритмические)


Найдено 336 постов