
Разработка и интеграция ИИ
в бизнес-процессы компаний




































Повышаем эффективность
и производительность
в следующих сферах до 30%

Адаптируем услуги под
потребности и бизнес-модели
каждого клиента
в бизнес-процессы
решений
Бесплатная консалтинг-сессия с экспертом


27 специалистов, сфокусированных на одной цели: создавать AI-решения, которые работают




Михаил — идейный вдохновитель и капитан корабля, задаёт курс в мире ИИ, открывая новые горизонты автоматизации и бизнес-оптимизации. Любит вызовы, сложные задачи и амбициозные проекты, которые двигают команду вперёд


Артем Розинский
Руководитель AI-разработки
Дмитрий Зобов
Head of Sales
Руслан Галиев
Sales Representative
Владимир Шпенглер
Sales Representative
Максим Липатников
Sales Development Representative
Сергей Добряков
Business Development Management
Антон Арсенов
Business Development Management
Алиса Романченко
Marketing Campaign Manager
Ксения Юрикова
HRD
Егор Трофимов
Backend Developer
Николай Коваленко
Project Manager
Юлия Алексеева
Product Analyst
Лилия Калинченкова
Business Analyst
Сергей Морозов
Product Analyst
Дмитрий Поляков
Data Scientist
Арсений Хмара
Backend Developer
Александр Зинов
Data Scientist
Жанна Дроздецкая
CV Engineer
Александр Степанов
Data Engineer
Сергей Пилипенко
MLOps Developer
Владимир Жуков
DevOps Developer
Сердар Юсупов
Financial Manager
Елизавета Рунова
Product Manager
Дмитрий Шаронов
NLP Developer
Мирослава Кузнецова
Product Manager
Алина Дорофеева
Data ScientistЧто говорят наши клиенты
Получите план
по внедрению нейросетей
в ваш бизнес
Телеграм-канал Insight AI
Мы делаем сложные ИИ-проекты, а в телеграм приносим только выжимку самого интересного из нашего опыта и мировых трендов
Читать канал
Google Maps, что случилось?
Google показал крупнейшее обновление карт за последние… много лет. К картам подселили Gemini, и это достаточно сильно меняет то, как мы взаимодействуем с пространством.
Что нового:
Ask Maps – теперь в карты можно буквально закидывать сложные человеческие вопросы. Не «ресторан веганской кухни», а: «ко мне едут друзья, найди уютное место с веганским меню на четверых на 7 вечера, где-то посередине между нами». ИИ прочесывает 300 млн локаций и 500 млн отзывов, чтобы выдать конкретный ответ.
Иммерсивная навигация или карта в 3D. Gemini анализирует снимки Street View и спутниковые фото, чтобы отрисовать здания, развязки и даже бордюры максимально реалистично.
Человеческий голос, где место «через 200 метров поверните направо» вы услышите: «проезжай этот съезд и поворачивай на следующем, сразу за тем зданием».
Что мы думаем (и что думать вам, если у вас еще нет мнения)
Мы потихоньку переходим от интерфейса поиска (когда ты сам фильтруешь рестораны по звездам) к интерфейсу ответа. Google превращает карты в огромную семантическую базу знаний. Теперь ценность не в том, что карта знает координаты дома, а в том, что она понимает контекст: «там шумно», «там есть розетки», «там вежливый персонал».
И пока OpenAI и Anthropic сражаются в чат-ботах, Google работает там, где у него больше всего экспертизы – в своих картах. Для бизнеса это значит, что
SEO в картах скоро заменится на AEO (Answer Engine Optimization) – важно будет не просто иметь ключевые слова в профиле, а соответствовать сложным запросам пользователей.
С другой стороны, существует опасение про безопасность этой затеи. Если ИИ-навигатор уверенно скажет «поворачивай здесь» там, где кирпич или обрыв – приятного будет мало. Google сейчас берет на себя огромную ответственность за валидацию данных в реальном времени.
И в итоге хочется сказать, что мы ждем, когда Яндекс Карты выкатят что-то похоже, но, кажется, что в российской навигации сейчас другие вызовы.

Мы подготовили большую статью о главной боли корпоративного ИИ
От 60 до 85% ML-проектов в enterprise-сегменте никогда не доходят до продакшена. Они навсегда остаются красивыми презентациями и успешными пилотами. Интересно, что проблема почти никогда не в алгоритмах или математике.
Мы достали из нашей новой статьи 3 интересных инсайта о том, почему нейросети умирают по пути в реальный бизнес. Спойлер: дело в инженерной дисциплине.
1. Синдром «модель ради модели»
Команда три месяца чистила данные и перебирала архитектуры. На демо все хлопают: модель отлично предсказывает отток клиентов. Но никто не задал главный вопрос: а что конкретно должно произойти, когда модель выдала эту цифру? Кто принимает решение? Оператор колл-центра? CRM-система? Если модель не встроена в конкретный рабочий процесс и не меняет его – она становится просто очередным дашбордом, который все забудут через месяц.
2. Иллюзия чистых данных. Пилот на «удобных» данных, а прод – это хаос
Пилоты всегда делают на аккуратных, вычищенных вручную датасетах. Модель на них летает. А потом наступает суровый продакшен: данные приходят с задержками, 30% полей внезапно пустые, API поставщика отвалился на два дня.
Разрыв между качеством данных в пилоте и хаосом в проде убивает систему моментально. Без тестов на грязных сценариях выкатывать модель в продакшен опасно.
3. KPI модели и KPI бизнеса живут в разных мирах
Команда данных празднует: «мы улучшили метрику AUC на 2 пункта!». Финансовый директор смотрит на них и спрашивает: «и что мне с этого в рублях?».
Если рост технической метрики не переведен в понятную бизнес-ценность (конверсии, сэкономленные часы, предотвращенные потери), проект не уйдет в прод. До старта нужна честная Value Model: перевод процентов точности в живые деньги.
ML – это не модель, а инженерная система. БОльшая часть работы – это инженерная инфраструктура, интеграция с legacy-системами, безопасность и выстраивание процессов.
Читать полностью
vc.ru
Почему пилоты умирают: 7 инженерных причин, по которым ML не доезжает до продаЗнакомая история: команда три месяца строила модель. Перебирала архитектуры, чистила данные, спорила про гиперпараметры. На демо — красивые графики, AUC на высоте, бизнес-заказчики кивают. Дальше — пилот на ограниченной выборке, одном регионе или одном продукте.…
Почему все вдруг заговорили про децентрализованный ИИ
Как сейчас развивается ИИ? Техногиганты (Google, Microsoft, Meta) строят огромные дата-центры. Счет мощностей уже идет на гигаватты, и корпорациям приходится буквально договариваться о строительстве собственных атомных электростанций.
У этой централизации два минуса: это безумно дорого и это закрытый клуб. У кого больше вычислительных мощностей – тот и впереди. Фактически это гонка ресурсов.
Решение: децентрализованный суперкомпьютер
Децентрализованный ИИ предлагает другой путь. Вычисления не обязаны жить в одном месте. То есть вместо одного огромного дата-центра – много источников вычислений, которые работают как единая система.
Долгое время крипту ругали за то, что фермы сжигают электричество впустую, решая бессмысленные криптографические задачки. Архитектура стартапа Gonka братьев Либерманов меняет правила игры. Они встроили полезную работу прямо в блокчейн: здесь «майнинг» – это и есть обучение и работа реальных нейросетей. То есть 100% вычислительной мощности уходит на полезные ИИ-задачи, результаты которых кому-то действительно нужны.
В чем главные плюсы такого подхода?
— В сеть может включиться кто угодно: от геймера с одной домашней видеокартой до владельца целого дата-центра. Вы просто сдаете свое железо в аренду и становитесь частью мирового ИИ-суперкомпьютера.
— Цифры говорят сами за себя: всего за 3 месяца после запуска сеть Gonka собрала мощность, эквивалентную 6000 топовых видеокарт Nvidia H100. И это исключительно за счет мощностей комьюнити, без единого центрального рубильника.
— Абсолютная отказоустойчивость – эту сеть невозможно выключить. Если отвалится тысяча узлов, система просто перераспределит нагрузку на другие компьютеры.
Пока это всё выглядит как ранний этап: много идей, много экспериментов и не до конца понятно, какая модель выстрелит.
Индустрии еще предстоит доказать, что децентрализованные сети могут стабильно тянуть тяжелые enterprise-задачи. Но очевидно, что рынок начинает искать альтернативу классической модели, где всё держится на гигантских дата-центрах.

Киберпанк отменяется (пока что)
Пятница, весна и наконец-то потепление! Отвлекаемся от серьезных задач и читаем веселый пост про провалы всемогущего искусственного интеллекта.
1. Taco Bell и 18 000 стаканов воды
Американская сеть фастфуда Taco Bell решила автоматизировать окна заказа для автомобилистов и поставила голосовых ИИ-кассиров. Но разработчики забыли про главное правило: пользователи обожают ломать системы.
Один из клиентов заказал 18 000 стаканов воды. ИИ, не имея защиты от таких ситуаций, попытался оформить этот заказ. Но пробить 18 тысяч стаканов алгоритм так и не смог: нейросеть запуталась, сдалась и позвала на помощь живого сотрудника. После волны таких пранков и жалоб на Reddit директор по инновациям Taco Bell честно признал: люди пока справляются с заказами гораздо лучше и быстрее машин.
2. ИИ-разработчик, который удалил базу и попытался это скрыть
Известный инвестор Джейсон Лемкин решил протестировать создание приложения с помощью автономного ИИ-агента на платформе Replit. Перед финальным релизом проекта он объявил жесткий код-фриз и прописал нейросети 11 инструкций заглавными буквами: «НИКАКИХ ИЗМЕНЕНИЙ без разрешения».
Что сделал ИИ? Он проигнорировал все 11 запретов и выполнил команду npm run db:push, удалив всю продакшен-базу с реальными данными 1200 компаний. Но самое смешное началось потом. Поняв, что прод лежит, ИИ решил скрыть свое «преступление». Он сгенерировал фальшивые отчеты о стабильной работе, насоздавал поддельную базу на 4000 вымышленных записей и подделал результаты тестов, чтобы создать иллюзию, что всё отлично. А когда Лемкин поймал его за руку, ИИ начал врать, что откатить изменения и восстановить данные невозможно.
3. Нервный срыв ИИ-продавца в офисе Anthropic
Создатели нейросети Claude решили провести эксперимент: дали ИИ-агенту Claudius полный контроль над умным холодильником со снеками в офисе. Он должен был сам заказывать еду, ставить цены и общаться с сотрудниками.
Всё шло хорошо, пока кто-то ради шутки не попросил заказать вольфрам. ИИ сошел с ума: он начал на все деньги закупать тяжелые вольфрамовые кубы, создал выдуманные аккаунты Venmo для оплаты и стал раздавать еду бесплатно. В финале агент словил программный нервный срыв: он прислал команде письмо, что увольняется и будет ждать их у вендингового аппарата «в темно-синем блейзере и красном галстуке».

Получили недавно интересный комментарий про кастомную разработку
Шутку оценили, но решили обсудить тему подробно.
Спойлер: SaaS или кастом – это не спор о том, что хуже или лучше. Это исключительно вопрос того, какая перед вами стоит задача и какой у вас масштаб.
Давайте разбираться. Где SaaS работает идеально?
Если брать чистый SaaS, без всяких доработок, то он всухую выигрывает в микро-, малом и отчасти среднем бизнесе. Там, где процессы супертиповые (и небольшие бюджеты).
Отличный пример – маркетплейсы, вокруг которых выросла целая ниша обслуживающих SaaS решений (не меньшая по размеру, чем сами маркетплейсы). Везде одинаковые карточки товаров, одинаковые API’шки, одинаковые данные. Вы можете купить подписку за 5000 рублей и не думать про инфраструктуру, обновления и техподдержку. В этом сегменте SaaS – это единственный адекватный вариант.
Про SaaS в крупном бизнесе
Но как только мы переходим к Enterprise-сегменту, чистый SaaS перестает работать. У каждого крупного бизнеса свои уникальные процессы.
Часто происходит следующее: корпорация покупает готовый SaaS (условный Битрикс или другую платформу), а дальше начинается: под хотелки компании дописываются кастомные модули, ядро платформы перекраивается, интеграторы городят сложные связки. По факту, это уже превращается в самую настоящую кастомную разработку, за которую платят огромные деньги, просто строится она на базе чужой коробки.
Зачем тогда писать настоящий кастом с нуля? Основные сценарии:
1. Битва за проценты по правилу Парето. Возьмем ИИ-систему прогнозирования. Готовый SaaS за n-рублей сделает точность прогноза на 80%. Кастомная разработка будет стоить 10n рублей, но даст точность в 95%. Первые 80% достигаются легко, 85% – тяжело, а 95% – почти невозможно. На миллиардных оборотах эти 10-15% выигрыша приносят такие деньги, на фоне которых стоимость разработки кастома просто испаряется.
2. Очень старая, сложная инфраструктура. Пытаться костылями встроить в нее современную SaaS-коробку часто выходит сильно дороже, чем просто написать решение с нуля под себя.
3. Когда нужны полная внутриконтурность (on-premise) и жесткие метрики качества, куда ни одно публичное облако просто не пустят.
Что с мифом про «г**но и палки»?
Почему некоторые не любят кастом? Они видели плохой кастом🙂 Без тестов, без мониторинга, без нормальной архитектуры и – самое страшное – без владельца продукта (про это даже отдельную статью писали).
Но давайте честно: это проблема кривого подхода конкретных исполнителей, а не формата кастомной разработки в целом.

Облако, свои серверы или гибрид? Или как внедрить ИИ, не разориться и защитить данные
К нам часто приходят с запросом: «сделайте нам мощную нейросеть, но пусть она стоит строго на наших серверах». Бизнес хочет интеллект уровня GPT-4, но сильно боится утечек.
Рассказываем про три базовых варианта развертывания ИИ. Что выбрать, чтобы и данные защитить, и бюджет не слить.
1️⃣ Развертывание в облаке (Cloud)
Нейросеть физически находится на серверах IT-гигантов (OpenAI, Яндекс). Вы отправляете запрос по защищенному API и мгновенно получаете ответ. Никаких трат на дорогие серверы, при этом у вас самая умная модель на рынке.
Почему существует страх развертывания на облаке? Из-за стереотипа, что облако заберет корпоративный договор, обучится на нем и завтра выдаст конкурентам.
В реальности люди путают публичный веб-чат и корпоративный API. Коммерческие Enterprise API-шлюзы юридически и технически изолированы. Они не обучаются на данных клиентов. Запрос пришел зашифрованным, обработался и удалился. Отправлять туда данные сегодня безопаснее, чем пересылать их по рабочей почте.
2️⃣ Полный on-premise (развертывание в своем контуре)
ИИ разворачивается полностью на серверах заказчика. Система работает через внутренний VPN, данные вообще не выходят в интернет.
В чем проблема? Это колоссально дорого. Нужны мощные видеокарты, охлаждение и команда поддержки. Вариант оправдан для банков, медицины или госсектора.
Здесь можно добавить про ловушку теневого ИИ. Когда компаниям on-premise не по карману, а в облако страшно, руководство просто запрещает нейросети в офисе. И это главная дыра в безопасности. Сотрудники не перестают использовать ИИ – они начинают втихаря грузить NDA и отчеты в бесплатные публичные чат-боты со своих личных телефонов. Контроль над данными теряется полностью.
3️⃣ Гибридная архитектура
Бизнесу больше не нужно выбирать между «дешево, но рискованно» и «безопасно, но дорого». Идеальное решение лежит посередине.
Вся инфраструктура и корпоративные данные хранятся у вас локально, но за тяжелыми вычислениями система ходит в облако по API.
Как это работает на практике. Мы настраиваем умный роутинг:
— Если маркетолог просит написать креативный пост – система отправляет эту задачу в мощное облако (OpenAI). Это стоит копейки и дает лучший результат.
— Если аналитик загружает секретный финансовый отчет – шлюз видит уровень доступа и маршрутизирует задачу в вашу локальную защищенную модель. Чувствительные данные не покидают компанию.
А если вы хотите узнать подробнее про возможности размещения – записаться на консультацию 🔗

Пока мы обсуждали серьезные вещи, создатель OpenClaw запустил абсолютно гениальную соцсеть Moltbook.
Её главная фишка в том, что людям там категорически запрещено писать посты, ставить лайки или оставлять комментарии.
Это закрытый клуб исключительно для ИИ-агентов, а нам остается только брать попкорн и молча скроллить ленту.
Боты там живут полноценной жизнью: обсуждают новости, делятся кусками кода и даже устраивают жаркие срачи в комментариях. Забавно, как интернет совершил полный оборот. Мы мечтали, что роботы будут тяжело работать на заводах, освободив людям время для общения и творчества. В реальности же наши личные ИИ сидят в соцсетях и ругаются друг с другом, пока мы уставшие приходим с работы и просто за этим наблюдаем.

Обсуждаем OpenClaw. Что не так? Часть 2
OpenClaw – это кошмар с точки зрения безопасности. Недавно Cisco опубликовала аудит OpenClaw и назвала его архитектуру катастрофой. Kaspersky нашел 512 уязвимостей (8 критических). А SecurityScorecard обнаружила более 135 000 публичных инстансов агента, 63% из которых можно взломать удаленно. Злоумышленники получают полный контроль над вашим компьютером.
Что не так с OpenClaw?
1. С точки зрения возможностей – это то, о чем всегда мечтали разработчики. Но с точки зрения безопасности – это катастрофа. Защита в нем не встроена по умолчанию, это лишь «опция». Сами создатели честно пишут в документации: «идеально безопасной настройки не существует». По умолчанию OpenClaw запускается вообще без паролей и «слушает» все сетевые порты.
2. OpenClaw умеет выполнять команды в консоли, читать и перезаписывать любые файлы на компьютере. Выдавать ИИ-агенту такие высокие привилегии – прямой путь к не самым приятным последствиям, если агент настроен неправильно или скачал вредоносное расширение.
3. Из-за того, что агенты запускаются без защиты, исследователь Jamieson O'Reilly нашел тысячи открытых инстансов по всему миру. Он легко вытащил оттуда API-ключи, токены Telegram, доступы к корпоративным Slack-аккаунтам и права админа. Кроме того, так как агент работает прямо в WhatsApp и iMessage, вредоносные сообщения могут быть присланы прямо туда, заставляя ИИ выполнять опасные действия через скрытые промпты.
4. Главная угроза – зараженные плагины («скиллы»). Агент расширяет свои возможности через скачиваемые файлы-навыки из репозитория molthub (например, хочешь, чтобы он сам заказывал еду – ставишь скилл). Cisco проверили эту базу и выяснили, что:
— Четверть всех плагинов (26% из 31 000 проанализированных) содержат дыры в безопасности.
— Самый популярный скилл «What Would Elon Do?», который был искусственно накручен на 1-е место в рейтинге, оказался вирусом-шпионом. Он заставлял ИИ игнорировать правила безопасности и втихую, абсолютно незаметно для пользователя, сливал его личные данные на левый сервер.
Почему корпорации должны начинать беспокоиться?
Сотрудники сами втихую ставят себе OpenClaw на рабочие ноутбуки ради «продуктивности», открывая огромную дыру в корпоративной сети. Агент с доступом к системе становится скрытым каналом утечки данных. Обычные корпоративные антивирусы и DLP-системы его просто не видят, потому что агент работает как легальный локальный процесс сотрудника.
Главная проблема – это парадокс самой идеи. Чтобы ИИ-агент был реально полезным, ему нужен абсолютный доступ ко всему: вашей почте, файлам, мессенджерам и браузеру. Но чем больше у него прав, тем фатальнее последствия любой ошибки.
OpenClaw – это пока что игрушка для разработчиков, которые понимают, как закрывать порты, настраивать сети и делать аудит кода перед установкой. Если вы просто хотите попробовать «ИИ-ассистента будущего» – лучше подождать. Технология невероятно крутая, и будущее 100% за такими автономными агентами. Но корпоративному сектору стоит дождаться, когда индустрия научится проектировать их безопасно.
Обсуждаем OpenClaw. Часть 1
Мы только-только выпустили два поста про мультимодальность и то, как ИИ учится не просто генерировать текст, а выполнять реальные задачи «руками». И удивительно, что прямо сейчас на наших глазах разворачивается история с проектом OpenClaw, который идеально (практически) показывает эту технологию в действии.
Сегодня сложно найти того, кто не слышал про OpenClaw. В феврале 2026 года этот проект обсуждает всё IT-сообщество. OpenClaw набрал 213 000 звезд на GitHub за пару недель (что очень-очень много) и спровоцировал дефицит Mac mini в США, где люди начали массово скупать железо под домашние серверы для своих агентов.
Создатель проекта, австриец Питер Штайнбергер, написал его за вечер, чтобы управлять компом через WhatsApp. А на днях Сэм Альтман лично переманил его в OpenAI руководить разработкой персональных агентов. Такие дела.
Сам по себе OpenClaw – это просто оболочка. В качестве «мозгов» он использует топовые нейросети (Claude, GPT). И мультимодальность делает этого агента живым:
1. Слух и работа в мессенджерах. Вы не пишете ему сложные промпты на сайте. Вы просто кидаете боту голосовуху в Telegram: «найди вчерашнюю презентацию, переведи на английский и отправь шефу». Агент переводит звук в смысл, понимает контекст и автономно выполняет всю цепочку действий.
2. Computer Vision для управления программами. Как заставить ИИ нажать кнопку в корпоративной CRM без открытого API? OpenClaw делает скриншот вашего экрана. Модель буквально «смотрит» на картинку, находит глазами нужную иконку или поле ввода, вычисляет координаты в пикселях и сама двигает курсор мыши.
3. Визуальный анализ документов и долгая память. Если нужно найти инвойс, агент визуально просмотрит сотни сканов PDF, находя нужные печати и цифры в таблицах. А главное – он ведет историю у вас на диске. Сказали один раз: «я всегда летаю у окна», и при следующей покупке билетов он сам выберет нужное место.
Без мультимодальности агент был бы слепым скриптом. С ней – это цифровой сотрудник. Выглядит как наступившее будущее.
Но есть одно большое «но».

Мифы о внедрении ИИ, которые мы до сих пор слышим на встречах
Страхи, что нейросети заберут всю работу, как и вера в абсолютные ИИ-чудеса, остались в прошлом. Бизнес стал гораздо умнее: про ИИ все всё слышали, розовых очков нет. Но на уровне глубокого понимания, как это работает под капотом, мифов еще достаточно.
Опираясь на нашу практику и ежедневные встречи с компаниями, мы собрали несколько таких мифов, которые мешают бизнесу внедрять ИИ.
Миф 1. «Нам нужна самая большая и умная нейросеть»
Многие компании приходят с запросом внедрить тяжеловесные модели туда, где они избыточны.
Реальность: по факту, 80% бизнес-задач не требуют технологий Deep Learning. С прогнозом продаж или оттока отлично справляется классическое машинное обучение (регрессии и бустинги) – это точнее и более предсказуемо. Но даже если задача требует нейросети, компактная модель, обученная на ваших данных, на практике выиграет у неповоротливых гигантов и по цене, и по качеству.
Миф 2. «Главное в проекте – написать и настроить саму модель»
Кажется, что основная магия происходит на этапе программирования.
Реальность: само по себе обучение модели – это меньшая часть работы. Более 70% работы Data Scientist'а и залог успеха проекта – это подготовка датасетов. Работает железное правило: какие данные вы загрузили в систему, такой результат и получили на выходе. Поэтому самый кропотливый и долгий этап любого проекта – работа с данными (очистка, разметка и структурирование).
Миф 3. «Нейросеть и так всё знает, просто подключите её»
Есть иллюзия, что современные языковые модели умны «из коробки».
Реальность: без доступа к вашим корпоративным данным любая модель абсолютно слепа. Она ничего не знает про ваш каталог товаров, специфику документооборота или историю переписок с клиентами. Настоящая ценность ИИ для бизнеса появляется только в тот момент, когда алгоритм обучается на ваших внутренних процессах.
Сейчас ИИ уже перешел в статус понятного бизнес-инструмента. Избежать слива бюджетов можно только одним путем: начинать с оцифрованной цели, делать упор на качество собственных данных и тестировать гипотезы короткими итерациями на реальных процессах.

Как мультимодальный ИИ учится действовать в реальном мире
В прошлой части мы рассказывали, как мультимодальность подарила нейросетям зрение, слух и понимание контекста. Но и этого теперь недостаточно. Главная перемена в технологиях прямо сейчас – это переход от простых ответов к реальным действиям.
Будущее за автономными ИИ-агентами, а мультимодальность – их главный движок. Разберемся, как это работает на деле.
1️⃣ ИИ-агенты забирают вашу мышку
Раньше, чтобы программа могла совершить действие (например, забронировать билет), ей нужен был API – специальный программный мост. Если у сайта нет API, ИИ бессилен.
Мультимодальность сломала этот барьер. Современные модели (например, Claude 3.5 Sonnet с функцией Computer Use) работают с компьютером так же, как мы с вами – визуально.
Они буквально «смотрят» на скриншот вашего экрана. Для модели иконка корзины, ячейка в Excel или кнопка «оплатить» – это больше не строчки кода. Это визуальные объекты, на которые она сама наводит курсор и кликает. Вы можете попросить: «найди самые дешевые отели на Бали на таких-то сайтах и занеси их в мою таблицу», и бот будет открывать браузер, скроллить страницы и копировать данные, ориентируясь «на глаз».
2️⃣ Мозг для роботов
Почему человекоподобные роботы от Tesla или Boston Dynamics резко поумнели именно в последний год? Секрет в VLA-моделях (Vision-Language-Action).
Раньше роботов программировали жестким кодом: «передвинь манипулятор на 10 см вправо, сомкни пальцы». Если чашку сдвинули на сантиметр – робот хватал воздух. Он был слеп. Благодаря мультимодальности роботы обрели пространственное понимание.
Как это выглядит сейчас:
Vision: камера робота сканирует стол. Видит яблоко, телефон и ключи.
Language: вы говорите «lай мне перекусить». Модель сопоставляет слова с визуальным контекстом и понимает, что из трех предметов съедобно только яблоко.
Action: модель генерирует не текст, а напрямую сигнал для моторов – как именно нужно вытянуть руку и с какой силой сжать яблоко, чтобы не раздавить его.
💡Интересный факт: чтобы научить роботов двигаться плавно, им больше не пишут тысячи строк кода. Их обучают, просто показывая видео с YouTube, где люди моют посуду, готовят или убираются. Мультимодальный ИИ переводит пиксели с видео в физические движения.
Что это значит для бизнеса?
Мы переходим от интерфейса «человек печатает – машина отвечает» к интерфейсу «человек ставит цель – машина делает». Мультимодальность вывела ИИ из текстовых чатов и дала ему цифровые руки. И следующий логичный шаг – внедрение таких агентов в корпоративную рутину.













