За последние 12 месяцев связь между веб-браузерами и автоматизацией претерпела резкие изменения. Почти все крупные технологические компании стремятся создать автономные браузерные агенты. С начала 2024 года эта тенденция становится все более очевидной: OpenAI в январе представила режим агента, Anthropic выпустила функцию "использование компьютера" для модели Claude, Google DeepMind представила Project Mariner, Opera анонсировала браузер-агент Neon, а Perplexity AI представила браузер Comet. Сигнал очень ясен: будущее ИИ заключается в способности автономно навигировать в вебе.
Эта тенденция не просто добавляет более умных чат-ботов в браузеры, а представляет собой фундаментальное изменение в способах взаимодействия машин с цифровой средой. Браузерные агенты — это класс ИИ-систем, которые могут «видеть» веб-страницы и выполнять действия: кликать по ссылкам, заполнять формы, прокручивать страницы, вводить текст: как человеческие пользователи. Эта модель обещает высвободить огромную производительность и экономическую ценность, поскольку она может автоматизировать те задачи, которые в настоящее время все еще требуют ручного вмешательства или слишком сложны для выполнения традиционными скриптами.
▲ GIF демонстрация: Фактическая работа AI браузерного прокси: следуйте инструкциям, перейдите на страницу целевого набора данных, автоматически сделайте скриншот и извлеките необходимые данные.
Кто победит в войне браузеров на основе ИИ?
Почти все крупные технологические компании (а также некоторые стартапы) разрабатывают собственные решения для браузерных AI-агентов. Вот несколько наиболее代表ative проектов:
OpenAI – режим агента
Режим агента OpenAI (ранее известный как Оператор, запущенный в январе 2025 года) представляет собой ИИ-агента с встроенным браузером. Оператор способен выполнять различные повторяющиеся онлайн-задачи: например, заполнять веб-формы, заказывать продукты, организовывать встречи: все это выполняется через стандартный веб-интерфейс, привычный для человека.
▲ AI-агент организует встречи как профессиональный ассистент: проверяет календарь, ищет доступные временные интервалы, создает мероприятия, отправляет подтверждения и генерирует для вас .ics файл.
Anthropic – Claude "Компьютерное использование":
В конце 2024 года Anthropic представила новую функцию "Computer Use (использование компьютера)" для Claude 3.5, которая наделила его способностью управлять компьютером и браузером, как человек. Claude может видеть экран, перемещать курсор, нажимать кнопки и вводить текст. Это первый в своем роде крупный модельный агент, вошедший в открытое бета-тестирование, разработчики могут позволить Claude автоматически навигировать по веб-сайтам и приложениям. Anthropic позиционирует ее как экспериментальную функцию, основной целью которой является автоматизация многошаговых рабочих процессов на веб-страницах.
Сложность – Комета
AI стартап Perplexity (известный своим вопросно-ответным движком) в середине 2025 года представил браузер Comet как AI-замену Chrome. Основой Comet является встроенный в адресную строку (omnibox) диалоговый AI поисковый движок, который может предоставлять мгновенные ответы на вопросы и резюме, а не традиционные поисковые ссылки.
Кроме того, Comet включает в себя Comet Assistant, это агент, который находится в боковой панели и может автоматически выполнять повседневные задачи на разных сайтах. Например, он может подводить итоги открытых вами писем, назначать встречи, управлять вкладками браузера или представлять вас при просмотре и извлечении информации с веб-страниц.
Посредством интерфейса боковой панели агенты могут воспринимать содержание текущей веб-страницы, Comet нацелен на бесшовное слияние браузинга с AI помощником.
Реальные сценарии использования браузерного прокси
В предыдущем тексте мы уже рассмотрели, как крупные технологические компании (такие как OpenAI, Anthropic, Perplexity и др.) внедряют функции в браузерные агенты с помощью различных форматов продуктов. Чтобы лучше понять их ценность, мы можем подробнее рассмотреть, как эти способности применяются в повседневной жизни и в рабочих процессах предприятий.
Автоматизация веб-страниц в повседневной жизни
Электронная коммерция и индивидуальные покупки
Одним из очень практичных сценариев является делегирование покупок и задач по бронированию агенту. Агент может автоматически заполнять вашу онлайн-корзину и оформлять заказ в соответствии с фиксированным списком, а также искать наименьшую цену среди различных ритейлеров и завершать процесс оформления заказа от вашего имени.
Что касается путешествий, вы можете поручить ИИ выполнить такие задачи: "Забронируйте мне билет на рейс в Токио в следующем месяце (по цене ниже 800 долларов), а затем забронируйте отель с бесплатным Wi-Fi." Агент обработает весь процесс: поиск рейсов, сравнение вариантов, заполнение информации о пассажирах, завершение бронирования отеля, все это выполняется через сайты авиакомпаний и отелей. Этот уровень автоматизации значительно превосходит существующих туристических роботов: это не просто рекомендации, а прямое выполнение покупок.
Увеличение офисной эффективности
Агент может автоматизировать многие повторяющиеся бизнес-операции, которые люди выполняют в браузере. Например,整理电子邮件并提取待办事项,或在多个日历中检查空档并自动安排会议。Ассистент Comet от Perplexity уже может через веб-интерфейс подводить итоги содержимого вашего почтового ящика или добавлять события в ваш график. Агент также может, получив ваше разрешение, войти в SaaS-инструменты, создавать регулярные отчеты, обновлять электронные таблицы или отправлять формы. Представьте себе агента по кадрам, который может автоматически входить на различные сайты по найму, чтобы публиковать вакансии; или агента по продажам, который может обновлять данные о потенциальных клиентах в CRM-системе. Эти повседневные рутинные задачи обычно отнимают много времени у сотрудников, но AI может выполнять их, автоматизируя веб-формы и действия на страницах.
Кроме выполнения отдельных задач, агенты могут связывать полные рабочие процессы, охватывающие несколько сетевых систем. Все эти шаги требуют действий в различных веб-интерфейсах, и именно в этом сила браузерного агента. Агенты могут входить в различные панели для диагностики проблем, а также организовывать процессы, например, выполнять действия по приему новых сотрудников (создавая учетные записи на нескольких SaaS сайтах). По сути, любые многошаговые операции, которые в настоящее время требуют открытия нескольких веб-сайтов, могут быть выполнены агентами.
Текущие вызовы и ограничения
Несмотря на огромный потенциал, сегодняшние браузерные прокси все еще далеки от совершенства. Текущая реализация выявила некоторые долгосрочные технические и инфраструктурные проблемы:
Несоответствие архитектуры
Современная сеть создавалась для браузеров, управляемых людьми, и со временем постепенно эволюционировала в активное противодействие автоматизации. Данные часто скрыты в HTML/CSS, оптимизированном для визуального отображения, ограничены интерактивными жестами (наведение курсора, прокрутка) или доступны только через закрытые API.
На этой основе системы противодействия парсингу и мошенничеству дополнительно создали искусственные барьеры. Эти инструменты сочетают в себе репутацию IP, отпечатки браузера, обратную связь с JavaScript-вызовами и поведенческий анализ (например, случайность движения мыши, ритм печати, время задержки). Парадоксально, что чем "совершеннее" ведет себя AI-агент и чем выше его эффективность: например, мгновенное заполнение форм, отсутствие ошибок, тем легче его распознать как злонамеренную автоматизацию. Это может привести к жесткому отказу: например, агент OpenAI или Google может успешно пройти все этапы перед завершением покупки, но в конечном итоге быть остановленным CAPTCHA или вторичной безопасной фильтрацией.
Оптимизированный интерфейс для человека и враждебный к роботам защитный слой накладываются друг на друга, заставляя агента применять уязвимую стратегию «имитации человека». Этот подход очень легко терпит неудачу, а вероятность успеха низка (если не вмешиваться вручную, процент завершения полной сделки составляет менее одной трети).
Недоверие и проблемы безопасности
Чтобы дать агенту полный контроль, обычно требуется доступ к конфиденциальной информации: учетные данные для входа, файлы cookie, токены двухфакторной аутентификации и даже платежная информация. Это вызывает беспокойство как у пользователей, так и у компаний:
Что делать, если произошла ошибка代理 или был обманут злонамеренным сайтом?
Если агент согласился с каким-либо условием обслуживания или выполнил какую-либо транзакцию, кто несет ответственность?
Исходя из этих рисков, текущие системы обычно придерживаются осторожной позиции:
Mariner от Google не вводит информацию о кредитной карте или соглашается с условиями обслуживания, а передает это пользователю.
Оператор OpenAI будет запрашивать пользователя о необходимости взять на себя управление входом в систему или пройти CAPTCHA.
Агент, управляемый Claude от Anthropic, может напрямую отказать в входе по соображениям безопасности.
Результат: частые паузы и передачи между ИИ и человеком ослабляют опыт бесшовной автоматизации.
Несмотря на эти препятствия, прогресс продолжает быстро развиваться. Компании, такие как OpenAI, Google и Anthropic, извлекают уроки из неудач на каждом этапе итерации. С ростом спроса вполне вероятно появление "совместной эволюции": веб-сайты становятся более дружелюбными к агентам в благоприятных условиях, а агенты постоянно улучшают свои способности к имитации человеческого поведения, чтобы обходить существующие барьеры.
Методы и возможности
Современные браузерные прокси сталкиваются с двумя совершенно различными реальностями: с одной стороны, это враждебная среда Web2, где повсюду присутствуют анти-скрейпинг и меры безопасности; с другой стороны, это открытая среда Web3, где автоматизация часто поощряется. Это различие определяет направление различных решений.
Предложенные решения можно условно разделить на два типа: один тип помогает агентам обходить враждебную среду Web2, а другой тип является нативным для Web3.
Хотя браузерным прокси по-прежнему ставятся значительные задачи, новые проекты продолжают появляться, пытаясь напрямую решить эти проблемы. Криптовалюты и экосистема децентрализованных финансов (DeFi) становятся естественными полями для экспериментов, поскольку они открыты, программируемы и менее враждебны к автоматизации. Открытые API, смарт-контракты и прозрачность на блокчейне устраняют многие точки трения, распространенные в мире Web2.
Вот четыре типа решений, каждая из которых направлена на преодоление одной или нескольких текущих основных ограничений:
Нативный прокси-браузер для операций на блокчейне
Эти браузеры изначально были разработаны для автономного управления прокси и глубоко интегрированы с блокчейн-протоколами. В отличие от традиционного браузера Chrome, который для автоматизации операций в цепочке требует дополнительной зависимости от Selenium, Playwright или кошельковых плагинов; браузеры с нативным прокси предоставляют API и надежный путь выполнения для вызова прокси.
В децентрализованных финансах эффективность транзакций зависит от криптографической подписи, а не от того, является ли пользователь "человеком". Таким образом, в условиях блокчейна агенты могут обойти распространенные механизмы CAPTCHA, оценки мошенничества и проверки отпечатков устройств, используемые в мире Web2. Однако, если эти браузеры направляют на такие веб-сайты, как Amazon, они не могут обойти соответствующие механизмы защиты, и в таком случае все равно будут срабатывать обычные меры против роботов.
Ценность прокси-браузера заключается не в том, что он может чудесным образом получить доступ ко всем сайтам, а в следующем:
Нативная интеграция блокчейна: встроенный кошелек и поддержка подписей, без необходимости открывать всплывающее окно MetaMask или анализировать DOM фронтенда dApp.
Автоматизированный приоритетный дизайн: предоставляет стабильные высокоуровневые команды, которые могут быть напрямую отображены в операции протокола.
Модель безопасности: тонкая настройка контроля доступа и песочница, обеспечивающие безопасность приватных ключей в процессе автоматизации.
Оптимизация производительности: возможность параллельно выполнять несколько вызовов на блокчейне без необходимости рендеринга в браузере или задержек в пользовательском интерфейсе.
Пример: Donut
Donut интегрирует данные и операции блокчейна в качестве граждан первого класса. Пользователи (или их агенты) могут навести курсор, чтобы увидеть текущие риск-индикаторы токенов, или напрямую вводить команды на естественном языке, такие как “/swap 100 USDC to SOL”. Пропуская враждебные трения Web2, Donut позволяет агентам работать на полную мощность в DeFi, повышая ликвидность, арбитраж и рыночную эффективность.
Верифицируемое и доверенное исполнение代理
Предоставление代理 чувствительных полномочий связано с большими рисками. Соответствующие решения используют доверенные вычислительные среды (TEE) или доказательства с нулевым разглашением (ZKP) для шифрования подтверждения ожидаемого поведения агента до его выполнения, позволяя пользователям и контрагентам проверять действия агента без раскрытия закрытых ключей или удостоверений.
Показательный пример: Phala Network
Phala использует TEE (например, Intel SGX) для изоляции и защиты среды выполнения, чтобы избежать шпионства или изменения логики и данных агента со стороны операторов Phala или злоумышленников. TEE подобен «безопасной комнате» с аппаратной поддержкой, обеспечивающей конфиденциальность (внешние лица не могут видеть) и целостность (внешние лица не могут изменять).
Что касается прокси-серверов, это означает, что они могут входить в систему, хранить токены сессии или обрабатывать платежную информацию, при этом эти чувствительные данные никогда не покинут безопасную комнату. Даже если машина пользователя, операционная система или сеть будут взломаны, утечки не произойдет. Это напрямую устраняет одну из крупнейших проблем, связанных с использованием прокси-приложений: проблему доверия к чувствительным учетным данным и операциям.
Децентрализованная структурированная сеть данных
Современные системы обнаружения роботов не только проверяют, являются ли запросы «слишком быстрыми» или «автоматизированными», но также учитывают репутацию IP, отпечатки браузера, обратную связь по вызовам JavaScript и анализ поведения (например, движения курсора, ритм печати, история сессий). Прокси-серверы, исходящие из IP-адресов дата-центров или полностью воспроизводимых браузерных сред, легко идентифицируются.
Чтобы решить эту проблему, такие сети больше не собирают веб-страницы, оптимизированные для человека, а напрямую собирают и предоставляют данные, пригодные для машинного чтения, или используют реальные человеческие браузерные среды для проксирования трафика. Этот подход обходит уязвимости традиционных пауков на этапах анализа и противодействия сбору данных, обеспечивая прокси более чистыми и надежными входными данными.
Распределенная сеть (distribution network) позволяет AI-агентам получать доступ к веб-контенту как людям, проксируя агентский трафик на эти реальные сеансы, не вызывая немедленного блокирования.
пример
Grass: Децентрализованная сеть данных/DePIN, пользователи делятся неиспользуемым домашним широкополосным интернетом, предоставляя дружелюбный к агентам и географически разнообразный доступ для сбора данных с общедоступных веб-страниц и обучения моделей.
WootzApp: открытый мобильный браузер, поддерживающий платежи в криптовалюте, с фоновым прокси и нулевыми знаниями о личности; он «игрофицирует» задачи ИИ/данных, предлагая их потребителям.
Sixpence: распределённая сеть браузеров, маршрутизирующая трафик для AI-агентов через браузинг глобальных участников.
Однако это не полное решение. Обнаружение поведения (движение мыши/траектория прокрутки), ограничения на уровне аккаунта (KYC, возраст аккаунта) и проверка согласованности отпечатков все еще могут привести к блокировке. Поэтому распределенная сеть лучше всего рассматривать как базовый уровень анонимности, который должен быть в сочетании с имитацией человеческих стратегий выполнения для достижения наилучшего эффекта.
Стандарты веб-страниц для агентов (перспективы)
В настоящее время все больше технических сообществ и организаций исследуют: как веб-сайты должны безопасно и законно взаимодействовать не только с людьми, но и с автоматизированными агентами в будущем?
Это способствовало обсуждению некоторых новых стандартов и механизмов, цель которых заключается в том, чтобы сайты могли явно указывать «Я разрешаю надежным агентам доступ», а также предоставлять безопасный канал для завершения взаимодействия, а не по умолчанию воспринимать агентов как «атаки роботов», как это происходит сегодня.
«Разрешено агенту» метка: так же, как robots.txt, которому следуют поисковые системы, в будущем веб-страницы могут добавить метку в код, указывающую браузерным агентам, что «здесь можно безопасно получить доступ». Например, если вы используете прокси для бронирования авиабилетов, сайт не будет выдавать кучу капч (CAPTCHA), а просто предоставит аутентифицированный интерфейс.
API шлюз для сертифицированных агентов: веб-сайт может открыть специальный вход для проверенных агентов, как "быстрый проход". Агенты не должны имитировать человеческие клики и ввод, а вместо этого следуют более стабильным API маршрутом для завершения заказа, оплаты или запроса данных.
Обсуждение W3C: Всемирный союз веб-технологий (W3C) уже изучает, как разработать стандартизированные каналы для "управляемой автоматизации". Это означает, что в будущем у нас может появиться набор глобально универсальных правил, позволяющих надежным агентам быть распознанными и принятыми веб-сайтами, при этом обеспечивая безопасность и возможность привлечения к ответственности.
Хотя эти исследования все еще находятся на ранней стадии, как только они осуществятся, это может значительно улучшить отношения между людьми ↔ агентами ↔ сайтами. Представьте себе: больше не нужно, чтобы агенты изо всех сил пытались имитировать движения мыши человека, чтобы "обмануть" контроль рисков, а вместо этого открыто выполнять задачи через "официально разрешенный" канал.
На этом маршруте инфраструктура, основанная на крипто-активах, возможно, начнет развиваться первой. Это связано с тем, что цепочные приложения по своей природе зависят от открытых API и смарт-контрактов, что делает их дружелюбными к автоматизации. В отличие от этого, традиционные платформы Web2 могут продолжать осторожно защищаться, особенно компании, зависящие от рекламы или систем борьбы с мошенничеством. Однако с ростом принятия пользователями и предприятиями повышения эффективности, связанного с автоматизацией, эти стандартизированные попытки могут стать ключевым катализатором, способствующим переходу всего Интернета к «архитектуре приоритета代理».
Вывод
Браузерные агенты эволюционируют из простых инструментов для общения в сложные автономные системы, способные выполнять комплексные онлайн-рабочие процессы. Это изменение отражает более широкую тенденцию: непосредственно интегрировать автоматизацию в основной интерфейс взаимодействия пользователей с интернетом. Несмотря на огромный потенциал повышения производительности, существуют также серьезные вызовы, включая преодоление глубоко укоренившихся механизмов против роботов, а также обеспечение безопасности, доверия и ответственного использования.
В краткосрочной перспективе улучшение способности агентов к рассуждениям, более высокая скорость, более тесная интеграция с существующими услугами и прогресс распределенных сетей могут постепенно повысить надежность. В долгосрочной перспективе мы можем наблюдать поэтапное внедрение стандартов "дружественных к агентам" в тех сценариях, где автоматизация выгодна как для поставщиков услуг, так и для пользователей. Однако это преобразование не будет равномерным: в таких автоматизированных дружественных средах, как DeFi, скорость принятия будет выше; в то время как на платформах Web2, которые сильно зависят от управления взаимодействием с пользователями, степень принятия будет ниже.
В будущем конкуренция технологических компаний будет все больше сосредотачиваться на следующих аспектах: насколько хорошо их агенты могут ориентироваться в условиях ограничений реального мира, смогут ли они безопасно интегрироваться в ключевые рабочие процессы и смогут ли они стабильно обеспечивать результаты в разнообразных онлайн-средах. Что касается того, приведет ли это в конечном итоге к перестройке «войны браузеров», то это зависит не только от технической силы, а от того, смогут ли они установить доверие, согласовать стимулы и продемонстрировать реальную ценность в повседневном использовании.
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
Когда ваш браузер становится прокси
Авторы: Марио Чоу и Фигу @IOSG
Введение
За последние 12 месяцев связь между веб-браузерами и автоматизацией претерпела резкие изменения. Почти все крупные технологические компании стремятся создать автономные браузерные агенты. С начала 2024 года эта тенденция становится все более очевидной: OpenAI в январе представила режим агента, Anthropic выпустила функцию "использование компьютера" для модели Claude, Google DeepMind представила Project Mariner, Opera анонсировала браузер-агент Neon, а Perplexity AI представила браузер Comet. Сигнал очень ясен: будущее ИИ заключается в способности автономно навигировать в вебе.
Эта тенденция не просто добавляет более умных чат-ботов в браузеры, а представляет собой фундаментальное изменение в способах взаимодействия машин с цифровой средой. Браузерные агенты — это класс ИИ-систем, которые могут «видеть» веб-страницы и выполнять действия: кликать по ссылкам, заполнять формы, прокручивать страницы, вводить текст: как человеческие пользователи. Эта модель обещает высвободить огромную производительность и экономическую ценность, поскольку она может автоматизировать те задачи, которые в настоящее время все еще требуют ручного вмешательства или слишком сложны для выполнения традиционными скриптами.
▲ GIF демонстрация: Фактическая работа AI браузерного прокси: следуйте инструкциям, перейдите на страницу целевого набора данных, автоматически сделайте скриншот и извлеките необходимые данные.
Кто победит в войне браузеров на основе ИИ?
Почти все крупные технологические компании (а также некоторые стартапы) разрабатывают собственные решения для браузерных AI-агентов. Вот несколько наиболее代表ative проектов:
OpenAI – режим агента
Режим агента OpenAI (ранее известный как Оператор, запущенный в январе 2025 года) представляет собой ИИ-агента с встроенным браузером. Оператор способен выполнять различные повторяющиеся онлайн-задачи: например, заполнять веб-формы, заказывать продукты, организовывать встречи: все это выполняется через стандартный веб-интерфейс, привычный для человека.
▲ AI-агент организует встречи как профессиональный ассистент: проверяет календарь, ищет доступные временные интервалы, создает мероприятия, отправляет подтверждения и генерирует для вас .ics файл.
Anthropic – Claude "Компьютерное использование":
В конце 2024 года Anthropic представила новую функцию "Computer Use (использование компьютера)" для Claude 3.5, которая наделила его способностью управлять компьютером и браузером, как человек. Claude может видеть экран, перемещать курсор, нажимать кнопки и вводить текст. Это первый в своем роде крупный модельный агент, вошедший в открытое бета-тестирование, разработчики могут позволить Claude автоматически навигировать по веб-сайтам и приложениям. Anthropic позиционирует ее как экспериментальную функцию, основной целью которой является автоматизация многошаговых рабочих процессов на веб-страницах.
Сложность – Комета
AI стартап Perplexity (известный своим вопросно-ответным движком) в середине 2025 года представил браузер Comet как AI-замену Chrome. Основой Comet является встроенный в адресную строку (omnibox) диалоговый AI поисковый движок, который может предоставлять мгновенные ответы на вопросы и резюме, а не традиционные поисковые ссылки.
Кроме того, Comet включает в себя Comet Assistant, это агент, который находится в боковой панели и может автоматически выполнять повседневные задачи на разных сайтах. Например, он может подводить итоги открытых вами писем, назначать встречи, управлять вкладками браузера или представлять вас при просмотре и извлечении информации с веб-страниц.
Посредством интерфейса боковой панели агенты могут воспринимать содержание текущей веб-страницы, Comet нацелен на бесшовное слияние браузинга с AI помощником.
Реальные сценарии использования браузерного прокси
В предыдущем тексте мы уже рассмотрели, как крупные технологические компании (такие как OpenAI, Anthropic, Perplexity и др.) внедряют функции в браузерные агенты с помощью различных форматов продуктов. Чтобы лучше понять их ценность, мы можем подробнее рассмотреть, как эти способности применяются в повседневной жизни и в рабочих процессах предприятий.
Автоматизация веб-страниц в повседневной жизни
Электронная коммерция и индивидуальные покупки
Одним из очень практичных сценариев является делегирование покупок и задач по бронированию агенту. Агент может автоматически заполнять вашу онлайн-корзину и оформлять заказ в соответствии с фиксированным списком, а также искать наименьшую цену среди различных ритейлеров и завершать процесс оформления заказа от вашего имени.
Что касается путешествий, вы можете поручить ИИ выполнить такие задачи: "Забронируйте мне билет на рейс в Токио в следующем месяце (по цене ниже 800 долларов), а затем забронируйте отель с бесплатным Wi-Fi." Агент обработает весь процесс: поиск рейсов, сравнение вариантов, заполнение информации о пассажирах, завершение бронирования отеля, все это выполняется через сайты авиакомпаний и отелей. Этот уровень автоматизации значительно превосходит существующих туристических роботов: это не просто рекомендации, а прямое выполнение покупок.
Увеличение офисной эффективности
Агент может автоматизировать многие повторяющиеся бизнес-операции, которые люди выполняют в браузере. Например,整理电子邮件并提取待办事项,或在多个日历中检查空档并自动安排会议。Ассистент Comet от Perplexity уже может через веб-интерфейс подводить итоги содержимого вашего почтового ящика или добавлять события в ваш график. Агент также может, получив ваше разрешение, войти в SaaS-инструменты, создавать регулярные отчеты, обновлять электронные таблицы или отправлять формы. Представьте себе агента по кадрам, который может автоматически входить на различные сайты по найму, чтобы публиковать вакансии; или агента по продажам, который может обновлять данные о потенциальных клиентах в CRM-системе. Эти повседневные рутинные задачи обычно отнимают много времени у сотрудников, но AI может выполнять их, автоматизируя веб-формы и действия на страницах.
Кроме выполнения отдельных задач, агенты могут связывать полные рабочие процессы, охватывающие несколько сетевых систем. Все эти шаги требуют действий в различных веб-интерфейсах, и именно в этом сила браузерного агента. Агенты могут входить в различные панели для диагностики проблем, а также организовывать процессы, например, выполнять действия по приему новых сотрудников (создавая учетные записи на нескольких SaaS сайтах). По сути, любые многошаговые операции, которые в настоящее время требуют открытия нескольких веб-сайтов, могут быть выполнены агентами.
Текущие вызовы и ограничения
Несмотря на огромный потенциал, сегодняшние браузерные прокси все еще далеки от совершенства. Текущая реализация выявила некоторые долгосрочные технические и инфраструктурные проблемы:
Несоответствие архитектуры
Современная сеть создавалась для браузеров, управляемых людьми, и со временем постепенно эволюционировала в активное противодействие автоматизации. Данные часто скрыты в HTML/CSS, оптимизированном для визуального отображения, ограничены интерактивными жестами (наведение курсора, прокрутка) или доступны только через закрытые API.
На этой основе системы противодействия парсингу и мошенничеству дополнительно создали искусственные барьеры. Эти инструменты сочетают в себе репутацию IP, отпечатки браузера, обратную связь с JavaScript-вызовами и поведенческий анализ (например, случайность движения мыши, ритм печати, время задержки). Парадоксально, что чем "совершеннее" ведет себя AI-агент и чем выше его эффективность: например, мгновенное заполнение форм, отсутствие ошибок, тем легче его распознать как злонамеренную автоматизацию. Это может привести к жесткому отказу: например, агент OpenAI или Google может успешно пройти все этапы перед завершением покупки, но в конечном итоге быть остановленным CAPTCHA или вторичной безопасной фильтрацией.
Оптимизированный интерфейс для человека и враждебный к роботам защитный слой накладываются друг на друга, заставляя агента применять уязвимую стратегию «имитации человека». Этот подход очень легко терпит неудачу, а вероятность успеха низка (если не вмешиваться вручную, процент завершения полной сделки составляет менее одной трети).
Недоверие и проблемы безопасности
Чтобы дать агенту полный контроль, обычно требуется доступ к конфиденциальной информации: учетные данные для входа, файлы cookie, токены двухфакторной аутентификации и даже платежная информация. Это вызывает беспокойство как у пользователей, так и у компаний:
Что делать, если произошла ошибка代理 или был обманут злонамеренным сайтом?
Если агент согласился с каким-либо условием обслуживания или выполнил какую-либо транзакцию, кто несет ответственность?
Исходя из этих рисков, текущие системы обычно придерживаются осторожной позиции:
Mariner от Google не вводит информацию о кредитной карте или соглашается с условиями обслуживания, а передает это пользователю.
Оператор OpenAI будет запрашивать пользователя о необходимости взять на себя управление входом в систему или пройти CAPTCHA.
Агент, управляемый Claude от Anthropic, может напрямую отказать в входе по соображениям безопасности.
Результат: частые паузы и передачи между ИИ и человеком ослабляют опыт бесшовной автоматизации.
Несмотря на эти препятствия, прогресс продолжает быстро развиваться. Компании, такие как OpenAI, Google и Anthropic, извлекают уроки из неудач на каждом этапе итерации. С ростом спроса вполне вероятно появление "совместной эволюции": веб-сайты становятся более дружелюбными к агентам в благоприятных условиях, а агенты постоянно улучшают свои способности к имитации человеческого поведения, чтобы обходить существующие барьеры.
Методы и возможности
Современные браузерные прокси сталкиваются с двумя совершенно различными реальностями: с одной стороны, это враждебная среда Web2, где повсюду присутствуют анти-скрейпинг и меры безопасности; с другой стороны, это открытая среда Web3, где автоматизация часто поощряется. Это различие определяет направление различных решений.
Предложенные решения можно условно разделить на два типа: один тип помогает агентам обходить враждебную среду Web2, а другой тип является нативным для Web3.
Хотя браузерным прокси по-прежнему ставятся значительные задачи, новые проекты продолжают появляться, пытаясь напрямую решить эти проблемы. Криптовалюты и экосистема децентрализованных финансов (DeFi) становятся естественными полями для экспериментов, поскольку они открыты, программируемы и менее враждебны к автоматизации. Открытые API, смарт-контракты и прозрачность на блокчейне устраняют многие точки трения, распространенные в мире Web2.
Вот четыре типа решений, каждая из которых направлена на преодоление одной или нескольких текущих основных ограничений:
Нативный прокси-браузер для операций на блокчейне
Эти браузеры изначально были разработаны для автономного управления прокси и глубоко интегрированы с блокчейн-протоколами. В отличие от традиционного браузера Chrome, который для автоматизации операций в цепочке требует дополнительной зависимости от Selenium, Playwright или кошельковых плагинов; браузеры с нативным прокси предоставляют API и надежный путь выполнения для вызова прокси.
В децентрализованных финансах эффективность транзакций зависит от криптографической подписи, а не от того, является ли пользователь "человеком". Таким образом, в условиях блокчейна агенты могут обойти распространенные механизмы CAPTCHA, оценки мошенничества и проверки отпечатков устройств, используемые в мире Web2. Однако, если эти браузеры направляют на такие веб-сайты, как Amazon, они не могут обойти соответствующие механизмы защиты, и в таком случае все равно будут срабатывать обычные меры против роботов.
Ценность прокси-браузера заключается не в том, что он может чудесным образом получить доступ ко всем сайтам, а в следующем:
Нативная интеграция блокчейна: встроенный кошелек и поддержка подписей, без необходимости открывать всплывающее окно MetaMask или анализировать DOM фронтенда dApp.
Автоматизированный приоритетный дизайн: предоставляет стабильные высокоуровневые команды, которые могут быть напрямую отображены в операции протокола.
Модель безопасности: тонкая настройка контроля доступа и песочница, обеспечивающие безопасность приватных ключей в процессе автоматизации.
Оптимизация производительности: возможность параллельно выполнять несколько вызовов на блокчейне без необходимости рендеринга в браузере или задержек в пользовательском интерфейсе.
Пример: Donut
Donut интегрирует данные и операции блокчейна в качестве граждан первого класса. Пользователи (или их агенты) могут навести курсор, чтобы увидеть текущие риск-индикаторы токенов, или напрямую вводить команды на естественном языке, такие как “/swap 100 USDC to SOL”. Пропуская враждебные трения Web2, Donut позволяет агентам работать на полную мощность в DeFi, повышая ликвидность, арбитраж и рыночную эффективность.
Верифицируемое и доверенное исполнение代理
Предоставление代理 чувствительных полномочий связано с большими рисками. Соответствующие решения используют доверенные вычислительные среды (TEE) или доказательства с нулевым разглашением (ZKP) для шифрования подтверждения ожидаемого поведения агента до его выполнения, позволяя пользователям и контрагентам проверять действия агента без раскрытия закрытых ключей или удостоверений.
Показательный пример: Phala Network
Phala использует TEE (например, Intel SGX) для изоляции и защиты среды выполнения, чтобы избежать шпионства или изменения логики и данных агента со стороны операторов Phala или злоумышленников. TEE подобен «безопасной комнате» с аппаратной поддержкой, обеспечивающей конфиденциальность (внешние лица не могут видеть) и целостность (внешние лица не могут изменять).
Что касается прокси-серверов, это означает, что они могут входить в систему, хранить токены сессии или обрабатывать платежную информацию, при этом эти чувствительные данные никогда не покинут безопасную комнату. Даже если машина пользователя, операционная система или сеть будут взломаны, утечки не произойдет. Это напрямую устраняет одну из крупнейших проблем, связанных с использованием прокси-приложений: проблему доверия к чувствительным учетным данным и операциям.
Децентрализованная структурированная сеть данных
Современные системы обнаружения роботов не только проверяют, являются ли запросы «слишком быстрыми» или «автоматизированными», но также учитывают репутацию IP, отпечатки браузера, обратную связь по вызовам JavaScript и анализ поведения (например, движения курсора, ритм печати, история сессий). Прокси-серверы, исходящие из IP-адресов дата-центров или полностью воспроизводимых браузерных сред, легко идентифицируются.
Чтобы решить эту проблему, такие сети больше не собирают веб-страницы, оптимизированные для человека, а напрямую собирают и предоставляют данные, пригодные для машинного чтения, или используют реальные человеческие браузерные среды для проксирования трафика. Этот подход обходит уязвимости традиционных пауков на этапах анализа и противодействия сбору данных, обеспечивая прокси более чистыми и надежными входными данными.
Распределенная сеть (distribution network) позволяет AI-агентам получать доступ к веб-контенту как людям, проксируя агентский трафик на эти реальные сеансы, не вызывая немедленного блокирования.
пример
Grass: Децентрализованная сеть данных/DePIN, пользователи делятся неиспользуемым домашним широкополосным интернетом, предоставляя дружелюбный к агентам и географически разнообразный доступ для сбора данных с общедоступных веб-страниц и обучения моделей.
WootzApp: открытый мобильный браузер, поддерживающий платежи в криптовалюте, с фоновым прокси и нулевыми знаниями о личности; он «игрофицирует» задачи ИИ/данных, предлагая их потребителям.
Sixpence: распределённая сеть браузеров, маршрутизирующая трафик для AI-агентов через браузинг глобальных участников.
Однако это не полное решение. Обнаружение поведения (движение мыши/траектория прокрутки), ограничения на уровне аккаунта (KYC, возраст аккаунта) и проверка согласованности отпечатков все еще могут привести к блокировке. Поэтому распределенная сеть лучше всего рассматривать как базовый уровень анонимности, который должен быть в сочетании с имитацией человеческих стратегий выполнения для достижения наилучшего эффекта.
Стандарты веб-страниц для агентов (перспективы)
В настоящее время все больше технических сообществ и организаций исследуют: как веб-сайты должны безопасно и законно взаимодействовать не только с людьми, но и с автоматизированными агентами в будущем?
Это способствовало обсуждению некоторых новых стандартов и механизмов, цель которых заключается в том, чтобы сайты могли явно указывать «Я разрешаю надежным агентам доступ», а также предоставлять безопасный канал для завершения взаимодействия, а не по умолчанию воспринимать агентов как «атаки роботов», как это происходит сегодня.
«Разрешено агенту» метка: так же, как robots.txt, которому следуют поисковые системы, в будущем веб-страницы могут добавить метку в код, указывающую браузерным агентам, что «здесь можно безопасно получить доступ». Например, если вы используете прокси для бронирования авиабилетов, сайт не будет выдавать кучу капч (CAPTCHA), а просто предоставит аутентифицированный интерфейс.
API шлюз для сертифицированных агентов: веб-сайт может открыть специальный вход для проверенных агентов, как "быстрый проход". Агенты не должны имитировать человеческие клики и ввод, а вместо этого следуют более стабильным API маршрутом для завершения заказа, оплаты или запроса данных.
Обсуждение W3C: Всемирный союз веб-технологий (W3C) уже изучает, как разработать стандартизированные каналы для "управляемой автоматизации". Это означает, что в будущем у нас может появиться набор глобально универсальных правил, позволяющих надежным агентам быть распознанными и принятыми веб-сайтами, при этом обеспечивая безопасность и возможность привлечения к ответственности.
Хотя эти исследования все еще находятся на ранней стадии, как только они осуществятся, это может значительно улучшить отношения между людьми ↔ агентами ↔ сайтами. Представьте себе: больше не нужно, чтобы агенты изо всех сил пытались имитировать движения мыши человека, чтобы "обмануть" контроль рисков, а вместо этого открыто выполнять задачи через "официально разрешенный" канал.
На этом маршруте инфраструктура, основанная на крипто-активах, возможно, начнет развиваться первой. Это связано с тем, что цепочные приложения по своей природе зависят от открытых API и смарт-контрактов, что делает их дружелюбными к автоматизации. В отличие от этого, традиционные платформы Web2 могут продолжать осторожно защищаться, особенно компании, зависящие от рекламы или систем борьбы с мошенничеством. Однако с ростом принятия пользователями и предприятиями повышения эффективности, связанного с автоматизацией, эти стандартизированные попытки могут стать ключевым катализатором, способствующим переходу всего Интернета к «архитектуре приоритета代理».
Вывод
Браузерные агенты эволюционируют из простых инструментов для общения в сложные автономные системы, способные выполнять комплексные онлайн-рабочие процессы. Это изменение отражает более широкую тенденцию: непосредственно интегрировать автоматизацию в основной интерфейс взаимодействия пользователей с интернетом. Несмотря на огромный потенциал повышения производительности, существуют также серьезные вызовы, включая преодоление глубоко укоренившихся механизмов против роботов, а также обеспечение безопасности, доверия и ответственного использования.
В краткосрочной перспективе улучшение способности агентов к рассуждениям, более высокая скорость, более тесная интеграция с существующими услугами и прогресс распределенных сетей могут постепенно повысить надежность. В долгосрочной перспективе мы можем наблюдать поэтапное внедрение стандартов "дружественных к агентам" в тех сценариях, где автоматизация выгодна как для поставщиков услуг, так и для пользователей. Однако это преобразование не будет равномерным: в таких автоматизированных дружественных средах, как DeFi, скорость принятия будет выше; в то время как на платформах Web2, которые сильно зависят от управления взаимодействием с пользователями, степень принятия будет ниже.
В будущем конкуренция технологических компаний будет все больше сосредотачиваться на следующих аспектах: насколько хорошо их агенты могут ориентироваться в условиях ограничений реального мира, смогут ли они безопасно интегрироваться в ключевые рабочие процессы и смогут ли они стабильно обеспечивать результаты в разнообразных онлайн-средах. Что касается того, приведет ли это в конечном итоге к перестройке «войны браузеров», то это зависит не только от технической силы, а от того, смогут ли они установить доверие, согласовать стимулы и продемонстрировать реальную ценность в повседневном использовании.