Протягом останніх 12 місяців відносини між веб-браузерами та автоматизацією зазнали різких змін. Практично всі великі технологічні компанії змагаються у створенні автономних браузерних агентів. З початку 2024 року ця тенденція стає все більш очевидною: OpenAI у січні запустила режим агента, Anthropic представила функцію "використання комп'ютера" для моделі Claude, Google DeepMind запустила Project Mariner, Opera оголосила про браузер-агент Neon, а Perplexity AI представила браузер Comet. Сигнал дуже чіткий: майбутнє ШІ полягає у спроможності автономно навігувати веб-сторінками.
Ця тенденція не лише в тому, щоб додати до браузерів більш розумних чат-ботів, а в корінній зміні способу, яким машини взаємодіють з цифровим середовищем. Браузерні агенти - це типи AI-систем, які можуть "бачити" веб-сторінки і виконувати дії: натискати на посилання, заповнювати форми, прокручувати сторінки, вводити текст: так само, як це роблять користувачі. Ця модель обіцяє звільнити величезну продуктивність та економічну цінність, оскільки вона може автоматизувати ті завдання, які наразі все ще потребують ручного виконання або які занадто складні для традиційних сценаріїв.
▲ GIF демонстрація: Фактична робота AI браузерного проксі: слідуйте інструкціям, перейдіть на сторінку цільового набору даних, автоматично зробіть скріншот і витягніть необхідні дані.
Хто виграє битву браузерів на базі ШІ?
Практично всі великі технологічні компанії (а також деякі стартапи) розробляють власні рішення для браузерних AI-агентів. Ось кілька найбільш представницьких проектів:
OpenAI – Режим Агента
Режим агента OpenAI (раніше відомий як Оператор, запуск у січні 2025 року) є AI-агентом з вбудованим браузером. Оператор здатний виконувати різноманітні повторювані онлайн-завдання: наприклад, заповнення веб-форм, замовлення продуктів, організація зустрічей: все це виконується через звичайний веб-інтерфейс, який використовують люди.
▲ AI агент може організувати зустрічі як професійний асистент: перевірити календар, знайти доступні часові проміжки, створити подію, надіслати підтвердження та згенерувати файл .ics для вас.
Anthropic – Claude "Використання комп'ютера":
В кінці 2024 року компанія Anthropic представила нову функцію "Computer Use (використання комп'ютера)" для Claude 3.5, наділивши його здатністю керувати комп'ютером і браузером, подібно до людини. Claude може бачити екран, переміщати курсор, натискати кнопки та вводити текст. Це перший у своєму роді великий модельний агент, що виходить у відкриту бета-версію, розробники можуть використовувати Claude для автоматичної навігації веб-сайтами та програмами. Anthropic позиціонує це як експериментальну функцію, головною метою якої є автоматизація багатоетапних робочих процесів на веб-сторінках.
Перплексність – Комета
AI стартап Perplexity (відомий завдяки своєму запитально-відповідному двигуну) запустив браузер Comet у середині 2025 року як AI-орієнтовану альтернативу Chrome. Основою Comet є вбудований в адресний рядок (omnibox) розмовний AI-пошуковий двигун, який може надавати миттєві відповіді та резюме, а не традиційні пошукові посилання.
Крім того, Comet має вбудований Comet Assistant, який є агентом, розташованим на боковій панелі, що може автоматично виконувати повсякденні завдання на різних веб-сайтах. Наприклад, він може підсумовувати відкриті вами електронні листи, планувати зустрічі, керувати вкладками браузера або переглядати та збирати інформацію з веб-сторінок від вашого імені.
Через бічний інтерфейс агенти можуть відчувати поточний вміст веб-сторінки, Comet має на меті безшовно інтегрувати перегляд з AI помічником.
Справжні сценарії використання проксі-серверів у браузерах
У попередньому тексті ми вже переглянули, як провідні технологічні компанії (OpenAI, Anthropic, Perplexity тощо) вносять функціональність у браузерних агентів через різні форми продуктів. Щоб більш наочно зрозуміти їхню цінність, ми можемо далі подивитися, як ці можливості використовуються в реальних сценаріях у повсякденному житті та робочих процесах підприємств.
Автоматизація повсякденних веб-сторінок
Електронна комерція та особисті покупки
Досить практичним сценарієм є делегування покупок та замовлень агенту. Агент може автоматично заповнити вашу онлайн-кошик відповідно до фіксованого списку та оформити замовлення, а також шукати найнижчі ціни серед кількох роздрібних продавців і завершити процес оформлення замовлення від вашого імені.
Щодо подорожей, ви можете доручити AI виконати таке завдання: "Допоможіть мені забронювати рейс до Токіо на наступний місяць (ціна нижче 800 доларів), а також забронювати готель з безкоштовним Wi-Fi." Агент обробить весь процес: пошук рейсів, порівняння варіантів, заповнення інформації про пасажирів, завершення бронювання готелю, все це через сайти авіакомпаній та готелів. Цей рівень автоматизації значно перевершує існуючих туристичних роботів: він не просто рекомендує, а безпосередньо виконує покупку.
Підвищення ефективності роботи
Агенти можуть автоматизувати багато повторюваних бізнес-операцій, які люди виконують у браузері. Наприклад, організація електронної пошти та витягування справ у списку справ або перевірка вільних слотів у кількох календарях і автоматичне планування зустрічей. Асистент Comet від Perplexity вже може підсумовувати вміст вашої поштової скриньки через веб-інтерфейс або додавати події до вашого розкладу. Агенти також можуть, отримавши вашу згоду, входити в SaaS-інструменти для створення регулярних звітів, оновлення електронних таблиць або надсилання форм. Уявіть собі HR-агента, який може автоматично входити на різні сайти з вакансіями для публікації позицій; або агента з продажу, який може оновлювати дані потенційних клієнтів у CRM-системі. Ці повсякденні рутинні завдання раніше займали б багато часу співробітників, але ШІ може впоратися з ними, автоматизуючи заповнення веб-форм і дії на сторінках.
Окрім одноразових завдань, агент може об'єднувати повні робочі процеси, що охоплюють кілька мережевих систем. Всі ці етапи потребують роботи в різних веб-інтерфейсах, і саме в цьому полягає сильна сторона браузерного агента. Агент може входити в різні панелі для усунення неполадок, навіть організовувати процеси, наприклад, завершувати процедури найму нових співробітників (створюючи облікові записи на кількох SaaS сайтах). В основному, будь-які багатоетапні операції, які наразі вимагають переходу на кілька сайтів, можуть бути виконані агентом.
Сучасні виклики та обмеження
Хоча потенціал величезний, але сьогоднішні браузерні проксі все ще мають значні відмінності від ідеалу. Поточна реалізація виявляє деякі давно існуючі технічні та інфраструктурні проблеми:
Несумісність архітектури
Сучасна мережа була розроблена для браузерів, які використовуються людьми, і з часом поступово еволюціонувала в активний захист від автоматизації. Дані часто заховані в HTML/CSS, оптимізованих для візуального відображення, обмежені взаємодією жестів (підведення курсору, прокрутка) або доступні лише через непублічні API.
На цій основі системи протидії ботам та шахрайству додатково створили штучні бар'єри. Ці інструменти поєднують репутацію IP, відбитки браузера, зворотний зв'язок з JavaScript-викликами та поведінковий аналіз (наприклад, випадковість руху миші, ритм набору тексту, час затримки). Парадоксально, що чим «ідеальнішими» є AI-агенти, тим вищою є їхня ефективність: наприклад, миттєве заповнення форм, безпомилковість, тим легше їх визнати як злочинну автоматизацію. Це може призвести до жорсткого збою: наприклад, агенти OpenAI або Google можуть без проблем виконати всі етапи перед оформленням замовлення, але в кінцевому підсумку бути зупинені CAPTCHA або додатковими засобами безпеки.
Оптимізований інтерфейс для людей і недружній до роботів захисний шар накладаються один на одного, змушуючи агентів використовувати вразливу стратегію "імітації людини". Цей підхід є високоефективним, а ймовірність успіху низька (якщо немає людського втручання, ймовірність завершення повної угоди залишається менш ніж третиною).
Довіра та проблеми безпеки
Щоб дати агенту повний контроль, зазвичай необхідний доступ до чутливої інформації: облікові дані для входу, Cookies, токени двофакторної автентифікації, а також платіжна інформація. Це викликає занепокоєння, яке можуть зрозуміти як користувачі, так і підприємства:
Що робити, якщо代理 помиляється або обманює зловмисний сайт?
Якщо агент погодився з якимось умовами обслуговування або виконав транзакцію, хто має нести відповідальність?
На основі цих ризиків, нинішні системи зазвичай дотримуються обережної позиції:
Mariner від Google не вводитиме інформацію про кредитні картки або не погоджуватиметься з умовами обслуговування, а поверне це користувачу.
Оператор OpenAI повідомить користувачеві про переведення на вхід або про виклик CAPTCHA.
Агенти на основі Claude від Anthropic можуть безпосередньо відмовити в доступі, посилаючись на міркування безпеки.
Результат: часті паузи та передачі між ШІ та людиною зменшили безшовний досвід автоматизації.
Незважаючи на ці перешкоди, прогрес все ще швидко просувається. Компанії, такі як OpenAI, Google, Anthropic тощо, вбирають досвід невдач у кожному раунді ітерацій. З ростом попиту, ймовірно, виникне форма "спільної еволюції": веб-сайти стають більш дружніми до агентів в сприятливих умовах, а агенти постійно покращують свої здібності до імітації людської поведінки, щоб обходити існуючі бар'єри.
Методи та можливості
Сьогодні браузерні проксі стикаються з двома абсолютно різними реаліями: з одного боку, це ворожнеча середовища Web2, де анти-роботів та засоби безпеки присутні скрізь; з іншого боку, це відкрите середовище Web3, де автоматизація часто заохочується. Ця різниця визначає напрямок різноманітних рішень.
Наступні рішення в основному поділяються на два типи: один тип допомагає агентам обходити ворожу середу Web2, а інший тип є нативним для Web3.
Хоча виклики, з якими стикаються браузерні проксі, все ще значні, нові проекти постійно з'являються, намагаючись безпосередньо вирішити ці проблеми. Криптовалюта та екосистема децентралізованих фінансів (DeFi) стають природними випробувальними полями, оскільки вони відкриті, програмовані та менш вороже налаштовані до автоматизації. Відкриті API, смарт-контракти та прозорість на блокчейні усувають багато точок тертя, які поширені в світі Web2.
Ось чотири типи рішень, кожен з яких вирішує одну або кілька ключових обмежень, з якими ми стикаємося сьогодні:
Нативний проксі-браузер для операцій в ланцюгу
Ці браузери були спроектовані з нуля для управління автономними проксі та глибоко інтегровані з блокчейн-протоколами. На відміну від традиційного браузера Chrome, який потребує додаткової залежності від Selenium, Playwright або плагінів для гаманця для автоматизації операцій на ланцюгу, рідні проксі-браузери надають API та надійний шлях виконання безпосередньо для виклику проксі.
У децентралізованих фінансах ефективність транзакцій залежить від криптографічного підпису, а не від того, чи є користувач "людиною". Таким чином, в середовищі блокчейну агенти можуть обійти поширені CAPTCHA, оцінки шахрайства та перевірки відбитків пристроїв у світі Web2. Однак, якщо ці браузери ведуть на сайти Web2, такі як Amazon, вони не можуть обійти відповідні механізми захисту, і в такому випадку все ще спрацьовують звичайні заходи проти ботів.
Цінність проксі-браузера полягає не в тому, що він магічно може отримати доступ до всіх веб-сайтів, а в тому, що:
Первинна інтеграція блокчейну: вбудований гаманець та підтримка підписів, без необхідності використовувати вікна MetaMask або аналізувати DOM фронтенду dApp.
Автоматизоване пріоритетне проектування: забезпечує стабільні верхні команди, які можуть бути безпосередньо відображені в операції протоколу.
Модель безпеки: детальний контроль доступу та пісочниця, що забезпечує безпеку приватного ключа в процесі автоматизації.
Оптимізація продуктивності: можливість паралельно виконувати кілька викликів на блокчейні без затримок рендерингу браузера або інтерфейсу.
Приклад: Donut
Donut інтегрує дані та операції блокчейну як першокласних громадян. Користувачі (або їхні агенти) можуть навести курсор, щоб переглянути реальні ризикові показники токенів, або безпосередньо ввести команди природною мовою, такі як “/swap 100 USDC to SOL”. Уникаючи ворожих точок тертя Web2, Donut дозволяє агентам працювати на повну потужність у DeFi, підвищуючи ліквідність, арбітраж і ринкову ефективність.
Перевірене та надійне виконання агентів
Надання代理чутливих прав є дуже ризикованим. Відповідні рішення використовують довірені середовища виконання (TEEs) або нульові знання (ZKPs) для шифрування підтвердження очікуваної поведінки代理 до виконання, що дозволяє користувачеві та контрагенту перевірити дії代理без розкриття особистих ключів або свідоцтв.
Приклад: Phala Network
Phala використовує TEE (наприклад, Intel SGX) для ізоляції та захисту середовища виконання, щоб уникнути витоку або зміни логіки агента та даних з боку операторів Phala або зловмисників. TEE подібно до «безпечної кімнати» з апаратним забезпеченням, що гарантує конфіденційність (зовнішні особи не можуть бачити) та цілісність (зовнішні особи не можуть змінювати).
Для браузерних проксі це означає, що він може входити в систему, зберігати токени сесій або обробляти платіжну інформацію, при цьому ці чутливі дані ніколи не покидають безпечну кімнату. Навіть якщо машина користувача, операційна система або мережа будуть зламані, витік даних неможливий. Це безпосередньо зменшує одне з найбільших бар'єрів для впровадження проксі-додатків: проблему довіри до чутливих облікових даних та операцій.
децентралізована структурована мережа даних
Сучасні системи виявлення ботів не лише перевіряють, чи є запити "занадто швидкими" або "автоматизованими", але також поєднують репутацію IP, відбитки браузера, зворотний зв'язок з JavaScript-викликами та аналіз поведінки (наприклад, рухи курсора, ритм набору тексту, історія сеансів). Проксі, що походять з IP-адрес центрів обробки даних або з повністю повторюваного середовища браузера, легко ідентифікуються.
Щоб вирішити цю проблему, такі мережі більше не збирають веб-сторінки, оптимізовані для людей, а безпосередньо збирають і надають дані, що можуть бути прочитані машинами, або ж через реальні людські браузерні середовища проксі-тіки. Цей спосіб обминає традиційні павуки в етапах аналізу та протипавукових заходах, що дозволяє проксі-тікам отримувати більш чистий і надійний вхід.
Розподілена мережа (distribution network) дозволяє AI-агентам отримувати доступ до веб-контенту, як люди, шляхом проксирування трафіку агентів на ці реальні світові сесії, не викликаючи негайного блокування.
Приклад
Grass:децентралізована мережа даних/DePIN, користувачі діляться невикористаними домашніми широкосмуговими з'єднаннями, щоб забезпечити дружній до агентів, географічно різноманітний доступ до збору даних з публічних веб-сторінок та навчання моделей.
WootzApp: відкритий мобільний браузер, що підтримує криптовалютні платежі, з фоновим проксі та нульовими знаннями особи; він «ігровизує» завдання AI/даних для споживачів.
Sixpence: розподілена мережа браузерів, яка маршрутизує трафік для AI-агентів через перегляд глобальних учасників.
Проте це не є повним рішенням. Виявлення поведінки (траєкторії миші/прокрутки), обмеження на рівні облікового запису (KYC, вік облікового запису) та перевірка узгодженості відбитків пальців все ще можуть викликати блокування. Тому розподілена мережа найкраще сприймати як базовий шар приховання, який повинен поєднуватися з імитаційними стратегіями виконання, щоб досягти максимального ефекту.
Стандарти веб-сторінок для агентів (перспективні)
Наразі все більше технічних спільнот та організацій досліджують: як майбутнім користувачам мережі, окрім людей, взаємодіяти з автоматизованими агентами (агентами) безпечно та відповідно до вимог?
Це спонукало до обговорення деяких нових стандартів і механізмів, метою яких є дозволити веб-сайтам чітко зазначати «Я дозволяю надійним агентам доступ», а також забезпечити безпечний канал для завершення взаємодії, а не як сьогодні, коли агенти за замовчуванням вважаються «атакою роботів» і блокуються.
"Дозволено агенту" мітка: так само, як файли robots.txt, які дотримуються пошукові системи, у майбутньому веб-сторінки можуть додавати мітку в код, щоб повідомити браузерному агенту "тут можна безпечно отримати доступ". Наприклад, якщо ви використовуєте агент для бронювання квитків, сайт не буде виводити купу перевірок (CAPTCHA), а просто надасть аутентифікований інтерфейс.
API шлюз для сертифікованих агентів: веб-сайт може відкрити спеціальний вхід для перевірених агентів, як «швидкий прохід». Агентам не потрібно імітувати людські кліки, введення, а потрібно пройти більш стабільним API шляхом для завершення замовлення, оплати або запиту даних.
Обговорення W3C: Всесвітня мережа (W3C) вже досліджує, як розробити стандартизований канал для "управляємого автоматизації". Це означає, що в майбутньому ми можемо мати набір загальноприйнятих правил, які дозволять надійним агентам бути визнаними та прийнятими веб-сайтами, при цьому зберігаючи безпеку та можливість підзвітності.
Хоча ці дослідження ще на ранній стадії, як тільки вони будуть реалізовані, це може значно покращити відносини між людьми ↔ агентами ↔ веб-сайтами. Уявіть собі: більше не потрібно агентам втиратися в довіру, намагаючись імітувати рухи миші людини, щоби «обманути» контроль ризиків, а натомість відкрито виконувати завдання через «офіційно дозволений» канал.
На цьому маршруті криптографічна рідна інфраструктура може зробити перший крок. Оскільки децентралізовані додатки природно залежать від відкритих API та смарт-контрактів, вони є дружніми до автоматизації. У порівнянні з цим, традиційні платформи Web2, можливо, продовжать обережно захищатися, особливо компанії, які залежать від реклами або систем протидії шахрайству. Але в міру того, як користувачі та підприємства поступово приймають підвищення ефективності, що приносить автоматизація, ці стандартизовані спроби, швидше за все, стануть ключовими каталізаторами, що підштовхнуть весь інтернет до архітектури з пріоритетом代理.
висновок
Браузерні агенти еволюціонують з початкових простих інструментів для спілкування в автономні системи, здатні виконувати складні онлайн-робочі процеси. Ця трансформація відображає ширшу тенденцію: безпосереднє вбудовування автоматизації в основний інтерфейс взаємодії користувача з Інтернетом. Хоча потенціал підвищення продуктивності величезний, виклики також серйозні, включаючи те, як подолати глибоко вкорінені антинатові механізми, а також як забезпечити безпеку, довіру та відповідальне використання.
У короткостроковій перспективі підвищення здатності до міркування агентів, швидкість, більш тісна інтеграція з існуючими послугами, а також прогрес розподілених мереж можуть поступово підвищити надійність. У довгостроковій перспективі ми, ймовірно, побачимо поетапне впровадження стандарту "дружніх до агентів" у тих сценаріях, які автоматизують вигоди для обох сторін – постачальників послуг і користувачів. Проте цей перехід не буде рівномірним: у таких автоматизованих дружніх середовищах, як DeFi, швидкість прийняття буде вищою; тоді як на платформах Web2, що сильно залежать від контролю взаємодії з користувачем, рівень прийняття буде нижчим.
У майбутньому конкуренція технологічних компаній зосередиться на кількох аспектах: як їхні агенти можуть орієнтуватися в обмеженнях реального світу, чи можуть вони безпечно інтегруватися в ключові робочі процеси та чи можуть вони стабільно надавати результати в різноманітному онлайн-середовищі. Що стосується того, чи змінить це «війна браузерів», то залежатиме не лише від технологічної потужності, а від здатності налагодити довіру, узгодити стимули та продемонструвати реальну цінність у повсякденному використанні.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
Коли ваш браузер стає проксі
Маріо Чоу та Фігу @IOSG
Вступ
Протягом останніх 12 місяців відносини між веб-браузерами та автоматизацією зазнали різких змін. Практично всі великі технологічні компанії змагаються у створенні автономних браузерних агентів. З початку 2024 року ця тенденція стає все більш очевидною: OpenAI у січні запустила режим агента, Anthropic представила функцію "використання комп'ютера" для моделі Claude, Google DeepMind запустила Project Mariner, Opera оголосила про браузер-агент Neon, а Perplexity AI представила браузер Comet. Сигнал дуже чіткий: майбутнє ШІ полягає у спроможності автономно навігувати веб-сторінками.
Ця тенденція не лише в тому, щоб додати до браузерів більш розумних чат-ботів, а в корінній зміні способу, яким машини взаємодіють з цифровим середовищем. Браузерні агенти - це типи AI-систем, які можуть "бачити" веб-сторінки і виконувати дії: натискати на посилання, заповнювати форми, прокручувати сторінки, вводити текст: так само, як це роблять користувачі. Ця модель обіцяє звільнити величезну продуктивність та економічну цінність, оскільки вона може автоматизувати ті завдання, які наразі все ще потребують ручного виконання або які занадто складні для традиційних сценаріїв.
▲ GIF демонстрація: Фактична робота AI браузерного проксі: слідуйте інструкціям, перейдіть на сторінку цільового набору даних, автоматично зробіть скріншот і витягніть необхідні дані.
Хто виграє битву браузерів на базі ШІ?
Практично всі великі технологічні компанії (а також деякі стартапи) розробляють власні рішення для браузерних AI-агентів. Ось кілька найбільш представницьких проектів:
OpenAI – Режим Агента
Режим агента OpenAI (раніше відомий як Оператор, запуск у січні 2025 року) є AI-агентом з вбудованим браузером. Оператор здатний виконувати різноманітні повторювані онлайн-завдання: наприклад, заповнення веб-форм, замовлення продуктів, організація зустрічей: все це виконується через звичайний веб-інтерфейс, який використовують люди.
▲ AI агент може організувати зустрічі як професійний асистент: перевірити календар, знайти доступні часові проміжки, створити подію, надіслати підтвердження та згенерувати файл .ics для вас.
Anthropic – Claude "Використання комп'ютера":
В кінці 2024 року компанія Anthropic представила нову функцію "Computer Use (використання комп'ютера)" для Claude 3.5, наділивши його здатністю керувати комп'ютером і браузером, подібно до людини. Claude може бачити екран, переміщати курсор, натискати кнопки та вводити текст. Це перший у своєму роді великий модельний агент, що виходить у відкриту бета-версію, розробники можуть використовувати Claude для автоматичної навігації веб-сайтами та програмами. Anthropic позиціонує це як експериментальну функцію, головною метою якої є автоматизація багатоетапних робочих процесів на веб-сторінках.
Перплексність – Комета
AI стартап Perplexity (відомий завдяки своєму запитально-відповідному двигуну) запустив браузер Comet у середині 2025 року як AI-орієнтовану альтернативу Chrome. Основою Comet є вбудований в адресний рядок (omnibox) розмовний AI-пошуковий двигун, який може надавати миттєві відповіді та резюме, а не традиційні пошукові посилання.
Крім того, Comet має вбудований Comet Assistant, який є агентом, розташованим на боковій панелі, що може автоматично виконувати повсякденні завдання на різних веб-сайтах. Наприклад, він може підсумовувати відкриті вами електронні листи, планувати зустрічі, керувати вкладками браузера або переглядати та збирати інформацію з веб-сторінок від вашого імені.
Через бічний інтерфейс агенти можуть відчувати поточний вміст веб-сторінки, Comet має на меті безшовно інтегрувати перегляд з AI помічником.
Справжні сценарії використання проксі-серверів у браузерах
У попередньому тексті ми вже переглянули, як провідні технологічні компанії (OpenAI, Anthropic, Perplexity тощо) вносять функціональність у браузерних агентів через різні форми продуктів. Щоб більш наочно зрозуміти їхню цінність, ми можемо далі подивитися, як ці можливості використовуються в реальних сценаріях у повсякденному житті та робочих процесах підприємств.
Автоматизація повсякденних веб-сторінок
Електронна комерція та особисті покупки
Досить практичним сценарієм є делегування покупок та замовлень агенту. Агент може автоматично заповнити вашу онлайн-кошик відповідно до фіксованого списку та оформити замовлення, а також шукати найнижчі ціни серед кількох роздрібних продавців і завершити процес оформлення замовлення від вашого імені.
Щодо подорожей, ви можете доручити AI виконати таке завдання: "Допоможіть мені забронювати рейс до Токіо на наступний місяць (ціна нижче 800 доларів), а також забронювати готель з безкоштовним Wi-Fi." Агент обробить весь процес: пошук рейсів, порівняння варіантів, заповнення інформації про пасажирів, завершення бронювання готелю, все це через сайти авіакомпаній та готелів. Цей рівень автоматизації значно перевершує існуючих туристичних роботів: він не просто рекомендує, а безпосередньо виконує покупку.
Підвищення ефективності роботи
Агенти можуть автоматизувати багато повторюваних бізнес-операцій, які люди виконують у браузері. Наприклад, організація електронної пошти та витягування справ у списку справ або перевірка вільних слотів у кількох календарях і автоматичне планування зустрічей. Асистент Comet від Perplexity вже може підсумовувати вміст вашої поштової скриньки через веб-інтерфейс або додавати події до вашого розкладу. Агенти також можуть, отримавши вашу згоду, входити в SaaS-інструменти для створення регулярних звітів, оновлення електронних таблиць або надсилання форм. Уявіть собі HR-агента, який може автоматично входити на різні сайти з вакансіями для публікації позицій; або агента з продажу, який може оновлювати дані потенційних клієнтів у CRM-системі. Ці повсякденні рутинні завдання раніше займали б багато часу співробітників, але ШІ може впоратися з ними, автоматизуючи заповнення веб-форм і дії на сторінках.
Окрім одноразових завдань, агент може об'єднувати повні робочі процеси, що охоплюють кілька мережевих систем. Всі ці етапи потребують роботи в різних веб-інтерфейсах, і саме в цьому полягає сильна сторона браузерного агента. Агент може входити в різні панелі для усунення неполадок, навіть організовувати процеси, наприклад, завершувати процедури найму нових співробітників (створюючи облікові записи на кількох SaaS сайтах). В основному, будь-які багатоетапні операції, які наразі вимагають переходу на кілька сайтів, можуть бути виконані агентом.
Сучасні виклики та обмеження
Хоча потенціал величезний, але сьогоднішні браузерні проксі все ще мають значні відмінності від ідеалу. Поточна реалізація виявляє деякі давно існуючі технічні та інфраструктурні проблеми:
Несумісність архітектури
Сучасна мережа була розроблена для браузерів, які використовуються людьми, і з часом поступово еволюціонувала в активний захист від автоматизації. Дані часто заховані в HTML/CSS, оптимізованих для візуального відображення, обмежені взаємодією жестів (підведення курсору, прокрутка) або доступні лише через непублічні API.
На цій основі системи протидії ботам та шахрайству додатково створили штучні бар'єри. Ці інструменти поєднують репутацію IP, відбитки браузера, зворотний зв'язок з JavaScript-викликами та поведінковий аналіз (наприклад, випадковість руху миші, ритм набору тексту, час затримки). Парадоксально, що чим «ідеальнішими» є AI-агенти, тим вищою є їхня ефективність: наприклад, миттєве заповнення форм, безпомилковість, тим легше їх визнати як злочинну автоматизацію. Це може призвести до жорсткого збою: наприклад, агенти OpenAI або Google можуть без проблем виконати всі етапи перед оформленням замовлення, але в кінцевому підсумку бути зупинені CAPTCHA або додатковими засобами безпеки.
Оптимізований інтерфейс для людей і недружній до роботів захисний шар накладаються один на одного, змушуючи агентів використовувати вразливу стратегію "імітації людини". Цей підхід є високоефективним, а ймовірність успіху низька (якщо немає людського втручання, ймовірність завершення повної угоди залишається менш ніж третиною).
Довіра та проблеми безпеки
Щоб дати агенту повний контроль, зазвичай необхідний доступ до чутливої інформації: облікові дані для входу, Cookies, токени двофакторної автентифікації, а також платіжна інформація. Це викликає занепокоєння, яке можуть зрозуміти як користувачі, так і підприємства:
Що робити, якщо代理 помиляється або обманює зловмисний сайт?
Якщо агент погодився з якимось умовами обслуговування або виконав транзакцію, хто має нести відповідальність?
На основі цих ризиків, нинішні системи зазвичай дотримуються обережної позиції:
Mariner від Google не вводитиме інформацію про кредитні картки або не погоджуватиметься з умовами обслуговування, а поверне це користувачу.
Оператор OpenAI повідомить користувачеві про переведення на вхід або про виклик CAPTCHA.
Агенти на основі Claude від Anthropic можуть безпосередньо відмовити в доступі, посилаючись на міркування безпеки.
Результат: часті паузи та передачі між ШІ та людиною зменшили безшовний досвід автоматизації.
Незважаючи на ці перешкоди, прогрес все ще швидко просувається. Компанії, такі як OpenAI, Google, Anthropic тощо, вбирають досвід невдач у кожному раунді ітерацій. З ростом попиту, ймовірно, виникне форма "спільної еволюції": веб-сайти стають більш дружніми до агентів в сприятливих умовах, а агенти постійно покращують свої здібності до імітації людської поведінки, щоб обходити існуючі бар'єри.
Методи та можливості
Сьогодні браузерні проксі стикаються з двома абсолютно різними реаліями: з одного боку, це ворожнеча середовища Web2, де анти-роботів та засоби безпеки присутні скрізь; з іншого боку, це відкрите середовище Web3, де автоматизація часто заохочується. Ця різниця визначає напрямок різноманітних рішень.
Наступні рішення в основному поділяються на два типи: один тип допомагає агентам обходити ворожу середу Web2, а інший тип є нативним для Web3.
Хоча виклики, з якими стикаються браузерні проксі, все ще значні, нові проекти постійно з'являються, намагаючись безпосередньо вирішити ці проблеми. Криптовалюта та екосистема децентралізованих фінансів (DeFi) стають природними випробувальними полями, оскільки вони відкриті, програмовані та менш вороже налаштовані до автоматизації. Відкриті API, смарт-контракти та прозорість на блокчейні усувають багато точок тертя, які поширені в світі Web2.
Ось чотири типи рішень, кожен з яких вирішує одну або кілька ключових обмежень, з якими ми стикаємося сьогодні:
Нативний проксі-браузер для операцій в ланцюгу
Ці браузери були спроектовані з нуля для управління автономними проксі та глибоко інтегровані з блокчейн-протоколами. На відміну від традиційного браузера Chrome, який потребує додаткової залежності від Selenium, Playwright або плагінів для гаманця для автоматизації операцій на ланцюгу, рідні проксі-браузери надають API та надійний шлях виконання безпосередньо для виклику проксі.
У децентралізованих фінансах ефективність транзакцій залежить від криптографічного підпису, а не від того, чи є користувач "людиною". Таким чином, в середовищі блокчейну агенти можуть обійти поширені CAPTCHA, оцінки шахрайства та перевірки відбитків пристроїв у світі Web2. Однак, якщо ці браузери ведуть на сайти Web2, такі як Amazon, вони не можуть обійти відповідні механізми захисту, і в такому випадку все ще спрацьовують звичайні заходи проти ботів.
Цінність проксі-браузера полягає не в тому, що він магічно може отримати доступ до всіх веб-сайтів, а в тому, що:
Первинна інтеграція блокчейну: вбудований гаманець та підтримка підписів, без необхідності використовувати вікна MetaMask або аналізувати DOM фронтенду dApp.
Автоматизоване пріоритетне проектування: забезпечує стабільні верхні команди, які можуть бути безпосередньо відображені в операції протоколу.
Модель безпеки: детальний контроль доступу та пісочниця, що забезпечує безпеку приватного ключа в процесі автоматизації.
Оптимізація продуктивності: можливість паралельно виконувати кілька викликів на блокчейні без затримок рендерингу браузера або інтерфейсу.
Приклад: Donut
Donut інтегрує дані та операції блокчейну як першокласних громадян. Користувачі (або їхні агенти) можуть навести курсор, щоб переглянути реальні ризикові показники токенів, або безпосередньо ввести команди природною мовою, такі як “/swap 100 USDC to SOL”. Уникаючи ворожих точок тертя Web2, Donut дозволяє агентам працювати на повну потужність у DeFi, підвищуючи ліквідність, арбітраж і ринкову ефективність.
Перевірене та надійне виконання агентів
Надання代理чутливих прав є дуже ризикованим. Відповідні рішення використовують довірені середовища виконання (TEEs) або нульові знання (ZKPs) для шифрування підтвердження очікуваної поведінки代理 до виконання, що дозволяє користувачеві та контрагенту перевірити дії代理без розкриття особистих ключів або свідоцтв.
Приклад: Phala Network
Phala використовує TEE (наприклад, Intel SGX) для ізоляції та захисту середовища виконання, щоб уникнути витоку або зміни логіки агента та даних з боку операторів Phala або зловмисників. TEE подібно до «безпечної кімнати» з апаратним забезпеченням, що гарантує конфіденційність (зовнішні особи не можуть бачити) та цілісність (зовнішні особи не можуть змінювати).
Для браузерних проксі це означає, що він може входити в систему, зберігати токени сесій або обробляти платіжну інформацію, при цьому ці чутливі дані ніколи не покидають безпечну кімнату. Навіть якщо машина користувача, операційна система або мережа будуть зламані, витік даних неможливий. Це безпосередньо зменшує одне з найбільших бар'єрів для впровадження проксі-додатків: проблему довіри до чутливих облікових даних та операцій.
децентралізована структурована мережа даних
Сучасні системи виявлення ботів не лише перевіряють, чи є запити "занадто швидкими" або "автоматизованими", але також поєднують репутацію IP, відбитки браузера, зворотний зв'язок з JavaScript-викликами та аналіз поведінки (наприклад, рухи курсора, ритм набору тексту, історія сеансів). Проксі, що походять з IP-адрес центрів обробки даних або з повністю повторюваного середовища браузера, легко ідентифікуються.
Щоб вирішити цю проблему, такі мережі більше не збирають веб-сторінки, оптимізовані для людей, а безпосередньо збирають і надають дані, що можуть бути прочитані машинами, або ж через реальні людські браузерні середовища проксі-тіки. Цей спосіб обминає традиційні павуки в етапах аналізу та протипавукових заходах, що дозволяє проксі-тікам отримувати більш чистий і надійний вхід.
Розподілена мережа (distribution network) дозволяє AI-агентам отримувати доступ до веб-контенту, як люди, шляхом проксирування трафіку агентів на ці реальні світові сесії, не викликаючи негайного блокування.
Приклад
Grass:децентралізована мережа даних/DePIN, користувачі діляться невикористаними домашніми широкосмуговими з'єднаннями, щоб забезпечити дружній до агентів, географічно різноманітний доступ до збору даних з публічних веб-сторінок та навчання моделей.
WootzApp: відкритий мобільний браузер, що підтримує криптовалютні платежі, з фоновим проксі та нульовими знаннями особи; він «ігровизує» завдання AI/даних для споживачів.
Sixpence: розподілена мережа браузерів, яка маршрутизує трафік для AI-агентів через перегляд глобальних учасників.
Проте це не є повним рішенням. Виявлення поведінки (траєкторії миші/прокрутки), обмеження на рівні облікового запису (KYC, вік облікового запису) та перевірка узгодженості відбитків пальців все ще можуть викликати блокування. Тому розподілена мережа найкраще сприймати як базовий шар приховання, який повинен поєднуватися з імитаційними стратегіями виконання, щоб досягти максимального ефекту.
Стандарти веб-сторінок для агентів (перспективні)
Наразі все більше технічних спільнот та організацій досліджують: як майбутнім користувачам мережі, окрім людей, взаємодіяти з автоматизованими агентами (агентами) безпечно та відповідно до вимог?
Це спонукало до обговорення деяких нових стандартів і механізмів, метою яких є дозволити веб-сайтам чітко зазначати «Я дозволяю надійним агентам доступ», а також забезпечити безпечний канал для завершення взаємодії, а не як сьогодні, коли агенти за замовчуванням вважаються «атакою роботів» і блокуються.
"Дозволено агенту" мітка: так само, як файли robots.txt, які дотримуються пошукові системи, у майбутньому веб-сторінки можуть додавати мітку в код, щоб повідомити браузерному агенту "тут можна безпечно отримати доступ". Наприклад, якщо ви використовуєте агент для бронювання квитків, сайт не буде виводити купу перевірок (CAPTCHA), а просто надасть аутентифікований інтерфейс.
API шлюз для сертифікованих агентів: веб-сайт може відкрити спеціальний вхід для перевірених агентів, як «швидкий прохід». Агентам не потрібно імітувати людські кліки, введення, а потрібно пройти більш стабільним API шляхом для завершення замовлення, оплати або запиту даних.
Обговорення W3C: Всесвітня мережа (W3C) вже досліджує, як розробити стандартизований канал для "управляємого автоматизації". Це означає, що в майбутньому ми можемо мати набір загальноприйнятих правил, які дозволять надійним агентам бути визнаними та прийнятими веб-сайтами, при цьому зберігаючи безпеку та можливість підзвітності.
Хоча ці дослідження ще на ранній стадії, як тільки вони будуть реалізовані, це може значно покращити відносини між людьми ↔ агентами ↔ веб-сайтами. Уявіть собі: більше не потрібно агентам втиратися в довіру, намагаючись імітувати рухи миші людини, щоби «обманути» контроль ризиків, а натомість відкрито виконувати завдання через «офіційно дозволений» канал.
На цьому маршруті криптографічна рідна інфраструктура може зробити перший крок. Оскільки децентралізовані додатки природно залежать від відкритих API та смарт-контрактів, вони є дружніми до автоматизації. У порівнянні з цим, традиційні платформи Web2, можливо, продовжать обережно захищатися, особливо компанії, які залежать від реклами або систем протидії шахрайству. Але в міру того, як користувачі та підприємства поступово приймають підвищення ефективності, що приносить автоматизація, ці стандартизовані спроби, швидше за все, стануть ключовими каталізаторами, що підштовхнуть весь інтернет до архітектури з пріоритетом代理.
висновок
Браузерні агенти еволюціонують з початкових простих інструментів для спілкування в автономні системи, здатні виконувати складні онлайн-робочі процеси. Ця трансформація відображає ширшу тенденцію: безпосереднє вбудовування автоматизації в основний інтерфейс взаємодії користувача з Інтернетом. Хоча потенціал підвищення продуктивності величезний, виклики також серйозні, включаючи те, як подолати глибоко вкорінені антинатові механізми, а також як забезпечити безпеку, довіру та відповідальне використання.
У короткостроковій перспективі підвищення здатності до міркування агентів, швидкість, більш тісна інтеграція з існуючими послугами, а також прогрес розподілених мереж можуть поступово підвищити надійність. У довгостроковій перспективі ми, ймовірно, побачимо поетапне впровадження стандарту "дружніх до агентів" у тих сценаріях, які автоматизують вигоди для обох сторін – постачальників послуг і користувачів. Проте цей перехід не буде рівномірним: у таких автоматизованих дружніх середовищах, як DeFi, швидкість прийняття буде вищою; тоді як на платформах Web2, що сильно залежать від контролю взаємодії з користувачем, рівень прийняття буде нижчим.
У майбутньому конкуренція технологічних компаній зосередиться на кількох аспектах: як їхні агенти можуть орієнтуватися в обмеженнях реального світу, чи можуть вони безпечно інтегруватися в ключові робочі процеси та чи можуть вони стабільно надавати результати в різноманітному онлайн-середовищі. Що стосується того, чи змінить це «війна браузерів», то залежатиме не лише від технологічної потужності, а від здатності налагодити довіру, узгодити стимули та продемонструвати реальну цінність у повсякденному використанні.