Коли браузер стане наступним полем бою для ШІ, хто буде відсіяний?

Майбутнє штучного інтелекту за агентами, які можуть автономно переміщатися по веб-сторінках. Технологічні компанії інвестують у розробку проксі-серверів для браузерів для автоматизації веб-завдань і підвищення продуктивності. У цій статті розглядаються варіанти його використання, поточні виклики та можливості, які надають сценарії Web3. Ця стаття була написана Маріо Чоу та Фігу, @IOSG, і була скомпільована, скомпільована та внесена BlockBeats. OpenAI Сем Альтман: Я зацікавлений у придбанні Google Chrome!) Найбільша браузерна битва на ринках, що беруть участь) (Передісторія додана: Perplexity пропонує 34,5 мільярда доларів на придбання браузера Chrome, пошуковий двигун штучного інтелекту, міньйони, битви з гігантами) За останні 12 місяців відносини між веб-браузерами та автоматизацією кардинально змінилися. Майже всі великі технологічні компанії намагаються створити власні проксі-(browser agent) для браузерів. З кінця 2024 року ця тенденція стає все більш вираженою: OpenAI запустила режим Agent у січні, Anthropic випустила «використання комп'ютера» для моделі Claude, Google DeepMind запустила Project Mariner, Opera анонсувала проксі-браузер Neon, а Perplexity AI запустила браузер Comet. Сигнал очевидний: майбутнє штучного інтелекту за агентами, які можуть автономно переміщатися по веб-сторінках. Ця тенденція стосується не лише додавання розумніших чат-ботів до браузерів, а й фундаментальної зміни в способі взаємодії машин із цифровим середовищем. Агенти браузера – це системи штучного інтелекту, які «бачать» веб-сторінки та вживають заходів: натискають на посилання, заповнюють форми, прокручують сторінки, вводять текст: так само, як і люди-користувачі. Ця модель обіцяє розкрити величезну продуктивність та економічну цінність за рахунок автоматизації завдань, які все ще є ручними або занадто складними для традиційного скриптингу. ▲ Демонстрація GIF: агент браузера AI в дії: дотримуйтесь інструкцій, перейдіть на сторінку цільового набору даних, автоматично робіть скріншоти та витягуйте необхідні дані. Хто переможе у війні браузерів зі штучним інтелектом? Майже всі великі технологічні компанії (, а також деякі стартапи, ) розробляють власні браузерні AI-агенти. Ось кілька найбільш представницьких проєктів: OpenAI – режим агента Режим агента OpenAI ( раніше відомий як Operator, запущений у січні 2025 року ) є агентом штучного інтелекту з власним браузером. Оператори можуть виконувати різноманітні повторювані онлайн-завдання: заповнення веб-форм, замовлення продуктів, планування зустрічей: і все це за допомогою стандартного веб-інтерфейсу, який зазвичай використовується людьми. ▲ Агенти зі штучним інтелектом планують зустрічі, як професійні помічники: перевіряють календарі, знаходять вільні часові проміжки, створюють події, надсилають підтвердження та створюють .ics документи для вас. Anthropic – «Використання комп'ютера» Клода Наприкінці 2024 року компанія Anthropic представила нову функцію «Використання комп'ютера ( )Use» для Claude 3.5, що дає їй можливість керувати комп'ютерами та браузерами як людина. Клод може дивитися на екран, переміщати курсор, натискати кнопки і вводити текст. Це перший у своєму роді проксі-інструмент великої моделі, який увійшов у публічну бета-версію, що дозволяє розробникам автоматично переміщатися між веб-сайтами та програмами. Anthropic позиціонує його як експериментальну функцію, основною метою якої є автоматизація багатоетапних робочих процесів на веб-сторінках. Perplexity – стартап Perplexity зі штучним інтелектом Comet ( найбільш відомий своїм движком запитань і відповідей ) запустив браузер Comet у середині 2025 року як альтернативу Chrome на основі штучного інтелекту. За своєю суттю Comet — це розмовна пошукова система зі штучним інтелектом, вбудована в (omnibox) рядка URL, яка надає миттєві запитання та відповіді та резюме замість традиційних пошукових посилань. Крім того, Comet має вбудований Comet Assistant, агента-резидента бічної панелі, який автоматизує рутинні завдання на різних сайтах. Наприклад, він може підсумовувати повідомлення, які ви відкриваєте, планувати зустріч, керувати пагінацією браузера або переглядати та сканувати веб-інформацію від вашого імені. Дозволяючи агентам бути в курсі поточного веб-контенту за допомогою інтерфейсу бічної панелі, Comet прагне легко поєднувати перегляд веб-сторінок з помічниками зі штучним інтелектом. Реальні сценарії застосування проксі-серверів браузера У попередній статті ми розглянули, як ( великі технологічні компанії, такі як )OpenAI, Anthropic, Perplexity тощо, (browser проксі браузера через різні форми продуктів agents) Функція Inject. Щоб зрозуміти їх цінність більш інтуїтивно, ми можемо детальніше розглянути, як ці можливості можуть бути застосовані в повсякденному житті та корпоративних робочих процесах у реальних сценаріях. Щоденна веб-автоматизація # Електронна комерція та особисті покупки Дуже практичним сценарієм є делегування завдань з покупок та бронювання агенту. Агенти можуть автоматично заповнювати ваш кошик для покупок в Інтернеті та розміщувати замовлення на основі фіксованих списків, або вони можуть знайти найнижчі ціни в кількох роздрібних магазинах і завершити процес оформлення замовлення від вашого імені. Для подорожей ви можете попросити ШІ виконати завдання на кшталт: «Забронюйте мені рейс до Токіо наступного місяця ( тарифом менше 800 доларів ) та забронюйте готель із безкоштовним Wi-Fi». Агент займається всім процесом: пошуком рейсів, порівнянням варіантів, заповненням інформації про пасажирів, оформленням бронювання готелів, і все це через веб-сайти авіакомпаній і готелів. Цей рівень автоматизації виходить далеко за рамки існуючих туристичних роботів: він не просто рекомендує, а безпосередньо виконує покупки. # Підвищення ефективності офісу Проксі-сервери здатні автоматизувати багато повторюваних бізнес-дій, які люди виконують у своїх браузерах. Наприклад, упорядковуйте електронні листи та витягуйте списки справ або перевіряйте наявність прогалин у кількох календарях і автоматично плануйте зустрічі. Асистент Comet від Perplexity вже може підсумовувати вміст вашої поштової скриньки або додавати для вас порядок денний через веб-інтерфейс. Агенти також можуть увійти в інструмент SaaS, щоб генерувати регулярні звіти, оновлювати електронні таблиці або надсилати форми після авторизації вами. Уявіть собі HR-агента, який може автоматично заходити на різні дошки оголошень про вакансії, щоб розміщувати вакансії; Або торговий агент, який може оновити профіль ліда для CRM-системи. Ці повсякденні завдання забрали б багато часу співробітників, але штучний інтелект може зробити це, автоматизувавши веб-форми та дії на сторінках. На додаток до одного завдання, агенти можуть підключати повні робочі процеси в декількох мережевих системах. Всі ці дії потрібно виконувати в різних веб-інтерфейсах, що є сильною стороною браузерного агента. Агенти можуть входити на різні інформаційні панелі для усунення несправностей і навіть керувати такими процесами, як адаптація нових співробітників ( створення облікових ) на кількох сайтах SaaS. По суті, будь-яка багатоетапна операція, яка в даний час вимагає натискання на кілька сайтів, може бути виконана агентом. Виклики та обмеження сьогодення Незважаючи на потенціал, сучасні проксі для браузерів все ще далекі від досконалості. Поточні впровадження виявляють деякі давні технічні та інфраструктурні проблеми: Архітектура не відповідає сучасному...

AGENT-3.71%
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Закріпити