Саммарі: Перезавантаження ІІ. Створення штучного інтелекту, якому можна довіряти | Гері Маркус, Ернест Девіс

Автори: Гері Маркус, Ернест Девіс

Чого не може штучний інтелект

Три ілюзії

Ось уже півстоліття людство знайоме з поняттям штучного інтелекту (ІІ), і півстоліття вчені регулярно заявляють, що ще трохи — і проблему комп’ютерного розуму буде вирішено, людям прийде на допомогу новий розумний помічник. На перший погляд, так і сталося: пошук в інтернеті, електронні перекладачі, системи розпізнавання осіб, які містять сотні корисних функцій смартфони, роботи, які беруть участь у медичних операціях, — все це доводить інтелектуальну міць комп’ютерів. ІІ стає проблемою державної ваги: лише Китай планує інвестувати в його розробку $150 млрд до 2030 року. Інститут McKinsey підрахував: загальний економічний ефект ІІ може становити $13 трлн, що можна порівняти з економічним ефектом парового двигуна в XIX столітті — якщо, звичайно, машини, що розумніють, ще раніше не вийдуть з-під нашого контролю і не перехоплять владу, зробивши людей безпорадними…

Але чи насправді вони розумні? Чим більше ІІ входить у наше життя, чим більше завдань ми йому делегуємо, тим більше розуміємо, що інтелектуальні можливості машин поки що перебільшені. Роботи, які, за прогнозами футурологів, уже через десятиліття позбавлять мільйони людей роботи на фабриках і заводах, поки що демонструють скромні успіхи, і то на ретельно зрежисованих демороликах. Комп’ютерні програми навчилися компілювати новини, проте правдиву інформацію від фейку не можуть відрізнити. Випробування безпілотних автомобілів у самому розпалі, але вони супроводжуються людськими жертвами, у тому числі зі смертю. Футурологи стверджують, що доктор Watson від IBM скоро замінить терапевтів, але поки що він робить діагностичні помилки, яких не зробив би і студент-медик першого року навчання. Система розпізнавання облич загрожує тотальним контролем, проте Google Photos плутає горил та людей із темним кольором шкіри.

Ми все більше довіряємо машинам, які поки що надто ненадійні. Мільярди доларів сьогодні витрачаються на технологічні рішення, які завтра приведуть до свідомо неповних результатів. Ми отримали більше, ніж сподівалися, але менше, ніж могли. Але ми продовжуємо вірити в ІІ. На наше сприйняття комп’ютерного розуму впливають три ілюзії:

1. Ми олюднюємо ІІ, якщо той виявляє хоча б мінімальні зачатки розумності. Смішно питати «Алісу» про все поспіль, слухаючи її незручні жарти та неточні відповіді, але варто пам’ятати, що голосовий помічник насправді нам не відповідає: він реагує на слова-сигнали, а не на смисли. Зручно довіритись безпілотному автомобілю, захопившись фільмом, поки машина везе тебе за адресою, але важливо мати на увазі, що безпілотник поки що дуже погано відрізняє перешкоди на шляху. Моторошний випадок стався з одним невдалим власником Tesla, чий автомобіль проїхав прямо під вантажним причепом, що перетинав шосе, і вбив свого господаря.

2. Ми вважаємо, що якщо комп’ютер впорався з одним завданням, то впорається і з іншим, важчим. Коли в 2016 році дітище Google AlphaGo майже всуху обіграло супергравця в Лі Седоля, людство було вражене: люди програли битву за інтелект. Однак на цьому успіхи AlphaGo закінчилися: вона не вміє грати в інші ігри і не може ставити інших інтелектуальних завдань. Все, що вміє AlphaGo, це грати в го.

3. Ми віримо, що якщо якесь технологічне рішення працює деякий час, воно працюватиме й надалі. Порівняно легко створити демозразок автомобіля без водія, який здатний їхати нескладною трасою в хорошу погоду. Проблема — у його адаптивності до умов, що змінюються. Ніхто з розробників не дасть гарантії, що їзда Бомбею в сильний дощ буде такою ж успішною.

Чи справді машини здатні надійно виконувати завдання, які ми доручаємо їм? Чи здатні вони правильно розуміти наші накази? Відповідь на обидва питання негативна. І він породжує третє запитання: чому так сталося?

Глибоке навчання та його недоліки

Сьогоднішній ІІ стоїть на двох китах: глибокому навчанні та великих даних. Однак на зорі створення штучного розуму, в 1960-х, ні про перше, ні про друге не йшлося. Комп’ютери були малопотужні, інтернету з океаном інформації не існувало. Першопрохідці ІІ йшли вельми трудомістким шляхом: спираючись на накопичені знання та здоровий глузд, вони спочатку формулювали той чи інший алгоритм дії для досягнення якоїсь мети, а потім перетворювали його на програмний код — у буквальному розумінні вчили комп’ютер думати. Такий підхід досі використовується у плануванні маршрутів для роботів та навігації GPS. Однак поступово ідея закодованих вручну знань була витіснена концепцією машинного навчання за допомогою нейромереж.

Поняття нейронної мережі було описано ще в 1943 психологом Уорреном Мак-Каллоком і математиком Уолтером Піттсом. В 1958 психолог Френк Розенблатт втілив її на практиці: створив перцептрон – модель, що містить близько тисячі пов’язаних один з одним «нейронних клітин», які могли приймати сигнали від 400 фотоелементів. Така нейронна мережа була одношаровою, нескладною, але з часом тільки вдосконалювалася. 1982 року Джон Хопфілд створив мережу, в якій «нейрони» вміли незалежно змінювати свої параметри. У 2007 році Джеффрі Хінтон створив алгоритми глибокого навчання багатошарових нейронних мереж.

Слово «нейрони» невипадкове: структура комп’ютерної мережі справді подібна до структури людського мозку, в якому безліч нейронів з’єднано безліччю зв’язків. Якщо нервові клітини вмирають, страждає розумова діяльність людини; якщо електронних нейронів мало (як моделі Розенблатта), комп’ютерна модель слабка. Чим більше нейронних шарів задіяно в роботі, тим глибше мережа, тим робота ефективніша (звідси і термін «глибоке навчання»). А що більше даних отримують нейромережі, то швидше тренуються. Поки великих даних був, цей механізм існував лише теорії.

Перелом стався у ХХІ столітті: ми почали тонути в інформації. У 2016 році людство за секунду виробляло в тисячу разів більше контенту, ніж міститься у всіх виданих книжках. Для нейромереж настав рай. Глибоке навчання стало наріжним каменем ІІ. Facebook використовує його, щоб вирішити, які посади показати нам у стрічці. Amazon за їх допомогою рекомендує нам товари. Alexa використовує глибоке навчання для розшифровування наших запитів. Завдяки глибокому навчанню та нейромережам світ став зручнішим і простішим, а нейромережі навчають самі себе — що ж у цьому поганого?

Глибоке навчання має три недоліки:

1) воно вимагає величезної кількості даних (AlphaGo знадобилося 30 млн партій у го, щоб досягти надлюдської продуктивності), а з мінімальною інформацією працює погано. Чим сильніший реальний стан справ відрізняється від даних, використаних для навчання нейромережі, тим ненадійнішим буде результат;

2) воно непрозоре. Робота з величезними масивами даних непідвладна розуму людей: ми не можемо зрозуміти, чому система вирішила так, а чи не інакше. Її робота не зводиться до принципів типу «якщо в людини підвищена кількість лейкоцитів, варто припустити інфекцію». І вона відповідає природним знанням у тому, як влаштований світ. Тому нейромережа здатна розпізнати міст або причіп, зіставивши відповідні пікселі, але вона не бачить принципової різниці між тим і іншим, про що говорить приклад про автомобіль Tesla, що в’їхав під причіп;

3) воно обмежене. Нейросеть може вивчити мільйон зображень рожевих поросят, але на мільйон першому знімку не впізнати порося чорного кольору. Очевидне вирішення проблеми – збільшити навчальну вибірку. Однак доучування нейромережі на спотворення одного типу не дає гарантій від спотворень іншого типу, а всю різноманітність фізичних об’єктів перебрати неможливо.

Два ключові вміння, оволодіння якими говорило б про те, що ІІ уподібнився до людського розуму, — читання і здатність роботів замінити людину в різних сферах життя. Як справи тут?

Дивиться у книгу — бачить…

Кількість інформації щодня збільшується у рази, навіть вузькі фахівці не встигають знайомитися з усіма новинами у своїй сфері. Було б чудово, якби ІІ прийшов тут на допомогу. Здається, він уже готовий: 2018 року Рей Курцвейл анонсував проект Google Talk to Books. За словами Курцвейла, GTB має «перетворити читання книг на принципово інший процес». Так і виявилося, лише слова «принципово інший» означали не те, що мав на увазі футуролог. Зібрана в електронній пам’яті книжкова колекція не допомогла GTB порозумнішати. На питання, де Гаррі Поттер познайомився з Герміоною Грейнджер, система дала лише шість із 20 відповідей, які стосувалися Гаррі Поттера, — в інших згадувалися якісь інші Гаррі. З питанням про те, хто був головним суддею Верховного суду США 1980-го, GTB теж не впорався (при цьому відповідь легко шукається будь-якою пошуковою системою). Виявилося ще, що відповіді системи дуже залежить від формулювання питання . Якщо запитати GTB, хто зрадив свого вчителя за 30 срібняків, лише три відповіді з 20 вкажуть на Юду. А якщо спитати, хто зрадив свого вчителя за 30 монет, GTB згадає про Іуду лише в одному з 20 випадків. Відповідаючи на запитання «Хто продав свого вчителя за 30 монет?», GTB взагалі не згадує Юду.

Адже читання не зводиться до вивчення коротких відповідей. Що щодо сюжетних історій? Комп’ютер був пред’явлений простенький текст: «Двоє дітей, Анна і Ерік, вирушили на прогулянку. Вони обоє побачили собаку та дерево. Ерік побачив кішку і вказав на неї Ганні. Вона вирішила погладити кішку». Комп’ютер легко відповідає на пряме запитання «Хто пішов гуляти?», проте не може відповісти на запитання на кшталт «Чи бачила Ганна кішку?». чи «Злякалися чи діти кішки?». Ми, читаючи тексти, схоплюємо таку інформацію легко: у нас вже є якийсь образ дітей і кішки, ми розуміємо можливу реакцію дитини на кішку, ймовірність переляку та ін. У ІІ немає ніякого уявлення про кішку, дітей, переляку. Ми оперуємо спільними уявленнями про світ і фоновими знаннями, а комп’ютер лише ймовірностями. Він уміє аналізувати, як часто слова зустрічаються разом у певних контекстах, але цим справа обмежується. Строго кажучи, комп’ютер взагалі не має уявлення про те, як улаштований світ.

Навіть пошукові системи, які стрімко вдосконалилися за останнє десятиліття, не варто переоцінювати: Google зовсім не потребує навичок розуміння текстів, що шукаються, він просто перебирає у своїй базі даних найвідповідніші результати. Промахи неминучі: так, пошуковик легко пропускає повз вуха слово «ні». Коли вчені попросили Siri знайти на околицях «ресторан швидкого харчування, але не McDonald’s», система видала три McDonald’s в окрузі. З погляду ІІ все логічно: навряд чи хтось називає KFC «не McDonald’s».

А як же суперкомп’ютер Watson, що обіграв найкращих гравців у телевікторині Jeopardy? Перемога нічого не говорить про його розум: 95% відповідей були заголовками Вікіпедії. Мабуть, тому перемога в Jeopardy залишилася головною у кар’єрі Watson: IBM досі не перетворила його, скажімо, на надійного віртуального помічника.

ІІ не вистачає знання лінгвістичного принципу композиційності — вміння набути сенсу фрази із сенсу її частин. Працюючи з пропозицією «Відстань від Землі до Місяця становить 384 400 км», система не розпізнає словосполучення, що стосуються двох астрономічних об’єктів і відстані між ними, — вона лише покладається на неструктурований пошук величезної кількості кореляцій у величезному масиві даних.

Проблеми з McDonald’s та розумінням фрази про Землю та Місяць могли б вирішити методи класичного ІІ. У першому випадку допомогло б побудова списку (ресторани швидкого харчування у певному районі), а потім виключення елементів, що належать до іншого списку (список франшиз McDonald’s). Але побудова списків не входить до структури глибокого навчання. У другому випадку допомогло б складання шаблону типу «відстань від місця 1 до місця 2 становить…», який використовується для ідентифікації фраз, що визначають відстань між двома місцями. Однак кожен такий шаблон має бути закодований вручну, і він не працює зі злегка зміненими пропозиціями на кшталт «Місяць знаходиться приблизно за 240 000 миль від Землі». Мова занадто різноманітна і гнучка, щоб її можна було закодувати таким способом.

Людство нагромадило гори знань. Фізіологи багато знають способи формування візуальних образів. Лінгвісти багато знають про структуру мови. Фізики багато можуть розповісти про принципи руху роботів. Але як навчити цьому ІІ, незрозуміло: у нас просто немає мови, якою можна було б перекласти ці знання. Метод глибокого навчання допомагає ІІ швидко освоювати гори інформації, але уявлення немає про композиційності. Методи класичного ІІ можуть дати комп’ютеру поняття про композиційність, але надзвичайно трудомісткі та не цілком надійні.

Повстання машин відкладається

YouTube сповнений демороликів, у яких роботи виконують найрізноманітніші завдання. Ключове слово — демо: ми, як правило, маємо справу з сюжетом, знятим з десятого разу і в строго конкретній обстановці. Імовірність того, що найближчим часом ми отримаємо роботів, здатних виконувати широкий спектр завдань – від фарбування стін до упаковки подарунків – дорівнює нулю. Найуспішніший проект такого роду – робот-пилосос. Ах так, ще дрони, які дуже допомагають операторам, але дронам не потрібно піднімати речі, маніпулювати предметами або підніматися сходами.

Максимум можливостей роботи показали при ліквідації наслідків ядерної аварії на Фукусімі-1 у 2011 році (могли вибудовувати оптимальний маршрут, коригувати свої дії), хоча вони здебільшого керувалися радіо-зв’язком операторами.

Ключове питання тут – надійність. Якщо алгоритм соцмережі помилиться і видасть користувачам не передбачений налаштуванням пост, нічого страшного не станеться. А ось робот-доглядальниця не може діяти в режимі «дев’ять вдалих рішень із десяти». Робот, що успішно діє, повинен вміти обчислити п’ять параметрів:

1) де він знаходиться;
2) що відбувається довкола;
3) що він повинен робити прямо зараз;
4) як він має втілювати свій план;
5) що він повинен мати на увазі у довгостроковій перспективі, щоб досягти мети.

Роботу-пилососу достатньо обчислити параметр №3; він продовжуватиме пилососити і в центрі урагану. З рештою складніше. Інженерам вдалося вирішити проблему орієнтації роботів на місцевості: сучасні машини вміють не тільки використовувати датчики, щоб бачити навколишній простір, а й коригувати оцінку свого положення, додаючи до ментальної карти об’єкти, яких не бачили раніше. Досягнуто великий прогрес і в управлінні рухами робота (обертання рук, ходьба та ін.), а це одне з найскладніших завдань галузі (і така звична дія, як захоплення чашки чаю двома пальцями, вимагає ряду найскладніших маніпуляцій, в яких ми, люди, не усвідомлюємо: перемістити різні частини руки і кисті так, щоб не наткнутися на стіл, прикласти достатньо сили до ручки чайної чашки тощо). Рухи роботів компанії Boston Dynamics дуже схожі на рухи тварин, їх програми миттєво і безперервно оновлюють інформацію в м’язах робота, щоб ті могли гнучкіше діяти в навколишньому середовищі (замість просто виконувати заплановану програму). Ці роботи вміють ходити нерівними поверхнями, підніматися сходами, хоча поки що — у ретельно контрольованих обставинах.

Роботи в демороликах, що складають рушники, чомусь завжди діють на темному тлі, а білизна при цьому має підозріло яскравий колір. Але що про тьмяне освітлення та різномасні рушники?

Справжній контроль над діями робота передбачає, що він непросто орієнтується біля, але обізнаний у тому, що може статися навколо і як цього реагувати. Чи насувається гроза? Чи плита може спалахнути, якщо забути її вимкнути? Додайте сюди ще тисячу домашніх дрібниць, якщо йдеться про роботу-домогосподарку. На заводі ситуаційна поінформованість — проблема, що вирішується, тому що завод — це ретельно регульована замкнута система. Але звичайна квартира – ні. Так, розпізнавання об’єктів — сильний бік ІІ, але в реальних умовах виникає безліч нюансів: чим сильніші зміни в освітленні або, скажімо, чим більше речей у кімнаті, тим вірогідніше помилки робота. Крім того, системи розпізнавання об’єктів далеко не завжди здатні зрозуміти відносини між об’єктами в сцені: вогонь у каміні та вогонь, що пожирає штори, — дві великі різниці, але нинішнім роботам це невтямки. Додамо сюди інформацію про різні типи будинків (бетонні, дерев’яні…), різні види пожеж — все це складається у складну систему розпізнавання вогню, і це лише один із аспектів знання, яке потрібне роботі-домогосподарці.

Ілон Маск недарма пояснював первісні труднощі у виробництві Tesla Model 3 «занадто великою автоматизацією». Ймовірно, йшлося про те, що навіть у заводських умовах виробництво було надто динамічним процесом, за яким роботи не встигали: їх програмування виявилося недостатньо гнучким.

На сьомому десятку робототехніки конструктори можуть констатувати, що їм вдалося навчити роботів розуміти, де вони знаходяться. Але оцінка робочої ситуації та можливість коригування дій з урахуванням незапланованих змін залишаються технологічною мрією. Світ надто складний, а роботи надто негнучкі. Якщо повстання машин все ж таки відбудеться і ви почуєте про нього в новинах, просто підійдіть до дверей і перевірте, чи вони прикриті. Все, ви в безпеці. Замок можна не замикати: сучасні роботи не можуть впоратися навіть із дверною ручкою.

Усе це означає одне: поглинаючи гігабайти інформації, нейромережі не навчаються у сенсі цього терміну. Оброблювані ними дані не поєднуються причинно-наслідковими зв’язками, не перетворюються на складні когнітивні об’єкти. Глибоке навчання підходить тоді, коли правила чітко визначені, а інформація несуперечлива. Гра в го або шахи дуже складна, але це закриті системи з певними, суворо встановленими правилами. Автомобільна траса чи звичайна кімната з десятками різнокаліберних предметів — зовсім інша річ. Кожна кішка виглядає по-своєму, але роботу-домогосподарці не годиться знати про кожну окрему кішку, що вона повинна і не повинна з нею робити. У нього має бути загальне уявлення про кішок. Сучасний ІІ так думати не вміє.

Сила здорового глузду

Чому ми розумніші за комп’ютер

Вважають, що людський розум поступається комп’ютерному. Ми втомлюємося, відволікаємося, часто забуваємо важливе, схильні до емоцій. І все-таки наш інтелект сильніший за штучний. Ми можемо комплексно сприймати світ довкола себе, легко адаптуватися до обставин і міркувати, маючи неповну інформацію. Як нам це вдається? Через низку причин, яким непогано б навчити ІІ.

1. Наше знання про світ спирається на пропозиції, а ІІ оперує лише безліччю даних. Пропозиції — смисли, які за умовчанням стоять за нашими судженнями і приймаються за промовчанням. Говорячи «Сонце сходить», «Сонце сходить?» або «Сонце сходить!», ми все одно маємо на увазі один і той же глибинний зміст: ми знаємо, що сонце сходить, це факт про світ, оформлений у нашій свідомості за законами граматики нашої мови. Для ІІ не існує ні світу, ні непорушного знання про нього, він діє шляхом перебору безлічі варіантів, і тому заперечення для нього не відрізняється від твердження (згадаймо приклад з пошуком McDonald’s в окрузі).

2. Наше знання про світ спирається на абстрагування та узагальнення – ІІ цього позбавлений. Самі того не помічаючи, ми використовуємо величезну кількість надзвичайно абстрактних понять: «краса», «шах і мат», «марксизм», «гравітація» — це продукти розуму, ми не можемо їх помацати руками, проте все це суттєво впливає на наше світовідчуття.

3. Наше мислення — складноструктурований феномен, що взаємодоповнюється, тому ми вміємо вирішувати завдання різної складності. Психолог Даніель Канеман виділяє два типи мислення: швидке, що включається при автоматичних реакціях, та повільне, яке задіяне, коли ми міркуємо, вирішуємо завдання. Фокус у тому, що для різних проблем ми використовуємо різні види пізнання . При цьому в мозку немає окремих областей, які б відповідальні за окремі дії, різні відділи мозку об’єднуються в різні патерни для виконання певного завдання.

Все це протилежне нинішнім тенденціям у розвитку ІІ. Коли компанія NVIDIA (світовий лідер у сфері інтерактивної графіки) створювала модель водіння Nvidia, вона відмовилася від поділу на моделі сприйняття, прогнозування та прийняття рішень, зосередившись на єдиній відносно однорідній мережі з прямими кореляціями між сирими даними та інструкціями з управління. Легко у створенні, але не надто ефективно на практиці: такі системи працюють без втручання водія лише кілька годин, на дорозі здатні лише триматися смуги руху, і не більше.

4. Розуміння світу спирається і безпосередні почуття, і фонові відомості. Тому наші знання складні та неоднозначні. Забирати чуже – недобре, але Робін Гуд – це круто. Вбивати людей неприпустимо, проте терорист має бути ліквідовано. Але як це прописати у програмному коді робота-поліцейського?

5. Ми легко інтегруємо знання у картину світу, що вже склалася. Коли дитина вперше бачить фото черепахи, вона відразу може розпізнавати не тільки інші фото черепах, але й черепах на відео та реальному житті, відрізняючи їх від кішок або кенгуру. Він може зробити загальний висновок, що черепахи, як і інші тварини, дихають, їдять і розмножуються, народжуються маленькими, ростуть і вмирають. Жоден факт про світ не існує окремо, він завжди вбудований у якусь теорію – у цьому сила знання. І це те, чого не вміє глибоке навчання.

6. Ми маємо уявлення про причинно-наслідкові зв’язки та вміємо відрізняти їх від кореляцій. Знання причинності допомагає тоді, коли ми цілком розуміємо механізм роботи. Ми приймаємо аспірин тому, що знаємо принцип його дії, знання біохімії тут не потрібне. А ще ми вміємо відрізняти справжню причинність від уявної, а ІІ – ні. Нещодавно в Німеччині було виявлено відповідність між падінням народжуваності та зменшенням кількості пар у лелек. Дві криві, що відображали перебіг цих процесів між 1965 і 1987 роками, дивовижним чином збігалися. Що ж, менше лелек — менше дітей? Комп’ютер зробив би такий висновок.

7. Ми стежимо за перебігом речей і помічаємо тонкі відмінності. Чоловік Анни раніше працював журналістом, а тепер вирішив спробувати себе у дизайні. Продуктовий супермаркет на розі раніше був нічого, але згодом зіпсувався. Наше життя складається з сотень подібних фактів, пов’язаних тонкими міцними нитками, — це досвід. ІІ ж міркує інакше, фіксуючись не на окремих фактах, а на категоріях: «діти переважно віддають перевагу цукеркам брокколі», «автомобілі мають чотири колеса».

Так, системи глибокого навчання добре вміють розпізнавати зображення окремих людей — але це робота з категоріями, а не з людьми. Легше навчити систему розпізнавати фотографії хокеїста Олександра Овечкіна, ніж змусити її зробити висновок зі зведення новин за кілька років, що спортсмен чотири сезони грав за «Динамо».

8. Ми не вчимося з чистого аркуша, а принципи роботи ІІ побудовані на самонавченні за допомогою завантаженої інформації. Часто це працює — наприклад, коли ІІ маркує відеоконтент, — але не варто очікувати від нього надто багато: система відеоспостереження може визначити різницю між відеозаписом, на якому людина йде, та відеозаписом, на якому людина біжить, але зрозуміти різницю між розблокуванням велосипеда та крадіжкою велосипеда вона не може.

Мислення – складний феномен. Психологи робили спроби знайти до нього універсальну відмичку: так, біхевіористи в середині ХХ століття звели все багатство людської психіки до механізму “стимул – винагорода”, що лежить в основі контрольованого навчання. Але досить швидко біхевіоризм поступився місцем когнітивної психології, що зосередилася на вивченні складних феноменів пам’яті, сприйняття, уваги. Нинішня концепція глибокого навчання — не що інше, як контрольоване навчання з теорії біхевіористів. Однак ІІ, чия робота побудована лише на великих даних без розуміння складних абстрактних знань про світ разом із причинністю явищ, ніколи не буде інтелектом у повному розумінні слова.

Як навчити комп’ютер здоровому глузду

Здатність до абстрактного мислення, уявлення про причинно-наслідкові зв’язки та інші особливості нашого розуму складаються в те, що називається здоровим глуздом. Виявляється, навчити йому комп’ютери дуже важко.

Перший спосіб – зробити це вручну. Один із наймасштабніших проектів такого роду — Never-Ending Language Learner, розпочатий у 2011 році. День за днем, планомірно і методично, дослідники аналізують документи в Мережі щодо спільних лінгвістичних патернів. Якщо вчений бачить фразу на кшталт «такі міста, як Нью-Йорк, Париж та Берлін», він вчить ІІ, що Нью-Йорк, Париж та Берлін — міста. Інший проект, ConceptNet, який проводиться під керівництвом MIT Media Lab, віддав навчання ІІ на аутсорсинг. Проект підтримує сайт, де волонтери запроваджують прості факти здорового глузду англійською. Так, учасника можуть попросити вказати факти, які матимуть значення для розуміння історії «Марк застудився. Марк пішов до лікаря»: історія доповнюється відомостями на кшталт «люди із застудою чхають». Потім фрази автоматично перетворюються на машинні кодування – це набагато ближче методам класичного ІІ. Щоправда, маса надто очевидної для людей інформації на кшталт «після того, як щось померло, воно ніколи не буде знову живим» все одно залишається за бортом. Диявол у деталях…

Мабуть, одного універсального способу адаптувати здоровий глузд для ІІ не існує, однак і зовсім не вирішуване завдання не виглядає.

Другий спосіб – таксономія . Вона допомагає охопити значну частину даних, тим більше, що Вікіпедія сповнена вже класифікованої інформації. Але якщо з тваринами чи рослинами все зрозуміло, то як класифікувати явища на кшталт «Реформації» чи «військових дій СРСР у Фінляндії 1939 року»?
Ще одна частина даних може бути охоплена діаграмами, відомими як семантичні мережі. Вони можуть уявити куди ширший спектр понять: не тільки те, які частини становлять якесь ціле і які категорії знаходяться всередині інших категорій, а й види відносин типу «Саратов стоїть на Волзі» або «поліцейські — це люди, які ведуть поліцейські машини». Але часто семантичні мережі буксують, особливо якщо потрібно уявити тимчасові відносини. Семантична мережа може містити інформацію, що хокеїст Олександр Овечкін народився в Москві, його зріст 190 см і т.д. Але ІІ легко може вирішити, що Овечкін був зріст 190 см, коли народився. Якщо ми уточнимо, що Овечкін грає у хокей з 2001 року до теперішнього часу, ІІ може вважати, що спортсмен грає у хокей 24 години на добу 365 днів на рік останні 19 років.

Гнучкіший підхід пропонує формальна логіка. Конструкція «Все Р є Q. R є Р. Тому R є Q» допомагає заповнити багато смислових прогалин («Хокеїсти не грають у хокей 24 години на добу. Овечкін — хокеїст. Овечкін не грає у хокей 24 години на добу»). Однак формальна логіка залишилася долею класичного ІІ і в глибокому навчанні не використовується.

Всі ці методи повинні працювати разом на одну ключову мету — дозволити комп’ютерам розглядати окремі факти як приклади більш загальних смислових відносин. Говорячи про найважливіші структури знання, які мають бути опорою для ІІ, варто слідом за філософом Іммануїлом Кантом визнати фундаментальність категорій часу, простору та причинності. Але й тут є очевидні проблеми:

Щоб створити систему, яка могла б вирахувати, коли Овечкін грав у хокей, а коли ні, потрібно щось більше, ніж абстрактне уявлення про час: наприклад, загальні уявлення про те, що «людина не може ефективно виконувати складні навички уві сні», разом із конкретними фактами життя спортсмена.
Евклідовий простір добре вивчений ІІ, підтвердження тому — реалістичні спецефекти в голлівудських блокбастерах. Однак вміючи обчислювати форму предметів та їх обсяг, ІІ не розуміє функціональності форми . Адже багато хто на перший погляд прості побутові предмети далеко не прості з геометричної точки зору. Так, сітка для овочів, чия форма змінюється залежно від того, що в неї поклали, є найважчим геометричним завданням: ІІ повинен мати на увазі, що у сітки немає однієї фіксованої форми, що туди можна покласти картоплю, але не можна покласти горошину і пр. Цього знання ще вдалося домогтися, а нього робот марний і в побуті, і з виробництва.

Очевидний спосіб, що поки що не дуже виправдав себе, поєднати три фундаментальні категорії знання — комп’ютерне моделювання. Програми, які використовуються у відеоіграх типу Grand Theft Auto, імітують взаємодію між машинами, людьми та іншими об’єктами ігрового світу. Симуляція враховує форму, вагу та інші характеристики об’єкта початковий момент, та був використовує знання фізики, щоб передбачити спосіб руху об’єкта. Вчені використовують моделювання у тому, щоб уявити складні процеси типу еволюції галактик чи руху клітин крові. Однак для моделювання потрібні надто великі комп’ютерні потужності, адже світ надзвичайно складний і потребує ретельного обчислення безлічі показників. Симулятори реальності можуть охопити лише малу частку того, з чим робот зіткнувся б у реальному житті.

Навчання комп’ютерів неминуче припускає, що їм потрібно вчитися самостійно: неможливо вручну кодувати все, що потрібно знати машинам. Треба знайти компроміс між самостійною здатністю ІІ, наприклад, маркувати мільйони фотографій собак і способом донести до нього, як поводяться певні породи собак, які потенційно небезпечні і в яких умовах.

Глибоке навчання – це не те, чим зайнятий ІІ сьогодні. Насправді це здатність вчитися у відкритих системах типу вулиці або кімнати з їх складними просторово-часовими та причинними зв’язками.

Як не стати заручником ІІ?

Через обмеженість глибокого навчання дуже багато рішень у сфері ІІ досі виявлялися короткостроковими. У цій галузі майже не вироблено певних інженерних стандартів, які сприймаються як належне в інших галузях на зразок машинобудування. Така недбалість виглядає невинною лише доти, доки ставки низькі. Нічого страшного, якщо автотаргетування людей на фото надійне лише у 90% випадків, коли йдеться про Instagram, але що буде, якщо ці програми почне використовувати поліція? Пошук Google не потребує краш-тестів, а ось безпілотні автомобілі ще як. Втім, вразливість електронних систем очевидна вже зараз, особливо якщо йдеться про інтернет речей або GPS, що легко піддаються атакам хакерів.

Інженерні стандарти, своєю чергою, потребують адекватних способів оцінки прогресу у сфері ІІ. Найвідоміший показник тут — тест Тьюринга (інтелект стане інтелектом у сенсі тоді, коли, розмовляючи з людиною, змусить його думати, що той розмовляє ні з машиною, і з іншим человеком). Однак у 2014 році чат-бот Eugene Goostman обдурив журі конкурсу Turing Test, зімітувавши 13-річного підлітка з Одеси, який нібито не знав відповіді на деякі запитання або просто уникав відповідей. Тест Тьюринга не відповідає головній меті в розробці ІІ: вона не в тому, щоб комп’ютер зміг якнайхитріше обдурити людей, а в тому, щоб він зміг орієнтуватися у світі, гнучко міркувати і приносити людям максимальну користь.

Ну а якщо ІІ все ж таки вирішить схитрувати і обвести людину навколо пальця? Часто згадують закони робототехніки, вигадані фантастом Айзеком Азімовим . Мовляв, як тільки ми почнемо розуміти, що ІІ перетворюється на потенційну загрозу, треба відразу ж навіяти йому ці три закони, і справа в капелюсі.

Але тут не все просто. Насамперед, як уже згадувалося, ми не говоримо мовою ІІ: глибоке навчання принципово відрізняється від класичного програмування, нейромережі — чорна скринька, і дослідники далеко не завжди розуміють, що і як відбувається у її глибинах. Коригування помилок нейромережі доречніше порівняти не з правкою помилкового коду, а, швидше, з коригуванням побічних симптомів нових ліків, на які організм може відреагувати як завгодно. Крім того, порушення вже першого закону, мабуть, неминуче у багатьох ситуаціях (що, якщо безпілотний автомобіль їде назустріч некерованому шкільному автобусу, повному дітей?). А чи не зациклиться робот у невідповідний момент на моральній дилемі, яка насправді яйця виїденого не варта (розмірковуючи, наприклад, чи варто рятувати людей з палаючої будівлі через потенційну шкоду, яку діти мешканців можуть колись завдати іншим людям) . Чи можна, зрештою, створити надрозумний інтелект, зовсім позбавлений як горезвісного здорового глузду, так і моральних цінностей? На це питання вчені не мають відповіді.

ІІ унікальний тим, що має потенціал для зниження власних ризиків: ножі не можуть розмірковувати про наслідки своїх дій, але ІІ колись зможе. Реальна небезпека, однак, не в тому, що ІІ колись радикальним чином порозумнішає і захопить світ, а в тому, що вже сьогодні ми цілком покладаємося на невідпрацьовані технологічні рішення, далекі від справжнього інтелекту. Ми надто швидко рухаємось по дорозі в невірну сторону. Наш ІІ – підліток, який не усвідомлює своїх власних сил і не спроможний проаналізувати наслідки своїх дій.

Єдиний вихід – зійти зі шляху глибокого навчання нейромереж, що підпорядковує їх сліпій статистиці, і взятися за створення машин, керованих на основі складних когнітивних моделей, що мають уявлення про простір, час і причинність. Тільки у цьому випадку ми можемо розраховувати на комфортне майбутнє. Роботи, оснащені таким програмним забезпеченням, зможуть безпечно для людей і себе пересуватися землею та повітрям, маніпулювати різноманітними предметами, комфортно взаємодіяти з оточенням. Пошуковики зможуть відповісти на будь-яке, навіть найвитонченіше питання. Згодом машини, які досягли життєвого розуміння світу, зможуть відповідати ще складнішому уявленню про реальність, властиву експертам у різних наукових сферах, — і з’являться роботи-лікарі, роботи-юристи. Ці машини справді зможуть навчати себе у звичному для нас сенсі. Все це змінить життя так само сильно, як змінив його інтернет, а може, ще сильніше.

Ми не можемо сказати з упевненістю, коли і як саме це станеться: так древні греки, вперше познайомившись із електрикою, і мріяти не могли про інтернет. Але ми знаємо, що це станеться, ІІ неминуче порозумнішає — і краще постаратися зробити так, щоб це пройшло якомога безпечніше для нас.

10 найкращих думок

1. Глибоке навчання непрозоре, обмежене, неефективне, якщо працює з мінімумом даних і не вміє пов’язувати їх у цілісну картину. Глибоке не означає розумне, йдеться лише про кількість нейронних верств у мережі, а не про повноту осмислення світу.

2. Весь технологічний прогрес спрямований на те, щоб створювати порівняно нерозумні машини, що виконують досить вузькі завдання та покладаються на сліпі кореляції даних. Вигідно для Facebook та Google, невигідно для всіх нас.

3. Не варто переоцінювати суперкомп’ютер, який виграв спочатку у шахи, а потім у го. У закритих системах з певними, суворо встановленими правилами ІІ справді ефективний. Але весь навколишній світ – відкрита непередбачувана система.

4. Ми слабші комп’ютера, тому що втомлюємося, відволікаємося, схильні до емоцій. Але ми несумірно сильніші за комп’ютер, тому що маємо зв’язне уявлення про реальність і здатні переучуватися навіть з мінімумом доступної інформації.

5. Дві ключові ознаки, які б свідчили про тріумф ІІ, — читання і здатність роботів замінювати людину в різних сферах життя. Але поки що комп’ютер не розуміє сенсу елементарних текстів, а найвище з доступних досягнень робототехніки — робот-пилосос.

6. Дозволити машинам вчитися самим? Вручну кодувати все, що потрібно знати? Ні те, ні інше : потрібно шукати компроміс, але в практикованій сьогодні методиці глибинного навчання його не знайти.

7. Одного універсального способу адаптувати здоровий глузд для комп’ютера немає, але можна задіяти відразу кілька, і вони лежать у сфері класичного ІІ, якого ще пізно повернутися.

8. Тест Тьюринга і закони робототехніки Азімова хороші лише теорії.

9. Реальна небезпека не в тому, що ІІ завтра підпорядкує собі світ, а в тому, що вже сьогодні ми цілком покладаємось на невідпрацьовані технологічні рішення, далекі від справжнього інтелекту.

10. ІІ неминуче порозумнішає , але чи це буде розум незрілого підлітка (сьогоднішній варіант) або усвідомлений інтелект, вирішувати нам.

Принцип роботи багатошарової нейромережі такий: вона починає із завантажених у ній сирих даних і поступово, шар за шаром, формує їх дедалі складніші образи. Так, при розпізнаванні зображень як сирі дані для першого шару використовуються пікселі. Нейрони наступного шару комбінують їх виявлення основних параметрів зображення на кшталт штрихів і орієнтації. Наступний шар нейронів комбінує довші лінії, кути тощо. Наступні шари виявляють дедалі складніші форми — овали, квадрати, поки, нарешті, не складаються об’єкти, які треба розпізнати: обличчя чи рукописний почерк.

Читайте саммарі книги футуролога та фахівця з довголіття Рея Курцвейла « Transcend. Дев’ять кроків на шляху до вічного життя ».

Таксономія – наука про принципи та практику класифікації та систематизації.

Обов’язкові правила поведінки для роботів були сформульовані письменником ще 1942 року. Перший закон: «Робот не може завдати шкоди людині або своєю бездіяльністю допустити, щоб людині було завдано шкоди». Другий закон: «Робот повинен коритися всім наказам, які дає людина, крім тих випадків, коли ці накази суперечать Першому закону». Третій закон: «Робот повинен дбати про свою безпеку тією мірою, якою це не суперечить Першому чи Другому законам».

Перезавантаження ІІ. Створення штучного інтелекту, якому можна довіряти | Гері Маркус, Ернест Девіс

Чого не може штучний інтелект

Сила здорового глузду

10 найкращих думок

More posts

Теорія брехні | Пол Экман

Фентезі: НЕЗНАЙОМЕЦЬ | Стівен Кінг

Фентезі: Рінсмангл, гном з Рівної Пущі! | Террі Пратчетт

Твоїй внутрішній дитині потрібен дім | Штефані Шталь