Ашық имитацияны оқуға арналған OpenAI-дің жаңа тәсілі, АИ болашағына бағыт

Ян Дуан, Марчин Андричович, Брэдли С. Стади, Джонатан Хо, Джонас Шнайдер, Илья Суцкевер, Питер Аббель, Войцех Заремба

16 мамырда OpenAI зерттеушілері өздерінің жобаларының біреуінің бейнесімен, сонымен қатар АИ дамуының негізгі үш проблемасының шешімдерін қарастыратын екі маңызды құжатпен бөлісті: мета-оқыту, бір түсірілім арқылы оқыту және мәліметтерді автоматтандырылған құру. Алдыңғы постымда мен бір оқудан үйренудің қызықты мәселесіне арналған мақалаға уәде бердім, осылайша осында кетеді. Сіз олардың таңғажайып жұмысын түсіндіретін бейнені қарап бастай аласыз:

Бұл видеода сіз бір қолмен жасалған физикалық роботтардың бір-бірінің үстіне текшелер жинайтындығын көресіз. Қазіргі уақытта өнеркәсіптік роботтардың орындай алатын күрделі міндеттерді білуі, егер зерттеуші не болып жатқанын түсіндіруге тырыспаса, көптеген есептер бойынша бұл өте ауыр болады. Бақыланатын ортада міндет қарапайым, процедуралық (қатал кодталған) тәсілдер бұл проблемаларды шешіп үлгерді, перспективалы және революциялық болып табылады, бұл жалпы шеңбер шулы ортада бірнеше, неғұрлым күрделі және бейімделгіш әрекеттерді қаншалықты кеңейте алады.

Адамдар мен жоғары жануарлар арасындағы ақыл-ойдың айырмашылығы, әрине, дәрежесі және түрі емес.
- Чарльз Дарвин

Ұқсастық бойынша, бұл мақала қазіргі енгізілген AI (физикалық жүйелерді жасанды интеллект) және 22-ші ғасырдағы роботтар арасындағы танымдық жүйелердегі айырмашылықтардың түрі емес, ауқымы болатындығының дәлелі болып табылады. 2012 жылдан бастап ImageNet бәсекесі *, терең зерттеу зерттеу нейрондық желі арқылы бөлінген есептеу сипатын өзгерту үшін емес, белгілі бір тапсырманы игеру үшін желілерді құрудың жаңа тәсілдерін табу арқылы дамып келеді. Нейрондық желі функциясы құрылым болып табылады, бұл құрылым қатты кодталмаған (қолмен жасалынбаған), бірақ бұл бастапқыда олардың құрылымы мен қосылыстарын өзгерте алатын кіріс пен шығыс арасында байланысқан атомдық есептеу қондырғыларының нәтижелері. Бұл желінің жалпы құрылымын өзгерту арқылы белгілі бір функцияны үйренеді.

Бұл мақалада олар агенттерді рефераттық жолмен тапсырмалар беруге үйрете алатын және осы білімді жаңа тапсырмаларды бір рет көрсетуден (оқуды бір рет елестетуден) кейін жаңа көрінбейтін тапсырмаларға беруді үйренетін жалпы шеңбер құрды.

Тапсырмалар

Архитектураның нақты орындалуы әртүрлі болғанымен, олар жалпы тәсілдің тиімділігін көрсету үшін екі тапсырманы мысал ретінде алады.

Бөлшектерге жету

Бірінші мысалда жүйе жазықтықта түрлі-түсті нысана позицияларын және көрсетілген мақсатқа баратын модельденген агенттің бірыңғай бейнесін алады.

2-сурет. Робот - 2 өлшемді күшпен басқарылатын нүктелік масса. Міндеттер тобы - мақсатты межеге жету. Белгілеу белгісі тапсырмадан тапсырмаға дейін ерекшеленеді, ал модель демонстрация негізінде қандай мақсатты көздейтінін анықтауы керек. (сол жақта) роботтың иллюстрациясы; (ортаңғы) тапсырма қызғылт сары қорапқа жету, (оң жақта) жасыл үшбұрышқа жету.

Жаттығу кезінде жүйе бірдей тапсырманы (қызғылт сары түске дейін) шығаруы керек, бірақ басқа конфигурациядан бастап, робот пен нысаналарға арналған әртүрлі бастапқы позициялары бар. Тексеру кезінде агенттің ол оқыған тапсырмасында (қызғылт сары түске дейін) немесе ол бұрын-соңды көрмеген тапсырмада (мысалы, жасыл түсті) немесе екеуінде де тексерілетіні белгісіз.

Оқытылған саясат жаңа сценарийлер бойынша бағаланады және жаттығу кезінде көрінбейтін жаңа демонстрациялық траекториялармен түсіндіріледі.

Агент мақсатты нысанды бірегей демонстрациядан бастап, қайтадан басқа конфигурациядан бастауы керек екені белгілі. Бұл қозғалтқыштың нақты тізбегін тестілеу алдында білуге ​​болмайтындығын және тапсырманы және моторды жоспарлауды абстракциялау арқылы (жоғары деңгейлі құрылымдық ұсыну) анықтауға болатындығын білдіреді.

Блокты қаптау

Екінші мысалда агент текшелерді (әр түрлі түстермен анықталған) бір модельдендірілген көрсетілімде көрсетілгендей етіп орналастыруды үйренуі керек. Бұл үлгіленген демонстрация роботтардың моторлық және сенсорлық аппараттарының қасиеттері модельдендірілген 3D физикалық қозғалтқышымен жасалынған 2D кескіндер сериясынан тұрады.

Бір атыс саясаты. Көптеген міндеттерді шешуге үйретілген бірыңғай саясат. Жоғары тапсырма: {abc, def}, төменгі тапсырма: {ab, cd, ef}

Екі мысалда демонстрациядағы және нақты сынақта кубтардың бастапқы орналасуы әртүрлі, әр тапсырма басқа бастапқы позициядан басталады. Робот демонстрацияның бастапқы орнына сәйкес болу үшін текшелерді ауыстыруға тырыспайды, ол тек қандай жағдайда басталса да, текшені төсеудің жоғарғы деңгейлік тапсырмасын береді.

Домендерді рандомизациялау арқылы оқыту

Екі жағдайда да жаттығулар кезінде пайдаланылған барлық суреттер доменнің рандомизациясын қолдана отырып модельдеу арқылы алынады, олар үлгілердің келесі аспектілерін рандомизациялайды:

Үстелдегі таратушы нысандардың саны мен формасы Үстелдегі барлық заттардың орналасуы мен құрылымы Үстел, еден, көк жәшігі және роботтың құрылымы Камераның орналасуы, бағдары және көрініс аймағы Сахнадағы жарықтар саны Орын, бағыт, және шамдардың спецификалық сипаттамалары Суреттерге қосылатын кездейсоқ шудың түрі мен мөлшері

Бөлшектерге жетуге арналған жаттығулар жиынтығы

Белгіленген жерлер саны 2-ден 10-ға дейін өсетін міндеттер отбасыларының жиынтығын қарастырамыз. Әр тапсырмалық отбасы үшін біз 10000 траекторияны жинаймыз, мұнда таңбалардың позициясы және нүктелік роботтың бастапқы позициясы кездейсоқ бөлінеді. Демонстрацияларды тиімді құру үшін біз қатал кодталған сарапшылар саясатын қолданамыз. Біз траекторияларды қоршаған ортаға қолданбас бұрын, олардың әрекеттерін бұзу арқылы қосамыз және нейрондық желі саясатын үйрету үшін қарапайым мінез-құлықты клондауды қолданамыз

Блокты қаптауға арналған жаттығулар жиынтығы

Нақты айтқанда, біз 140 жаттығу тапсырмаларын және 43 тест тапсырмаларын жинаймыз, олардың әрқайсысы блоктардың қалаған орналасуымен ерекшеленеді. Әр тапсырмадағы блоктар саны 2-ден 10-ға дейін өзгеруі мүмкін. Біз жаттығу үшін әр тапсырма үшін 1000 траекторияны жинаймыз және бағалау үшін пайдаланылатын траекториялар мен бастапқы конфигурациялардың жеке жиынтығын жүргіземіз. Бөлшектерге жету міндетіне ұқсас, біз траекторияны жинау процесіне шу енгіземіз. Траекториялар қатаң кодталған саясатты қолдана отырып жиналады.

Сәтті демонстрациялар қатал кодталған саясатты қолдана отырып жиналады

Оқу барысында дұрыс траектория процедуралық «қатты кодталған» саясат арқылы жасалады, мен жүйені сәйкестендірудің және басқарудың классикалық әдістеріне сүйенемін. Оқыту және тестілеу кезінде агенттің екі кірісі бар: а) А конфигурациясындағы демонстрация және б) бастапқы конфигурация B. Тек жаттығу кезінде оқыту алгоритмі де идеалды жауапқа қол жеткізе алады: В конфигурациясынан басталатын траектория. мәселеге жауап береді және оқу барысында агенттің жауабы салыстырылатын болады - оны басқарылатын оқу мәселесіне айналдырады.

Әр жаттығу тапсырмасы үшін біз сәтті демонстрациялар жиынтығын аламыз.

Егер түсініксіз болса, мен келесі параграфтағы әртүрлі оқу парадигмаларының арасындағы айырмашылықтарды қарастырамын.

Оңтайландыру алгоритмі және шығын функциясы

Жетекшілік ететін оқыту дегеніміз - әр шешімде желі өзі таңдаған дұрыс таңдау мүмкіндігіне және қате туралы ұғымға ие болатын оқыту парадигмаларын білдіреді. Мысалы, иттер мен мысықтар арасындағы жіктеуде жаттығулар кезінде иттер мен мысықтардың суреттері алдын-ала белгілі болады және қателер дереу анықталады. Бұл мағынада бұл бақыланбайтын оқудан айырмашылығы бар, онда агенттен алынған кірістен бұрын белгісіз құрылымды табу сұралады, ал мысықтар мен иттердің жапсырмаларынсыз әр түрлі заттардың тек екі кластері бар екенін білуге ​​тура келеді. мәліметтерде көрсетілген мәліметтер. Reenforcement Learning-тің айырмашылығы, ондаған уақыт нақты уақыт жүйесіне қолданылады, онда мақсатқа жетудің шешімінің нақты тізбегі белгісіз, бірақ жүйенің дұрыс немесе бұрыс еместігін тек «марапат» шешеді. Имитациялық оқытуды қолдана отырып, олар қателіктерді қашықтықтан бақыланатын траекторияға дейін есептелетін бақыланатын оқыту мәселесіне айналдырады.

Кез-келген қадағаланатын жаттығулар жағдайында, қол жетімді міндет агенттің жоспарланған әрекеттен қаншалықты алыстығын анықтауға бағытталған шығын функциясы арқылы анықталады. Бұл функцияны анықтау көбінесе сыни қадам болып табылады, өйткені оңтайландыру алгоритмдері модельдің параметрлерін қалай жаңартатынын анықтайды. Бұл алгоритмдер есептеу уақыты тұрғысынан маңызды болып табылады және көбінесе, егер мүмкін болса, бір-біріне конвертация жасай алады. Шынында да функцияны өте жоғары өлшемге түсіретін шешімдер параметр кеңістігінің кішкентай қабығында орналасады, олардың арасындағы қашықтық аз болады, егер сіз сол кіші доменнен кетіп қалсаңыз, шешімдер арасындағы қашықтық тез өседі. Дженнифер Чейстің осы тақырыпта көптеген қызықты жұмыстары бар, ол тақырыпты өте қызықты сұхбатта «Talking Machines» сериясында ұсынады.

Саясатты желілерді оқыту кезінде олар бірінші кезекте қандай траекторияны сәтті өңдейтінін, қандай әрекетті жасау керектігін шеше алады. Бұл бөлімде олар екі тәсілді, классикалық мінез-құлықты клондау (олар қолданылғанына сенімді емес) және DAGGER алгоритмдерін салыстырады. Бұл іс-әрекеттердің үзіліссіз немесе дискретті болуына негізделген (оқиғаларды бірізділікпен үлестіруге негізделген) l2 немесе кросс-энтропия арқылы жоғалту функциясын итеративті азайтуға мүмкіндік береді. Барлық эксперименттерде олар Adamax алгоритмін 0,001 оқу жылдамдығымен оңтайландыруды орындады.

Қадам мөлшері кішкентайдан басталады және экспоненциалды түрде ыдырайды.

Алгоритмнің өзі берілуге ​​мүмкіндік бермейді, бұл сіздің жаттығу жиынтығыңызды және ауыстыруға мүмкіндік беретін жоғалту функциясын құру.

Тапсырмада екі түрлі трансферт бар. Бірінші түрі «ақиқаттың алшақтығын жою» деп аталады, бұл модельдендірілген енгізулер бойынша жаттығуларды табиғи ынталандыруларға тестілеуге ауыстыруға мүмкіндік беретін оқытудың жалпылауы. Модельдеу деректері көбінесе нақты әлемнің жақындастырылуы болып табылады, тым мінсіз, нақты объектінің күрделілігі жоқ. Шынайы әлемде камера ақаулы және шуылсыз болуы мүмкін, қозғалтқышты басқару дәлірек болмайды, түстер өзгереді, текстуралар бай болады және т.с.с. Бірінші рет беру үшін олар «домендік рандомизация» деп аталатын әдісті қолданады. : кірістерге шу қосу арқылы желі нақты әлемге сәйкестендіруге мүмкіндік беретін жалпыға ортақ құрылымды біле алады. Олар, мысалы, жаттығу мысалдары арасындағы камераның бұрышын өзгертеді, құрылымды өзгертеді немесе траекторияны аз жетілдіреді. Жаттығу кезінде шуды қосу арқылы біз беріктікті қосамыз.

Мұнда тексерілген екінші трансфер - бұл басқа бастапқы конфигурацияда басталатын, бірақ ұқсас түпкі мақсатқа негізделген бір демонстрацияға негізделген, алдын-ала көрінбейтін конфигурация мен мақсаттағы тиісті қозғалтқыш тізбегін құру мүмкіндігі. Мұнда тағы да ауыстыру жаттығу жиынтығын құру және шығын функциясын модельдеу арқылы мүмкін болады. Жаттығу кезінде бірдей мақсаттан басталмай, ұқсас мақсатқа жету үшін демонстрацияларды ұсына отырып, сіз желіге абсолютті позицияларды қолданбай-ақ жоғары деңгейлі мақсатты бейнелеуді үйренуге мүмкіндік бересіз. қарапайым еліктеу емес мотор тізбегі. Мінсіз бастапқы сәулет жаттығуды құрылымды тиісті түрде өзгертуге мүмкіндік береді, ал бұл дайындалған құрылым соңғы функцияны білдіреді.

Мақсаттары

Блокты жинақтау парадигмасы үшін олар бірнеше шектеулерге ие болды, олар өздерінің оқу агентімен кездесуді қалады.

Әр түрлі блоктардан тұратын тапсырма инстанцияларына қолдану оңай болуы керек.
Ол табиғи түрде бір тапсырманың әртүрлі анықтамаларын жалпылауы керек. Мысалы, саясат тек {abcd} тапсырмасында оқытылған болса да, {dcba} тапсырмасын жақсы орындауы керек.
Ол әртүрлі ұзындықтағы демонстрацияларды орналастыруы керек.

Бұл тапсырманы орындау үшін бірнеше сұрақтар қойылды.

Мәліметтерді дербес күйде жинау мүмкін болған жағдайда, мінез-құлықты клондау жаттығуы DAGGER-мен қалай салыстырылады?
Бүкіл демонстрациядағы кондиция, соңғы конфигурацияда тапсырманы толығымен көрсетуге жеткілікті ақпарат болған кезде де, қалаған конфигурациядағы кондициямен қалай салыстырылады?
Бүкіл демонстрациядағы кондиция траекторияның «түсіріліміндегі» кондициямен қалайша салыстырылады, бұл аз ақпарат болып табылатын кадрлардың кіші бөлігі.
Біздің шеңберіміз жаттығу кезінде бұрын-соңды көрмеген тапсырмалардың түрлерін ойдағыдай жалпылай ала ма? (++)
Әдістің қазіргі шектеулері қандай?

Сәулет

Бөлшектерге қол жеткізу

Осы бірінші мысал үшін олар ұзақ мерзімді жад (LSTM) нейрондық желілерге негізделген үш сәулетті салыстырды. Бұл желінің сипаттамасы жад пен назар туралы болашақ хабарламада когнитивтік және есептеу ғылымында өте қызықты тақырып болады. Шын мәнінде LSTM алдыңғы жаңа шығуларды (уақыт бойынша) әр жаңа уақыт нүктесінде желіні енгізу бөлігі ретінде береді, бұл өткен күйлердің қазіргі туралы ақпарат беруіне мүмкіндік береді (демек, олардың қысқа мерзімді жад желілері). Олар уақыт серияларымен (Alexa, Siri және т.б.) айналысатын қазіргі заманғы көптеген технологиялардың негізін құрайды.

Мұнда олар осы үш нақты шартты қолданады:

  1. LSTM жазықтығы: қозғалыс әрекетін тудыратын көп қабатты перцептронға беру үшін траектория мен қазіргі күйді енгізуді үйренеді
  2. LSTM назар аударыңыз: траекторияның маңызды нүктелері туралы салмақты ұсыныс жасаңыз
  3. Назар аударатын түпкілікті жағдай: алдыңғы архитектураға ұқсас жерлерді өлшеу үшін тек соңғы күйді оқытуда қолдану

Блокты қаптау

Негізінен, жалпы нейрондық желі карта жасауды демонстрациядан және ағымдағы бақылаудан тиісті әрекетке дейін біле алатын болса, біз сәйкес архитектураны қолдану маңызды деп таптық. Блок-стакингті үйренуге арналған біздің архитектурамыз осы құжаттың басты қосындыларының бірі болып табылады және біз болашақта қандай күрделі тапсырмаларды бір рет имитациялауға арналған архитектуралар көрінуі мүмкін деп санаймыз.

Назар аудару модульдері

Мақала тапсырманы үйрену үшін қолданылатын желілер құрылымын сипаттауда салыстырмалы түрде жоғары деңгейде қалып отыр. Архитектураның негізгі ингредиенті - бұл назар аудару модулі, бірақ менің ойымша, бұл тақырып үшін маңызды рөлді егжей-тегжейлі қарастыру қажет. Танымдық ғылымның тұрақты назар концепциясына ұқсастығымен, назар аудару модульдері кеңістік пен уақыттың әртүрлі кеңістігінде орналасқан ақпаратқа назар аудару және назар аудару үшін қолданылады. Ол уақыт пен кеңістіктегі ақпараттық мазмұнды ендіруді қамтитын бекітілген мөлшерде шығарады. Математиканың бір саласы топологияға ұқсастық арқылы болашақта таратылған көріністерді қалай түсінетініміз туралы үлкен ақпарат болады, назар аудару желісі ақпараттың топологиялық изоморфизмін, бірдей қисықтықты, әр түрлі нысанды орындайды. Бұл желі күтпеген немесе сирек кездесетін оқиғаларға назар аудара алатын қабілеттілік детекторының рөлін атқармайтындығын ескеріңіз, бұл нейробиологияда назар ұғымдарымен байланысты функция.

Мұнда олар назар аударудың екі түрін қолданады: а) жадта сақталатын мазмұн (салмақ, контекст және жад векторлары) бойынша салмақталған соманы құрайтын уақытша назар аудару желісі; б) блокқа қатысты ақпаратты қалпына келтіруге мүмкіндік беретін көршілес назар аудару желісі. агенттің ағымдағы сұрауына байланысты позициялар.

Уақытша назар аудару желісі, c: мәтінмәндік вектор, m: жад векторы, q: сұраныс векторы, v: вектордың салмағы. Шығу жады векторымен бірдей мөлшерде болады. Бұл жад векторының контекстке және сұраныс векторларына негізделген шығуына көбірек әсер етуге мүмкіндік беретін сол вектордың сызықты тіркесімі.Дәл осы жерде кеңістіктік ақпарат арасындағы бәсекелестік назар жүйесі арқылы серпінді сақталады.

Саясат желісі

Толық желі үш түрлі ішкі желілерден тұрады: демонстрациялық желі, контекстік желі және айла-шарғы жасау.

Демонстрациялық желі кіріс ретінде демонстрациялық траекторияны алады және демонстрацияның саясатын қолдана алады. Бұл ендірудің өлшемі демонстрацияның ұзындығы мен қоршаған ортадағы блоктар саны сияқты сызықты өседі.

Мұнда көрсетілгендей, демонстрациялық желі әртүрлі күрделілік пен көлемдегі көрсетілімдерді контексттік желі тапсырманы көрсету үшін қолданылатын жалпы форматқа енгізе алады. Дәл осы деңгейде жалпылау пайда болды, демонстрацияны ендіру нақты траектория мен текшелердегі демонстрациялар кезінде көрсетілген абсолютті позициялар туралы ақпаратты қалдыруы керек.

Мәтінмәндік желінің құрылымына қарап, өте жоғары деңгейден бастап, демонстрациялық желімен интерфейсті көрудің орталық уақытша модульдеріне енуін қамтамасыз етеміз. Сонымен қатар, алдыңғы әрекеттер (LSTM) және қазіргі күйі мотор желісіне жіберілген жаһандық мәтінмәндік ендіруді жасау үшін демонстрациялық кірістірумен біріктірілген кіріс ретінде берілетінін көреміз.

Менің ойымша, желілер функциясының сипаттамасы қағаздың маңызды бөлігі болып табылады:

Мәтінмәндік желі сұраныстың векторын ағымдағы күйдің функциясы ретінде есептеуден басталады, содан кейін ол демонстрацияның әртүрлі кезеңдерінде қатысу үшін қолданылады. Бір уақыттағы әртүрлі салмақтарды алу үшін әр түрлі блоктардың назар салмағы бір уақытта жинақталады. Бұл уақытша назар аударудың нәтижесі - вектор, оның мөлшері қоршаған ортадағы блоктар санына пропорционал. Содан кейін біз ақпаратты әр блоктың ендірмелеріне тарату үшін аудандардың назарын аударамыз. Бұл процесс бірнеше рет қайталанады, мұнда күйі өлшенбеген салмағы бар LSTM ұяшығын қолдана отырып жетілдірілген.
Алдыңғы операциялардың реттілігі өлшемі демонстрация ұзындығына тәуелсіз, бірақ блоктар санына тәуелді ендіруді жасайды. Содан кейін біз тұрақты өлшемді векторларды шығаруға жұмсақ көңіл бөлеміз, онда жад құрамы роботтың күйімен бірге манипуляциялық желіге енетін кірісті құрайтын әр блоктың позицияларынан тұрады.
Интуитивті түрде, қоршаған ортадағы заттардың саны әртүрлі болуы мүмкін, бірақ манипуляция операциясының әр кезеңінде сәйкес объектілердің саны аз және әдетте бекітілген. Блокты жинақтау ортасы үшін робот тек таңдауға тырысып жатқан блоктың орнына (бастапқы блок), сонымен қатар оның үстіне қоюға тырысатын блоктың орнына назар аударуы керек. мақсат блогы). Сондықтан, дұрыс дайындалған желі қазіргі күйді көрсетілімдегі тиісті кезеңмен сәйкестендіруді үйренеді және әртүрлі блоктарға жұмсақ назар салмағы ретінде көрсетілген бастапқы және мақсатты блоктардың сәйкестендірулерін алады, содан кейін олар сәйкес позицияларды алу үшін қолданылады. манипуляциялар желісіне жіберіледі.

Олардың сипаттамасын аяқтау тәсілі қазіргі кездегі АИ зерттеулерінің сараптамалық жүйеден оқыту жүйесіне қарай өтуінің тамаша мысалы болып табылады, сонымен қатар мидың төменде қалай дамығанын талқылауға көмектеседі.

Біз бұл интерпретацияны оқыту кезінде қолданбайтын болсақ та, эксперименттік талдау алынған саясаттың ішкі тәртіпте қалай жұмыс істейтінін түсіндіруді қолдайды.

Олар мұның қалай жұмыс істейтінін білмейді! Олар белгілі бір есептеулер жүргізе алатын және біз априори деп санайтын белгілі бір ақпаратты сақтай алатын құрылымды жасайды және оны бүкіл құрылым үйренетініне сенетін жаттығулар жиынтығы етіп береді! Жасанды интеллект зерттеулерінің өзіндік өнімі бар, өнер, эвристикалық ізденісті дұрыс бағытқа бағыттау әдісі бар. Қазір бұл сиқыршылардың барлығы ашықAI үшін жұмыс істейтін сияқты.

Айтуынша, айла-шарғы жасау қарапайым құрылым болып табылады, контексті ендіруден бастап, көп қабатты перцептронға дейін моторлық әрекет жасалады.

Нәтижелер

Нәтижелер көбінесе мен үшін үлкен қызығушылық тудырмайды, әсіресе керемет техникалық құжаттарға. Мен жылдам, төменгі жолмен жүремін, өйткені бұл тәсіл жұмыс істейді, ол қатал кодталған сарапшылар саясатына ұқсас дәлдікпен орындалады және нақты процедуралық тәсілге қайшы, көптеген міндеттер жиынтығына негізделген.

Бөлшектерге қол жеткізу

Блокты жинау

Бұл тәжірибелерде олар әртүрлі жағдайларды да сынап көрді. DAGGER көмегімен олар үш түрлі кірістердің жағдайын көрсетілген траекторияны кішірейту арқылы салыстырды: толық траекториялар, траекторияның суреттері немесе тек соңғы күйді қолдану. Олар сонымен қатар мінез-құлықты клондау алгоритмін демонстрацияның толық траекториясымен салыстырды.

Текше сәйкестендіру туралы жалпылай алатын жүйенің мүмкіндігінің дәлелі

Талқылау

Соңғы бірнеше айда OpenAI жасаған жылдам қарқындарды оқи отырып, мен олардың жұмысы туралы сөйлесуге және олардың жұмысы деп санайтын пікірлеріммен бөлісуге және тұтастай алғанда АИ саласындағы жетістіктер туралы біздің түсінігімізді жеткізуге деген құлшынысты сезінемін. биологиялық ми жұмыс істейді. Атап айтқанда, адамдар арасындағы ортақ болып көрінетін танымдық функциялар ортақ құрылымға байланысты емес, тапсырманы қалай орындауға болатынын білмейді, бірақ сол ортаға тап болған салыстырмалы түрде ұқсас миясыз құрылымдардың нәтижесі деп санайды. ұқсас тапсырмаларды орындауды үйреніңіз. Функция функциясынсыз, белгілі бір ортаға байланысты белгілі бір тапсырманы үйренуге қабілетті, қоршаған ортаға бейімделу үшін бірнеше параметрлерді жайлап құруға болатын функция емес.

Конфигурацияларға қарсы тапсырмалар: еріксіз көрінетін анықтама

Мен мойындауым керек, мен неге олар әртүрлі тапсырмалар туралы қалай сөйлескендерін түсінбеймін. Блокты жинақтау тәжірибесінде тапсырма блоктардың орналасуын білдіретін жолдардың жиынтығы ретінде анықталады, жиынтықтағы элементтер саны стектердің санын және блоктар санын белгілеуді қажет ететін блок санын анықтайды . Содан кейін міндет - абсолютті жағдайына қарамастан блоктарды блоктарға орналастыру.

Кейбір блоктар үстелде болуы мүмкін, бірақ тапсырманың бөлігі емес

Олардың жекелеген міндеттердің критерийлері ретінде салыстырмалы позициясы мен стек санын анықтау таңдауы ерікті болып көрінеді. Шынында да, блоктардың абсолютті бастапқы позицияларына негізделген (олар конфигурация деп аталатын) әртүрлі тапсырмалар туралы айтудың мағынасы бар. Мәселенің жалпы сипаты оларға айқын көрінеді деп ойлаймын, бірақ түсінікті болу үшін олар егжей-тегжейлерді ашпауды жөн көреді. Саясатты оқытуды жалпылаудың екі түрі, олардың кейінірек жасалатын тәсілі ретінде қарастырған дұрысырақ:

Жалпылау бірнеше деңгейлерде бағаланатынын ескеріңіз: үйренген саясат жаңа конфигурациялар мен жаңа тапсырмаларды көрсету үшін жалпылауды ғана емес, сонымен бірге жаңа тапсырмаларға жалпылауды қажет етеді.

«Тапсырмаларды» «стек бұйрықтарымен» ауыстырыңыз. Тапсырманы дұрыс оқып үйрену дегеніміз агент текшелердің орнын (конфигурациясы), сонымен бірге олардың жеке басын (тапсырмасын), стек саны (тапсырма) мен демонстрацияның траекториясын нақтылауға болатын ендіруді үйренетіндігін білдіреді (қысқаша енгізілген) дәйексөз) тиісті мотор жауабын жасау үшін.

Бұл жалпылау бір-біріне қарама-қайшы болып көрінеді, қалайша сол желі текшенің бастапқы конфигурациясын немесе жеке басын анықтап, қозғалтқыш реакциясы үшін абсолютті орнын қалпына келтіре алады?

Бұл оқу кезінде, әр түрлі кірістерді алу кезінде әр түрлі кооперативті ішкі желілердің қажеттілігін түсіндіреді және контекстік желіде тапсырманың абстрактілі көрінісі түсетін пәрменнің алдында абсолютті позиция сияқты тек төменгі деңгей туралы ақпарат берілетінін түсіндіреді.

Тапсырма мен конфигурацияның осы айырмашылығына түсініктеме беру ақылға сыймайды деп ойлауыңыз мүмкін, бірақ оның мәні әртүрлі объектілерде ойнау кезінде абстракцияның бірдей процесі екенін түсіну қажет (және бұл келесі бөлімге ашылады).

Инвариантсыз оқу болмайды

Трансферттік оқыту - бұл силико болсын, in-vivo болсын, танымның ең қызықты тұжырымдамасы, бұл АИ зерттеушілері үшін де, нейроциологтар үшін де өте қызықты тақырып және менің кандидаттық диссертациямның тақырыбына айналады. Машинамен жұмыс жасамас бұрын тығыз байланысты ұғымдар көптеген салаларда зерттелгенін және бұл дерексіз және әрқашан ішінара анықталған тұжырымдаманың көптеген атауларға ие екенін ескеріңіз. Мұны философтар, антропологтар мен әлеуметтанушылар (Пост-) структурализм деп атауы мүмкін (Клод Леви-Стросс, Мишель Фуко), лингвист Синтагма және ұялы ағаш құрылымдары (Ноам Хомский) туралы айтады, математиктер Гомеоморфизм немесе Инварианттар және Білім туралы ойлайды. зерттеушілер немесе невропатологтар оны құрылымдық оқыту деп атауы мүмкін. Сондай-ақ, сіз машиналық оқыту саласындағы ұқсас тұжырымдаманы көре аласыз, мысалы, бейнелеу және мета-оқыту, бұл авторға байланысты трансферттік оқытуға немесе трансферттік оқытуды жүзеге асыру үшін қолданылатын оқу парадигмасына қатысты болуы мүмкін. Терең нейрондық желілер туралы айтқанда, бұл айырмашылықтар анық емес, өйткені нейрондық желі белгілі бір проблеманы (бейнелік оқыту) оның құрылымын (мета-оқыту) өзгерту арқылы әдетте трансферттік оқыту формасын білдіретін шулы ортаға енгізуді үйренеді.

AI зерттеушілері мен когнитивтік ғалымдар трансферттік оқытудың нақты анықтамасын жиі алады, бұл белгілі бір тапсырмада алған білімдерін жалпы композициялық құрылыммен бөлісу үшін (мақалада сипатталғандай) жүйені пайдалануға мүмкіндік беретін процесс. Когнитивтік ғылымда екі тапсырманың әртүрлі болып көрінетініне байланысты жақын және алыс трансферт деген ұғым бар. Бірақ абстрактілі тұрғыдан алғанда, шулы және күрделі ортада барлық оқыту трансферттік оқыту нысаны болып табылады және өте жақын және өте алыс трансферттің арасындағы айырмашылық тек ортақ ақпарат мәселесі болып табылады - бұл қайтадан табиғатқа жатпайтын мәселе.

Бақыланатын ортада шындықты кодталған дискретизациялауды алдын-ала жасауға күш салынады, бірақ іс жүзінде бұл дискредитация трансферттік оқытудың процедурасын көрсетеді, ол жалпы қоршау құрылымында шындықта кездесетін шексіз жиынтығын біріктіреді. Transfer Learning мәні тікелей немесе процесстің кеңеюі болып табылады, ол арқылы оқу агенттері әлем модельдерін құру үшін инварианттарды пайдаланады. Бұл бір-біріне ұқсастықтарды, қайталанулар мен вариацияларды қолданып, барған сайын абстрактілі және құрама ұсынысты қалыптастыру үшін, диспетчерлік диспетчердің құрылымы бойынша енеді. Жалпы алғанда, бұл негізгі операцияларды құруға мүмкіндік береді, ол арқылы біз ақпараттық топтарды басқарамыз, мысалы, математикада бұл одақ пен қиылыстарға мүмкіндік береді. Бұл сәйкестендіруге мүмкіндік береді, бұл біздің объектілерді санаттарға бөлу қабілетімізді түсіндіреді. Джош Тенембаум маған шынымен айтқан мысалды келтірді: сіз екі жасар балаңызды бірінші рет жылқыны тануды үйретіп жатырсыз деп елестетесіз, оған әр түрлі жылқылардың екі суретін көрсетесіз, содан кейін басқа аттың суретін көрсетесіз, үйдің суретін салып, оның қайсысы ат екенін айтуын сұраңыз. Бала бұл тапсырманы өте оңай орындайды, бірақ бұл әлі де компьютердің қолынан келе бермейтін нәрсе (бір оқудан).

Бала мұны қалай жасады?

Жануарларды тану балаларда зерттелді және біздің объектілерді тиісті бөліктерге бөлу қабілетімізге, жүннің түс ауқымына, мойынның өлшеміне, жалпы пішінге және т.б. қатысты. Бұл қабілет сонымен қатар есікті ашуға мүмкіндік береді. бұрын ешқашан көрмегенсіз, сіз кез-келген жағдайды (домендік жалпылау) жалпылайтын мотор тізбегін білдіңіз. Сонымен қатар, сіз әлемді жеңілдететін түсіндіру модельдерін жасау үшін қолданасыз, әйгілі швейцариялық сағатта кукудың кенеттен пайда болуы сізді таңдандыруы мүмкін, бірақ екінші рет пайда болғаннан кейін сіз оны күтесіз. Инвариантты табу дегеніміз - бұл нейрондық желі қалай үйренеді және сол модельдер бейсаналық түрде құрылады. Мысал, біз физика туралы математика мен сандар туралы естігенге дейін интуитивті түрде білетінімізді айтамыз.

Мысалы, микрогравитацияда туған бала жердің ауырлық күшіне бейімделіп, заттардың құлаған кезде жерге құлап түсетіндігін интуитивті түрде біле ме?

Нәрестелер мен көптеген жануарлар модельдерді бейсаналық түрде қайта қарастырады деп болжай аламыз, мысалы, сіз иттің табанына шұлық киіп, жаңа ақпаратқа бейімделуге біраз уақыт кетеді.

Бірақ жас бала үшін саналы түрде сұрау және оның интуитивті моделін қайта қарау, қызығушылықтан, тіл арқылы, нышандар мен нанымдар арқылы жүзеге асырылады. Біздің модельдерді саналы түрде тергеу және өзгерту қабілетіміз өте қызықты, ал сиденот ретінде адамдар бұл процесті вербальды түрде жасай алатын жалғыз түрге айналуы мүмкін, бірақ басқа түрлер де саналы қайта қарауды жүргізе алады.

Инвариант - уақыттың міндетті қасиеті, егер бәрі әрдайым жаңа болатын және алдын-ала болжанбайтын болса, бәрі де әрқашан жаңа және болжап болмайтын бірегей инвариант болып қала береді. Инвариантсыз әлемді елестету мүмкін емес, өйткені сілтеме жасауға болатын әлем болуы мүмкін емес еді, ал инвариантсыз өмір мүмкін емес және біздің миымыз пайдасыз болады. Өмір дегеніміз - оқиғаларды алдын-ала қайталау, себептер мен әсерлерді қайталау, энергияны ағзаға циклдік қайта енгізу арқылы ғана жұмыс істейтін машина. Өмірдің қажетті циклдерді қолдануды жақсартуға деген ұмтылысында біздің миымыз - ең жақсы құрал. Бұл болжау машинасы, қайталануды динамикалық түрде таба алатын және оны әлеммен жақсы қарым-қатынас жасау үшін қолдана алатын бейімделгіш орган.

Өмір таңдаған бұл әдіс құрылымдағы шамалы өзгерістерге өте берік. Бұл әлем, қоршаған ортаның статистикалық қасиеттері бірдей болып қалады, бірақ онымен кездесетін нейрондық құрылым, ол өңделген ақпаратқа ене отырып өзгеруі мүмкін. Бұл біздің миымыздың жеке адамнан жеке адамға, тіпті бастапқы кортикаға неліктен өзгеше болатындығын және бірдей функцияларды ортақ пайдаланатындығын түсіндіреді.

Жүйке жүйесі бейімделгіш, олар эволюцияны қажет етпейді және мінез-құлықты тиісті жолдармен өзгерту үшін баяу генетикалық мутацияға ие. Э.Элганс жүйесіндегі қарапайым жүйке жүйесі ішкі ішкі үйлестіруші және сыртқы сенсор қызметін атқарады: тамақты сезініп, оған қарай жүріңіз, ауырсынудан қашыңыз, көбею. Бұл қарапайым жүйелер бастапқыда қатты және шулы әлемді ықтимал күйлердің азды-көпті бөлшектеу үшін (сол жақта тамақ, жылу төмен және т.б.) бөліп көрсету үшін өте жақын болды. Біздің моторлық және сенсорлық қабілеттеріміз жүйке жүйесін болжау қабілеттерімен бірге дамиды. Біздің сенсорлар дәлірек болған сайын, жүйке жүйесі ақпараттарды сақтау және тәжірибеден үйрену үшін құрылымын біртіндеп өзгерте бастады. Бастапқыда иістердің түрлері немесе жарық үлгілері сияқты кірістердің белгілі бір санаттарын тануды үйренуге мүмкіндік туды, сонымен қатар оның күрделене түсетін мотор жүйесін басқаруды сынақ және қателіктер арқылы үйренуге мүмкіндік туды. Әлемнің соншалықты күрделі екеніне назар аударыңыз, біздің миымыз табиғи процедуралық тәсілден гөрі, оқу парадигмасына айналды. Есептеулер бұл өте жақсы мағына береді, Го қарапайым ойыны ғарыш кеңістігінде (2.10¹⁷⁰) ғаламдағы атомдар санынан (10⁸⁰) үлкен, және организмдер күрделене түскендіктен барлық мүмкін кодтарды жуықтауға тырысады. Комбинаторлық жарылыс салдарынан оны тез алу мүмкін емес дейді.

Кейбіреулер біздің миымыз түзілетін кеңістікті құрайтындай, ДНҚ-да бір жерде тұлға немесе гендік дыбыстық толқындардың уақытша ұйымдастырылуы үшін жасалады деп сенуі мүмкін. жоғары сөздер. Олар бұл туа біткен білім бір жерде туылған кезде кодталады деп сенуі мүмкін. Мен орта мектепте оқып жүрген кезімдегі менің философия пәнінің мұғалімі сияқты басқалар болмыстың мәні жоқ дегенге және біздің миымыз организм мен әлемді кездестіруге байланысты екендігіне сенуі мүмкін. Шындық, әрине, әлдеқайда күрделі және осы уақытқа дейін зерттелген теленцефалдық жүйелердің көпшілігінде ми өзі істейтін функцияны кодтамайды, бірақ оны оның құрамындағы ақпаратқа байланысты үйренеді. Егер енгізілген ақпарат тиісті ақпаратта тым нашар болса, онда сол құрылымды білу мүмкіндігінің жарамдылық мерзімі болуы мүмкін (мысалы, Амблиопия). Бірақ егер туа біткен құрылым соңғы функцияны кодтамаса, мидың белгілі бір құрылымы болады. Бұл құрылым жеке адамдарда сақталады, ал бір типтегі адамдар ортақ функциялар мен жетектерді ортақ пайдаланады. ДНҚ белгілі бір құрылымды орнықтырды, құрылымды өзінің түпкілікті қызметін орындай алмайтын құрылым, бірақ жеке тәжірибеге негізделген нақты тапсырмалардың күрделілігін білетін құрылым құрайды. Эволюция миды дененің басқа бөліктерінен, сондай-ақ менингілерден және оны сыртқы әлемнен қорғайтын қатты сүйек қабығынан оқшаулайтын өте тиімді қан-ми тосқауылының пайда болуына себеп болғандығы таңқаларлық емес, өйткені басқа мүшелерден өзгеше. құрылым геномда кодталған, дайындалған мидың құрылымын қалыпқа келтірілген модельден қалпына келтіру мүмкін емес. Бір қызығы, біз оқытудың бірдей тетіктерін аналогия арқылы күрделене түсетін күрделі тапсырмаларды орындай отырып, тереңдей түсетін желілерді дамыту арқылы көреміз.

Композициялық құрылымдарды көру қиын, бірақ барлық жерде

Таңқаларлық жайт, тіпті авторлар мақсатқа жетудің алғашқы міндеті композициялық құрылымға ие екенін мойындамайтындығы таңқаларлық.

Міндеттерге жететін бөлшек қарапайым сценарий бойынша жалпылаудағы қиындықтарды жақсы көрсетеді. Дегенмен, тапсырмалар жаңа міндеттерге жалпылауды бағалауды қиындататын құрамдық құрылымды бөліспейді.

Құрылым блокты орналастырудан гөрі төменгі деңгейге ие және эксперименттік манипуляцияларға оңай қол жетімді емес, бірақ бұл міндет ортақ құрылымнан тұрады. Әлемді жазықтыққа жақындата отырып, бір композициялық құрылым - бұл текшелік сәйкестілік (түс) аудармада сақталады, ал А блогынан немесе кездейсоқ бастапқы позициядан - (Xa1, Ya1) кездейсоқ қалыпта - B позициясына (Xb1, Yb2) ауысады. ) А блогынан (Xa2, Ya2) В позициясына (Xb2, Yb2) ауысқаннан гөрі жоғары деңгейлі композициялық құрылымның бөлігі.

Желілер арасындағы интерфейстер

Абстракцияның әртүрлі деңгейлерінде бастапқы деректерді өңдей алатын нейрондық желілердің пайда болуы үшін интерфейстер қажет, менің ойымша, бұл доменнің ашылуына көп уақыт қалды. Бұл интерфейстер көптеген сипатқа ие болуы мүмкін. Олар, мысалы, екі желі арасындағы ортақ тіл ретінде қарастырылуы мүмкін, өйткені мақалада көрсетілгендей, назар аудару жүйесімен қаруланған төменгі деңгейдегі желі (демонстрациялық желі) демонстрацияны басқа желінің (контексттік желі) өкілдігінде қолдана алады. демонстрацияның ұзындығына немесе бастапқы конфигурациясына қарамастан әрекетті бағыттауға.

Бұл тілдің беті осында өлшемімен бекітілген ұшақ, бірақ желі арасындағы байланысты жақсартатын мүмкін өзгерістерді елестетуге болады. Мысалы, беттің өлшемін динамикалық түрде өсуге немесе кішірейтуге болады, өйткені оқыту кезінде желілер өзара әрекеттеседі, демек тілдің күрделілігін қысады немесе кеңейтеді. Біз, мысалы, кері байланыс арқылы неғұрлым серпінді әрекеттесуді елестете аламыз. Екінші желінің кірісі мен шығысы негізінде бірінші желінің кірісін модуляциялауды үйренетін параллельдік желі ретінде жұмыс істейтін желілер арасындағы байланысты біркелкі етуді үйренетін фасилитаторлық желілердің болуын елестете аламыз. Біз бірнеше мамандандырылған желілерге тоникалық (баяу өзгеретін) әсер ететін күрделі контексттік желілерді елестете аламыз ... Болашақ зерттеудің қызықты бағыты!

Сәтсіздіктер жағдайлары жаңа модульдер болуы мүмкін рөлдерге нұсқайды

Айта кету керек, қателіктер көбінесе мотордың қателіктеріне байланысты және қателер саны тапсырманың күрделілігіне байланысты көбейеді.

Мотор функциясы тек нысандар санын көбейту арқылы нашарлатпауы керек, бұл көбею желісінің мотор желісімен сөйлесуді үйрену тәсілі тым дерексіз екендігінің дәлелі. Бұл таңқаларлық, өйткені олардың тестілеуі контекстік желі мен мотор желісі арасындағы интерфейс салыстырмалы түрде нақты (роботтың позициясы, нысана позициясы) көрсетеді.

Мүмкін, шешім модульдік сәулет болғандықтан, жоғалтудың әртүрлі функцияларын немесе тапсырманың әр аспектісін білдіретін модульдік жоғалту функцияларын қолдануға болады. Сонымен қатар мидағы моторға дейінгі аймақтың эквиваленті демонстрацияны сақтауға көмектеседі және контексттік желі моторды нашарлатпай дерексіз болып қала алады. Жақсы мотор командасын таңдау үшін алдын-ала аймақ объектілерді мақсатқа (дерексіз желілерден) және сенсорлық кірістерге сәйкес жақсырақ орналастыру үшін қажет. Мәтінмәндік желі демонстрацияны неғұрлым жоғары деңгейге көшіруге және бір уақытта қазіргі контексте қозғалтқыш әрекетін дайындауға тырысатын сияқты. Қозғалтқышқа дейінгі желінің рөлі мотормен және жылдам бейімделуге арналған премотор мен церебулумның функцияларын біріктіретін, мақсатқа бағытталған және бейімделгіш түрде мотор жүйесімен байланыс орнатуды үйрену болады.

Моравек парадоксымен қызықты теория бар, ол есептеу үшін салық салатын, бірақ сенсорлық кірістер мен қозғалтқыш жүйелерінің нәтижелерін өңдейтін жоғары деңгей емес болады деп болжайды. Бұл шынымен де біздің ми целлюлозамызда болатын нейрондардың көп мөлшерін (миымыздың басқа бөліктеріне қарағанда) мотор әрекетін бейімдей басқаруға мүмкіндік береді. Бұл парадокс біз өз білімімізді машинада бақыланбайтын шулы ортада күрделі тапсырмаларды орындау үшін енгізе аламыз деп ойлаған уақытта (80-ші жылдары) тұжырымдалған болатын. Әрине, бұл парадокс, егер машина қандай да бір жолмен әлемді жекелеген күйлер жиынтығында ұсына алатын болса, оған жоғары деңгей функциясын құру оңайырақ болады. Бірақ екеуі де өте салықты болады деп санаймын, және желілердің интерфейсінде қолданылатын ішкі ұсыныс біздің саналы өкілдігімізге ұқсайтын барлық нәрселерден алыс болады.

Қорытынды

Әрбір мәселені нақты шешуге жауапты әр түрлі нейрондық желілерді біріктіре отырып, бұл мақала жалпылауды қажет ететін тапсырманы құру және домендік рандомизация, жад пен қол жетімділікке ие нейрондық желі арқылы оқу ортасын құру арқылы жүзеге асатынын көрсетеді. назар жүйесі қарапайым көбейтуден тыс жалпылауды үйренеді. Ол ақпараттың көрнекі ағынында бір рет көрсетілген жоғары деңгейдегі мақсатты табуды үйренеді және сол мақсатты басқа контексте қайта жасай алатын тиісті әрекеттерді қалпына келтіру үшін жалпыланған кеңістіктегі есептеуді орындай алады.

Болашақта біз күрделі тапсырмаларды жалпылауды үйренетін, атомдық блоктардың үстіне салынған құрылымдардың күрделене түсетінін көреміз, бірақ ең маңыздысы, бірнеше тапсырмаларды жаңа ортада орындауға болады, мысалы, кірістерді алдын-ала өңдеу немесе қатал кодталған әдістерге азырақ сенім арта отырып. жад сақтау. Жадты сақтау жад желісі бойынша таратылған өкілдіктерге, назар аудару жүйелері нақты уақыттағы фокустық желілердегі циклдік әрекетке ауыстырылады. Күшті сериялық технологияны (Turing машиналары) ендірілген жүйеде таратылған есептеулерге деген сенімділігімізге қалай бейімдей аламыз деген сұрақ қалады.