Позитивное и негативное подкрепление в психологии с примерами

Б.Ф. Скиннер, один из основных теоретиков бихевиоризма, определил подкрепление как тип обучения, основанный на связывании поведения с вытекающими из него последствиями, тем самым повышая вероятность его повторения. Когда последствия отрицательные, говорят о наказании, а когда они являются положительными, о поддержке или похвале. В рамках обучения с подкреплением специалисты различают два типа последствий: положительное и отрицательное.

В то время как положительное подкрепление происходит, когда поведение связано с чем-то одобряемым, отрицательное подкрепление заключается в том, чтобы избежать или отозвать отвращающий стимул. Давай посмотрим на основные особенности обеих процедур и поговорим о том, как можно использовать подкрепление в повседневной жизни.

В этой статье:

Что такое положительное подкреплениеПримеры положительного подкрепления в семьеЧто такое отрицательное подкреплениеПервичные усилители – удовлетворение основных потребностейВторичные подкрепления – награда не мгновеннаяСмешивание разных усилителейНежелательные позитивные подкрепления

Что такое положительное подкрепление


Фото Tim Mossholder on Unsplash
При обучении с позитивным подкреплением достижение определенного поведения связано с получением приятных последствий. Это не обязательно должен быть объект, даже не материальный.

Еда, поглаживание, улыбка, словесное сообщение или появление приятных эмоций во многих контекстах могут рассматриваться как положительные подкрепления.

Мать, которая поздравляет свою маленькую дочь каждый раз, когда она правильно пользуется туалетом, способствует обучению за счет положительного подкрепления.

То же самое происходит, когда компания дает экономический бонус своим наиболее продуктивным сотрудникам, и даже игровой выигрыш можно так расценивать. Но в психологии понятие «положительное подкрепление» относится к различию, которое следует за поведением. Положительное подкрепление – это процесс, посредством которого обучаемый субъект создает ассоциации.

С технической точки зрения можно сказать, что при позитивном подкреплении существует положительная зависимость между конкретной реакцией и приятном стимулом. Осведомленность об этой ситуации побуждает субъекта выполнять действия, чтобы получить вознаграждение (или подкрепление).

Метод 6. Подкрепление смены поведения

Вы подкрепляете любое другое поведение, кроме нежелательного. Например, ребенок выпрашивает у вас дорогой подарок, который вы не собираетесь делать, и уже сообщили об этом. А он ноет и ноет. Вы не реагируете на его нытье, (применяете метод угашения) При этом важно именно не реагировать. Никак. А не демонстрировать свое нежелание обсуждать ту или иную тему. Если, скажем, на нытье о подарке вы будете постоянно повторять: » Я не желаю с тобой это даже обсуждать!» или «Ну, сколько можно ныть, ты же видишь, я не реагирую на твои просьбы!» — ребенок же прекрасно видит, что вы реагируете и еще как! Но как только ребенок начинает говорить о чем-то другом, живо на это откликаетесь. Важно именно подкреплять смену темы. Сразу заметить это и поддержать. Не пропустить этот момент.

Примеры положительного подкрепления в семье

Положительное подкрепление следует применять дозированно.

Например, есть много разных ситуаций, в которых родители хвалят своих детей. Однако, чтобы положительный эффект подкрепления имел смысл, не следует ожидать вознаграждения за каждую мелочь.

В долгосрочной перспективе, само собой разумеется, следует убрать за собой со стола или убрать мусор. Однако это не обязательно означает, что на этом этапе нельзя хвалить.

Смотри, как положительное подкрепление работает в семье и как оно может реализоваться разными способами:

  • Вечером ребенок убирает со стола, даже если его не просят. Как прямое следствие, ему разрешается не спать на 10 минут дольше.
  • Твой ребенок убирает в своей комнате. Тогда похвали его и покажи свою радость.
  • Если школьный отчет от учителя положительный, многие родители награждают своего ребенка деньгами или игрушкой.

Если ты хочешь использовать положительное подкрепление в своих целях, убедись, что соответствующее вознаграждение пришло как можно скорее.

Если между действием и наградой проходит слишком много времени, связь отсутствует и желаемый эффект (повторение поведения) не материализуется.


Метод позитивного подкрепления

Отучение

Карен Прайор также пишет и о процессе отучения. Т.е. когда есть какое-то нежелательное поведение, от которого вы хотите избавиться. Она приводит 8 принципов отучения. Первые четыре из них негативные, а вторые позитивные. Как вы можете догадаться, вторая половина принципов действует лучше и даёт сохраняющийся результат.

  1. Убить, удалить, избавиться. Просто убрать источник или органичить его так, чтобы он не смог физически выполнять нежелательное действие.
  2. Наказание. Поставить ребёнка в угол, ударить собаку палкой, лишить программиста премии
  3. Отрицательное подкрепление
  4. Угашение. Не обращаете внимание на нежелательное поведение. Не подкрепляете его никак: ни отрицательно, ни положительно.
  5. Выработка несовместимого поведения. Выработать такое новое поведение, которое будет несовместимо с нежелательным.
  6. Добиться, чтобы данное поведение совершалось по сигналу, а потом постепенно убрать этот сигнал
  7. Формирование отсутствия. Подкрепляется всё что угодно, кроме нежелательного поведения.
  8. Смена мотивации. Определите, почему и зачем происходит нежелательное поведение и попробуйте заменить цель поведения на более нужную/правильную.

PS:

Карен Прайор много пишет о дрессировке животных, но эти же принципы можно так же успешно применять в нашей повседневной жизни. Я лично в процессе чтения книги замечал, как хорошо на меня лично действуют положительные подкрепления. Могу сказать, что овладев наукой, изложенной в книге, можно действительно получить +1 к общению, как это и объявлено на обложке книги.

Что такое отрицательное подкрепление

В отличие от того, что происходит при положительном подкреплении, при отрицательном – инструментальный ответ включает в себя исчезновение отталкивающего стимула, то есть объекта или ситуации, которые побуждают субъекта убежать или попытаться не контактировать с ним.

С точки зрения поведения, подкреплением этой процедуры является исчезновение или отсутствие аверсивной стимуляции. Понятие «отрицательный» относится к тому факту, что вознаграждение заключается не в получении стимула, а в его отсутствии.

При отрицательном подкреплении нежелательное поведение предотвращает появление отвращающего стимула. Например, когда человек, страдающий агорафобией, сознательно не пользуется общественным транспортом, чтобы избежать приступа страха.

Следующий этап такого обучения состоит в исчезновении отвращающего стимула, который присутствует до того, пока субъект не изменит нежелательное поведение.

Это похоже на то, как раздражающий будильник останавливается одним нажатием кнопки, как мать покупает своему ребенку то, от чего он перестает плакать, или дает болеутоляющее средство, когда у него что-то болит.

А теперь давай поговорим о некоторых нюансах.

Процесс выработки

Когда субъект уже делает то, что нужно и просто нужно подкрепить это поведение — всё более-менее понятно. Но что делать, если нужное поведение ещё нет и подкреплять, как будто, и нечего? Выработка состоит в том, чтобы использовать малейшую тенденцию к нужному поведению и шаг за шагом сдвигать её к поставленной цели. Разбейте конечную цель на ряд последовательных, более мелких, целей. Найдите какое-то поведение, которое осуществляется уже сейчас, как первый шаг. Часто происходит так, что субъект может выполнить нужную задачу (или её часть) случайно. В этом случае вам нужно обязательно заметить это поведение и его подкрепить.
Ниже перечислены 10 правил выработки, которые подробно разбирает автор. В рамках этой статьи подробное описание не влезет, но можно поверхностно с ними ознакомиться.

  1. Повышайте критерий понемногу, чтобы всегда была возможность выполнить требуемое и получить подкрепление.
  2. Отрабатывайте что-нибудь одно в конкретный промежуток времени. Не пытайтесь отрабатывать несколько критериев одновременно.
  3. Прежде, чем переходить к повышению уровня, подкрепите текущий
  4. Вводя новые критерии временно ослабьте старые
  5. Планируйте программу обучения так, чтобы всегда быть готовыми к резкому прогрессу в обучении
  6. Не меняйте тренеров в процессе выработки конкретного навыка
  7. Если один путь выработки не приносит успеха, найдите другой способ. Их много
  8. Не заканчивайте обучение, не дав положительного подкрепления. Это равносильно наказанию.
  9. Если навык ухудшается, — быстро пройдитесь по всему предыдущему процессу обучения, давая подкрепления
  10. Оканчивайте тренировку на высокой ноте. Конец обучения должен быть радостным, а не унылым.

Первичные усилители – удовлетворение основных потребностей

Однако на практике с подкреплением не все так однозначно, потому что многие вопросы рассматриваются субъективно. Очень ярким примером является мнение о том, что младенца можно «приучить к рукам», если давать ему родительские объятия по первому же крику.

Но важно помнить: в контексте психологии основными подкрепляющими элементами являются те, которые непосредственно ориентированы на потребности человека.

Голод и жажда, а также любовь и близость – самые важные факторы для младенцев и детей ясельного возраста. Однако их никогда не следует делать условными, чтобы дети могли сформировать необходимое им базовое доверие.

Положительные и отрицательные подкрепления могут использоваться только как дополнительные аспекты, выходящие за рамки обычной степени удовлетворения потребностей.

Нет ничего плохого в десерте после обеда, сладостях или родительских объятиях.

Метод 5. Добиться, чтобы нежелательное поведение совершалось по сигналу

А в дальнейшем вы перестанете давать этот сигнал.

Есть притча про мудрого старика, который ценил тишину и покой. Рядом с его домом повадилась играть шумная компания детей. Однажды старик вышел к детям и дал им по монетке, сказав, что ему очень нравится слушать их веселые крики. И на следующий день он им снова дал по монетке. Так продолжалось некоторое время. А затем старик вышел к детям и сказал, что у него больше нет для них денег. Дети ответили: «Мы что идиоты – кричать для тебя бесплатно?» и ушли.

Ребенок шумит и бесится. Предложите ему вместе с вами по команде устроить как можно больший шум. Сделайте так пару раз по команде. Во-первых, это весело, и необычно. Во-вторых, такое занятие требует много энергии и утомляет довольно быстро. А потом не давайте такую команду. Или ребенок устраивает в комнате беспорядок, разбрасывает свои вещи. Договоритесь устроить по команде за 5 минут как можно больший беспорядок в комнате. Возможно, ребенок раньше вообще не замечал своих раскиданных вещей. Теперь заметит. После того, как он (возможно с вашей помощью) наведет порядок, не давайте больше таких команд.

Да, тут нужна определенная смелость и фантазия. Конечно, воспитание детей — это вызов, и требует творческого подхода.

Вторичные подкрепления – награда не мгновенная

В отличие от прямого удовлетворения потребностей, вторичные подкрепления ориентированы на то, что их можно использовать только косвенно для индивидуального удовлетворения потребности.

Например, самое простое средство на данном этапе – деньги. Если человек получает определенную сумму денег за определенные занятия, он впоследствии может что-то купить для себя. Опять же, это могут быть основные потребности: пища или одежда.

В семьях некоторые родители также используют своего рода систему жетонов. Позитивное поведение отмечено звездочкой. Если набрано определенное количество звездочек, ребенок может выбрать что-нибудь в магазине.

Например, это могут быть простые вещи, такие как есть мороженое после пяти звездочек или посещение зоопарка после 25 звездочек.

Метод 7. Изменение мотивации

Это самый лучший метод, но и наиболее сложный. Изменение мотивации значит, что ребенку расхотелось делать то, что вы считаете плохим, или захотелось делать то, что вы считаете хорошим. Как это работает: поведение ребенка связано с его потребностями.

Представьте себе, что ваш ребенок раздражен и разговаривает с вами грубо, по-хамски.

А происходит это, например, потому что устал и не выспался. Помогите ему организовать правильный режим, и раздражение исчезнет. Если его хамство связано с неуверенностью в себе и попыткой отыграться на вас, найдите способы укрепить его веру в себя. А может, он хамит, потому что расстроен ссорой с друзьями. Поддержите его, покажите, что понимаете его чувства, но не лезьте с советами. Так вы лучше поможете ему справиться с огорчением.

Смешивание разных усилителей

Для облегчения оперантного обучения используется множество различных типов подкрепления. Их не всегда можно отнести к четкой категории: они не негативные и не позитивные.

В целом, однако, существует три различных типа усилителей:

  • Материальные подкрепления.
  • Социальное подкрепление: этот аспект характеризуется словами похвалы и признания. Однако может быть достаточно ободряющей улыбки или дружеского кивка.


Фото автора Ron Lach: Pexels

  • Активные подкрепления. В итоге выбирается посещение зоопарка, совместный вечер кино или посещение концерта.

Лучше максимально избегать материальных стимулов.

Обучение с подкреплением для самых маленьких

В данной статье разобран принцип работы метода машинного обучения«Обучение с подкреплением» на примере физической системы. Алгоритм поиска оптимальной стратегии реализован в коде на Python с помощью метода «Q-Learning».

Обучение с подкреплением — это метод машинного обучения, при котором происходит обучение модели, которая не имеет сведений о системе, но имеет возможность производить какие-либо действия в ней. Действия переводят систему в новое состояние и модель получает от системы некоторое вознаграждение. Рассмотрим работу метода на примере, показанном в видео. В описании к видео находится код для Arduino, который реализуем на Python.

Задача

С помощью метода «обучение с подкреплением» необходимо научить тележку отъезжать от стены на максимальное расстояние. Награда представлена в виде значения изменения расстояния от стены до тележки при движении. Измерение расстояния D от стены производится дальномером. Движение в данном примере возможно только при определенном смещении «привода», состоящего из двух стрел S1 и S2. Стрелы представляют собой два сервопривода с направляющими, соединенными в виде «колена». Каждый сервопривод в данном примере может поворачиваться на 6 одинаковых углов. Модель имеет возможность совершить 4 действия, которые представляют собой управление двумя сервоприводами, действие 0 и 1 поворачивают первый сервопривод на определенный угол по часовой и против часовой стрелке, действие 2 и 3 поворачивают второй сервопривод на определенный угол по часовой и против часовой стрелке. На рисунке 1 показан рабочий прототип тележки.


Рис. 1. Прототип тележки для экспериментов с машинным обучением

На рисунке 2 красным цветом выделена стрела S2, синим цветом – стрела S1, черным цветом – 2 сервопривода.


Рис. 2. Двигатель системы

Схема системы показана на рисунке 3. Расстояние до стены обозначено D, желтым показан дальномер, красным и черным выделен привод системы.


Рис. 3. Схема системы

Диапазон возможных положений для S1 и S2 показан на рисунке 4:


Рис. 4.а. Диапазон положений стрелы S1


Рис. 4.б. Диапазон положений стрелы S2

Пограничные положения привода показаны на рисунке 5:

При S1 = S2 = 5 максимальная дальность от земли. При S1 = S2 = 0 минимальная дальность до земли.


Рис. 5. Пограничные положения стрел S1 и S2

У «привода» 4 степени свободы. Действие (action) изменяет положение стрел S1 и S2 в пространстве по определённому принципу. Виды действий показаны на рисунке 6.


Рис. 6. Виды действий (Action) в системе

Действие 0 увеличивает значение S1. Действие 1 уменьшает значение S1. Действие 2 увеличивает значение S2. Действие 3 уменьшает значение S2.

Движение

В нашей задаче тележка приводится в движение всего в 2х случаях: В положении S1 =0, S2 = 1 действие 3 приводит в движение тележку от стены, система получает положительное вознаграждение, равное изменению расстояния до стены. В нашем примере вознаграждение равно 1.


Рис. 7. Движение системы с положительным вознаграждением

В положении S1 = 0, S2 = 0 действие 2 приводит в движение тележку к стене, система получает отрицательное вознаграждение, равное изменению расстояния до стены. В нашем примере вознаграждение равно -1.


Рис. 8. Движение системы с отрицательным вознаграждением

При остальных состояниях и любых действиях «привода» система будет стоять на месте и вознаграждение будет равно 0. Хочется отметить, что стабильным динамическим состоянием системы будет последовательность действий 0-2-1-3 из состояния S1=S2=0, в котором тележка будет двигаться в положительном направлении при минимальном количестве затраченных действий. Подняли колено – разогнули колено – опустили колено – согнули колено = тележка сдвинулась вперед, повтор. Таким образом, с помощью метода машинного обучения необходимо найти такое состояние системы, такую определенную последовательность действий, награда за которые будет получена не сразу (действия 0-2-1 – награда за которые равна 0, но которые необходимы для получения 1 за последующее действие 3).

Метод Q-Learning

Основой метода Q-Learning является матрица весов состояния системы. Матрица Q представляет собой совокупность всевозможных состояний системы и весов реакции системы на различные действия. В данной задаче возможных комбинаций параметров системы 36 = 6^2. В каждом из 36 состояний системы возможно произвести 4 различных действия (Action = 0,1,2,3). На рисунке 9 показано первоначальное состояние матрицы Q. Нулевая колонка содержит индекс строки, первая строка – значение S1, вторая – значение S2, последние 4 колонки равны весам при действиях равных 0, 1, 2 и 3. Каждая строка представляет собой уникальное состояние системы. При инициализации таблицы все значения весов приравняем 10.


Рис. 9. Инициализация матрицы Q

После обучения модели (~15000 итераций) матрица Q имеет вид, показанный на рисунке 10.


Рис. 10. Матрица Q после 15000 итераций обучения

Обратите внимание, действия с весами, равными 10, невозможны в системе, поэтому значение весов не изменилось. Например, в крайнем положении при S1=S2=0 нельзя выполнить действие 1 и 3, так как это ограничение физической среды. Эти пограничные действия запрещены в нашей модели, поэтому 10тки алгоритм не использует.

Рассмотрим результат работы алгоритма: … Iteration: 14991, was: S1=0 S2=0, action= 0, now: S1=1 S2=0, prize: 0 Iteration: 14992, was: S1=1 S2=0, action= 2, now: S1=1 S2=1, prize: 0 Iteration: 14993, was: S1=1 S2=1, action= 1, now: S1=0 S2=1, prize: 0 Iteration: 14994, was: S1=0 S2=1, action= 3, now: S1=0 S2=0, prize: 1 Iteration: 14995, was: S1=0 S2=0, action= 0, now: S1=1 S2=0, prize: 0 Iteration: 14996, was: S1=1 S2=0, action= 2, now: S1=1 S2=1, prize: 0 Iteration: 14997, was: S1=1 S2=1, action= 1, now: S1=0 S2=1, prize: 0 Iteration: 14998, was: S1=0 S2=1, action= 3, now: S1=0 S2=0, prize: 1 Iteration: 14999, was: S1=0 S2=0, action= 0, now: S1=1 S2=0, prize: 0

Рассмотрим подробнее: Возьмем итерацию 14991 в качестве текущего состояния. 1. Текущее состояние системы S1=S2=0, этому состоянию соответствует строка с индексом 0. Наибольшим значением является 0.617 (значения равные 10 игнорируем, описано выше), оно соответствует Action = 0. Значит, согласно матрице Q при состоянии системы S1=S2=0 мы производим действие 0. Действие 0 увеличивает значение угла поворота сервопривода S1 (S1 = 1). 2. Следующему состоянию S1=1, S2=0 соответствует строка с индексом 6. Максимальное значение веса соответствует Action = 2. Производим действие 2 – увеличение S2 (S2 = 1). 3. Следующему состоянию S1=1, S2=1 соответствует строка с индексом 7. Максимальное значение веса соответствует Action = 1. Производим действие 1 – уменьшение S1 (S1 = 0). 4. Следующему состоянию S1=0, S2=1 соответствует строка с индексом 1. Максимальное значение веса соответствует Action = 3. Производим действие 3 – уменьшение S2 (S2 = 0). 5. В итоге вернулись в состояние S1=S2=0 и заработали 1 очко вознаграждения.

На рисунке 11 показан принцип выбор оптимального действия.


Рис. 11.а. Матрица Q


Рис. 11.б. Матрица Q

Рассмотрим подробнее процесс обучения.
Алгоритм Q-learning
minus = 0; plus = 0; initializeQ(); for t in range(1,15000): epsilon = math.exp(-float(t)/explorationConst); s01 = s1; s02 = s2 current_action = getAction(); setSPrime(current_action); setPhysicalState(current_action); r = getDeltaDistanceRolled(); lookAheadValue = getLookAhead(); sample = r + gamma*lookAheadValue; if t > 14900: print ‘Time: %(0)d, was: %(1)d %(2)d, action: %(3)d, now: %(4)d %(5)d, prize: %(6)d ‘ % \ {«0»: t, «1»: s01, «2»: s02, «3»: current_action, «4»: s1, «5»: s2, «6»: r} Q.iloc[s, current_action] = Q.iloc[s, current_action] + alpha*(sample — Q.iloc[s, current_action] ) ; s = sPrime; if deltaDistance == 1: plus += 1; if deltaDistance == -1: minus += 1; print( minus, plus )

Полный код на GitHub.

Установим начальное положение колена в крайнее верхнее положение:

s1=s2=5. Инициализируем матрицу Q, заполнив начальным значением: initializeQ(); Вычислим параметр
epsilon
. Это вес «случайности» действия алгоритма в нашем расчёте. Чем больше итераций обучения прошло, тем меньше случайных значений действий будут выбраны: epsilon = math.exp(-float(t)/explorationConst) Для первой итерации: epsilon = 0.996672 Сохраним текущее состояние: s01 = s1; s02 = s2 Получим «лучшее» значение действия: current_action = getAction(); Рассмотрим функцию поподробнее.

Функция getAction() выдает значение действия, которому соответствует максимальный вес при текущем состоянии системы. Берется текущее состояние системы в матрице Q и выбирается действие, которому соответствует максимальный вес. Обратим внимание, что в этой функции реализован механизм выбора случайного действия. С увеличением числа итераций случайный выбор действия уменьшается. Это сделано, для того, чтобы алгоритм не зацикливался на первых найденных вариантах и мог пойти по другому пути, который может оказаться лучше.

В исходном начальном положении стрел возможны только два действия 1 и 3. Алгоритм выбрал действие 1. Далее определим номер строки в матрице Q для следующего состояние системы, в которое система перейдет после выполнения действия, которое мы получили в предыдущем шаге.

setSPrime(current_action); В реальной физической среде после выполнения действия мы получили бы вознаграждение, если последовало движение, но так как движение тележки моделируется, необходимо ввести вспомогательные функции эмуляции реакции физической среды на действия. (setPhysicalState и getDeltaDistanceRolled() ) Выполним функции: setPhysicalState(current_action); — моделируем реакцию среды на выбранное нами действие. Изменяем положение сервоприводов, смещаем тележку. r = getDeltaDistanceRolled(); — Вычисляем вознаграждение – расстояние, пройденное тележкой.

После выполнения действия нам необходимо обновить коэффициент этого действия в матрице Q для соответствующего состояния системы. Логично, что, если действие привело к положительной награде, то коэффициент, в нашем алгоритме, должен уменьшиться на меньшее значение, чем при отрицательном вознаграждении. Теперь самое интересное – для расчета веса текущего шага заглянем в будущее. При определении оптимального действия, которое нужно совершить в текущем состоянии, мы выбираем наибольший вес в матрице Q. Так как мы знаем новое состояние системы, в которое мы перешли, то можем найти максимальное значение веса из таблицы Q для этого состояния:

lookAheadValue = getLookAhead(); В самом начале оно равно 10. И используем значение веса, еще не выполненного действия, для подсчета текущего веса. sample = r + gamma*lookAheadValue; sample = 7.5 Q.iloc[s, current_action] = Q.iloc[s, current_action] + alpha*(sample — Q.iloc[s, current_action] ) ; Q.iloc[s, current_action] = 9.75 Т.е. мы использовали значение веса следующего шага, для расчета веса шага текущего. Чем больше вес следующего шага, тем меньше мы уменьшим вес текущего (согласно формуле), и тем текущий шаг будет предпочтительнее в следующий раз. Этот простой трюк дает хорошие результаты сходимости алгоритма.

Масштабирование алгоритма

Данный алгоритм можно расширить на большее количество степеней свободы системы (s_features), и большее количество значений, которые принимает степень свободы (s_states), но в небольших пределах. Достаточно быстро матрица Q займет всю оперативную память. Ниже пример кода построения сводной матрицы состояний и весов модели. При количестве «стрел» s_features = 5 и количестве различных положений стрелы s_states = 10 матрица Q имеет размеры (100000, 9).
Увеличение степеней свободы системы

import numpy as np s_features = 5 s_states = 10 numActions = 4 data = np.empty((s_states**s_features, s_features + numActions), dtype=’int’) for h in range(0, s_features): k = 0 N = s_states**(s_features-1-1*h) for q in range(0, s_states**h): for i in range(0, s_states): for j in range(0, N): data[k, h] = i k += 1 for i in range(s_states**s_features): for j in range(numActions): data[i,j+s_features] = 10.0; data.shape # (100000L, 9L)

Вывод

Этот простой метод показывает «чудеса» машинного обучения, когда модель ничего не зная об окружающей среде обучается и находит оптимальное состояние, при котором награда за действия максимальна, причем награда присуждается не сразу, за какое либо действие, а за последовательность действий.
Спасибо за внимание!

Плюсы оперантного метода обучения собак

Как вы видите, в рамках оперантного метода центральным и активным звеном обучения является сама собака. У собаки в процессе обучения данным методом появляется возможность делать выводы, контролировать ситуацию и управлять ею.

Очень важным «бонусом» при использовании оперантного метода обучения является «побочный эффект»: собаки, привыкшие быть активными участниками дрессировочного процесса, становятся более инициативными, уверенными в себе (они ведь знают, что у них, в конце концов, все получается, они руководят миром, могут сдвинуть горы и повернуть вспять реки), у них повышается самоконтроль и умение работать во фрустрирующих условиях. Они знают: даже если сейчас не получается, ничего страшного, stay calm and keep doing – продолжай пробовать, и тебя ждет награда!

Навык, который осваивается оперантным методом, имеет свойство закрепляться быстрее, нежели навык, который отрабатывается механическим методом. Так говорит статистика.

Сейчас я работаю только мягкими методами, но моя предыдущая собака была подготовлена с помощью контраста (метод кнута и пряника) и механики. И честно скажу: мне кажется, что положительное подкрепление, когда мы активно поощряем правильное поведение и игнорируем (и стараемся не допускать) неправильное, дает стабильный результат несколько позже, чем механический подход. Но… я обеими руками голосую за работу мягкими методами, потому что оперантный метод — это не только дрессировка, это цельная система взаимодействия, философия наших отношений с собакой, которая является нашим другом и, зачастую, полноценным членом семьи.

Я предпочитаю поработать с собакой несколько дольше, но получить в итоге питомца, который фонтанирует энергией, идеями и чувством юмора, сохранил свою харизму. Питомца, отношения с которым строились на любви, уважении, желании и интересе работать со мной. Питомца, который доверяет мне безоговорочно и который жаждет работать со мной. Потому что ему интересно и весело работать, ему интересно и весело слушаться.

Читайте далее

: Шейпинг как метод обучения собак.

Рейтинг
( 1 оценка, среднее 5 из 5 )
Понравилась статья? Поделиться с друзьями:
Для любых предложений по сайту: [email protected]