ИИ и Qlearning в частности

@SAsp · Регистрация: 12.08.2016

Author24 — интернет-сервис помощи студентам

Доброго времени суток уважаемые форумчане!

В последнее время интересуюсь ИИ, пройден курс по введению в машинное обучение на курсере, однако по Q learning там не было материала.
Изучал статьи и код:
https://habr.com/ru/post/308094/
https://habr.com/ru/post/345656/
https://blog.foxylab.com/q-learning/

Остался ряд вопросов на примере 3ьей статьи.
Суть статьи как я понял:
Есть лабиринт, есть препятствия и ловушки, есть финиш справа внизу, есть старт слева сверху. ИИ учится, составляет матрицу весов для каждой клетки. После каждого достижения финиша матрица весов сохраняется и поверх неё начинается записываться новая, увеличивая коэффициенты тех направлений, что приводят нас к финишу. В итоге, после нескольких итераций получается матрица весов, по которой вино кратчайшее направление движения.
А теперь вопросы:
Что будет если расширить карту влево и вверх еще на столько же и поместить финиш в другой угол? Ведь в этом случае полученная матрица весов будет бесполезна. (тут проглядывается классический результат переобучения)
Эффективен ли будет QLearning, если финиш будет каждый раз менять своё местоположение? Ведь, насколько я понял, результатом обучения является матрица весов, указывающая правильное направление. Да, если финиш сменил своё место с нижнего угла справа на нижний угол слева, то какой то профит всё еще остается (алгоритм знает что надо двигаться вниз), но вот если финиш совсем в другом месте? А если финиш в каждой итерации будет перемещаться рандомно по всему полю?
Если не Qlearning, то какой алгоритм ИИ сможет эффективно решить задачу, где есть полностью наблюдаемая окружающая среда (её можно просчитать, но число вариантов очень много и сложность расчетов также присутствует, поэтому нужно просчитывать "нужные" варианты, а не все подряд, что полностью исключает решение задачи методом в лоб - перебором), которая при этом изменяется во времени, а конечная цель может менять своё местоположение?

Открыт для любой информации.
Заранее спасибо
С уважением, Вячеслав.

@Mikhaylo · 25.10.2020, 17:06

Не путайте переобучение с дообучением (обучением заново). Переобучение - это чрезмерная тренировка на каких-либо не столь богатых данных, т.е. перебор в обучении. Дообучение - обучение нейросети на новых данных, которые сильно отличаются от тех данных, которые предоставлялись ранее.

Если вы обучили нейросеть определенной задаче, то она не будет работать на другой задаче (точнее сказать, будет работать плохо).

Чтобы нейросеть умела находить выходы слева, справа, сверху и т.п., вы должны подготовить соответствующие обучающие примеры.

Чуда не бывает, никакой интеллект не умеет делать то, не знаю что. И человеческий интеллект тоже, как бы хорошо вы о нем не думали. Просто возможно человек обучается многому и везде понемножку, многое может продемонстрировать, поэтому кажется, что он способен решать любые неформализованные задачи. Однако это заблуждение.

@supremum76 · 31.10.2020, 11:07

"...есть полностью наблюдаемая окружающая среда...".

Обычно машинное обучение требуется, где как раз полного наблюдения нет. Если вы полностью знаете граф, то решите задачу поиска минимального пути одним из алгоритмов на графе, методом Дейкстры, волновым методом.

Если заранее веса ребер в графе не известны и смена целевой позиции меняется произвольно, то Q-learning будет также тупить, как и человек в подобной ситуации.

@SAsp 0 / 0 / 0 Регистрация: 12.08.2016 Сообщений: 23
		1
	ИИ и Qlearning в частности 25.10.2020, 16:44. Показов 780. Ответов 2 Метки ai, qlearning, ии (Все метки) Доброго времени суток уважаемые форумчане! В последнее время интересуюсь ИИ, пройден курс по введению в машинное обучение на курсере, однако по Q learning там не было материала. Изучал статьи и код: https://habr.com/ru/post/308094/ https://habr.com/ru/post/345656/ https://blog.foxylab.com/q-learning/ Остался ряд вопросов на примере 3ьей статьи. Суть статьи как я понял: Есть лабиринт, есть препятствия и ловушки, есть финиш справа внизу, есть старт слева сверху. ИИ учится, составляет матрицу весов для каждой клетки. После каждого достижения финиша матрица весов сохраняется и поверх неё начинается записываться новая, увеличивая коэффициенты тех направлений, что приводят нас к финишу. В итоге, после нескольких итераций получается матрица весов, по которой вино кратчайшее направление движения. А теперь вопросы: Что будет если расширить карту влево и вверх еще на столько же и поместить финиш в другой угол? Ведь в этом случае полученная матрица весов будет бесполезна. (тут проглядывается классический результат переобучения) Эффективен ли будет QLearning, если финиш будет каждый раз менять своё местоположение? Ведь, насколько я понял, результатом обучения является матрица весов, указывающая правильное направление. Да, если финиш сменил своё место с нижнего угла справа на нижний угол слева, то какой то профит всё еще остается (алгоритм знает что надо двигаться вниз), но вот если финиш совсем в другом месте? А если финиш в каждой итерации будет перемещаться рандомно по всему полю? Если не Qlearning, то какой алгоритм ИИ сможет эффективно решить задачу, где есть полностью наблюдаемая окружающая среда (её можно просчитать, но число вариантов очень много и сложность расчетов также присутствует, поэтому нужно просчитывать "нужные" варианты, а не все подряд, что полностью исключает решение задачи методом в лоб - перебором), которая при этом изменяется во времени, а конечная цель может менять своё местоположение? Открыт для любой информации. Заранее спасибо С уважением, Вячеслав. 0

@Mikhaylo 672 / 546 / 74 Регистрация: 20.09.2014 Сообщений: 3,550
	25.10.2020, 17:06	2
	Не путайте переобучение с дообучением (обучением заново). Переобучение - это чрезмерная тренировка на каких-либо не столь богатых данных, т.е. перебор в обучении. Дообучение - обучение нейросети на новых данных, которые сильно отличаются от тех данных, которые предоставлялись ранее. Если вы обучили нейросеть определенной задаче, то она не будет работать на другой задаче (точнее сказать, будет работать плохо). Чтобы нейросеть умела находить выходы слева, справа, сверху и т.п., вы должны подготовить соответствующие обучающие примеры. Чуда не бывает, никакой интеллект не умеет делать то, не знаю что. И человеческий интеллект тоже, как бы хорошо вы о нем не думали. Просто возможно человек обучается многому и везде понемножку, многое может продемонстрировать, поэтому кажется, что он способен решать любые неформализованные задачи. Однако это заблуждение. 1

@supremum76 0 / 0 / 0 Регистрация: 06.06.2020 Сообщений: 3
	31.10.2020, 11:07	3
	"...есть полностью наблюдаемая окружающая среда...". Обычно машинное обучение требуется, где как раз полного наблюдения нет. Если вы полностью знаете граф, то решите задачу поиска минимального пути одним из алгоритмов на графе, методом Дейкстры, волновым методом. Если заранее веса ребер в графе не известны и смена целевой позиции меняется произвольно, то Q-learning будет также тупить, как и человек в подобной ситуации. 0