Метод обратного распространения ошибки

@Fobes · Регистрация: 19.09.2012

Студворк — интернет-сервис помощи студентам

Всем доброго времени суток. Прошу не удалять тему, она больше к теории относится, нежели к практике. Пишу простенький редактор для работы с простыми нейро сетями. Начал реализовывать Метод обратного распространения ошибки вот по этой статье http://robocraft.ru/blog/algorithm/560.html и столкнулся с непоняткой. При корректировки весовых коэффициентов к старому весу прибавляется произведение шага на ошибку, а вот дальше у меня затуп из-за того что не могу понять что с производной(не понимаю обозначение)... От чего она считается и каким образом ? Объясните плиз, не доходит

Добавлено через 19 минут
Или производная считается от старой суммы в нейроне ?

@killbond · 22.03.2015, 01:20

Привет! Не поверишь! Занимаюсь тем же самым, по той же самой статье!

Запись $https://www.cyberforum.ru/cgi-bin/latex.cgi?\frac{df(e)}{de}$ это и есть производная, т.е. отношение бесконечно малого приращения значения функции к ее бесконечно малому изменению (так кажется), не суть, вообщем это просто другое обозначение производной по Лейбницу, другими словами, это $https://www.cyberforum.ru/cgi-bin/latex.cgi?\frac{df(e)}{de} = {f}^{'}(e)$ .

А берется эта производная от функции активации (в которую приходит сумма со всех входов нейрона). Наша функция активации: $https://www.cyberforum.ru/cgi-bin/latex.cgi?\frac{1}{1-exp(-x)}$

а производная от нее: $https://www.cyberforum.ru/cgi-bin/latex.cgi?\frac{exp(-x)}{{(1-exp(-x))}^{2}}$ так?
Чтобы исключить из этой функции e^-x (да и просто сократить объем вычислений) ее записали иначе: $https://www.cyberforum.ru/cgi-bin/latex.cgi?\frac{exp(-x)}{{(1-exp(-x))}^{2}} = x\cdot (1-x)$ короче, не правда ли?

Далее в эту функцию (производную от функции активации) приходит сумма (вход*коэффициент) того нейрона, корректировка весов которого происходит в данный момент. Считать эту сумму заново НЕ НАДО! Это та сумма, которую получили при первом прогоне тестового набора. Полученное значение умножить на дельту (т.е. ошибку) этого нейрона и значение со входа связи, модификация которой происходит. Понятно ли?

Вот мой код:

C++
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
#include "stdafx.h"
#include <vector>
#include <ctime>
 
using namespace std;
 
// Функция активации
double activation(double & x)
{
    return 1 / (1 + exp(-x));
}
 
// Производная от функции активации
double derivative(double & x)
{
    return x * (1 - x);
}
 
int _tmain(int argc, _TCHAR* argv[])
{
 
    // Параметры НС
    // Число входов,
    // Число нейронов в скрытом слое
    // Число нейронов в выходном слое
    int nInputs = 3,
        nHiddenLayer = 4,
        nOutputs = 1;
 
    // Скорость обучения
    double trainSpeed = 1;
 
    srand(time(NULL));
    vector<vector<double>> hiddenLayer, outputLayer;
 
    // Инициализация связей между входом НС и скрытым слоем случайными значениями
    hiddenLayer.resize(nInputs);
    for (int input(0); input < nInputs; input++) {
        hiddenLayer[input].resize(nHiddenLayer);
        for (int hidden(0); hidden < nHiddenLayer; hidden++) {
            hiddenLayer[input][hidden] = double(rand()) / RAND_MAX;
        }
    }
 
    // Инициализация связей между скрытым слоем НС и выходным слоем случайными значениями
    outputLayer.resize(nHiddenLayer);
    for (int hidden(0); hidden < nHiddenLayer; hidden++) {
        outputLayer[hidden].resize(nOutputs);
        for (int output(0); output < nOutputs; output++) {
            outputLayer[hidden][output] = double(rand()) / RAND_MAX;
        }
    }
 
    // Массив с данным для обучения
    vector<vector<double>> X = {
        { 1, 2, 3 },
        /*{ 2, 3, 4 },
        { 4, 5, 2 },
        { 4, 6, 3 },
        { 8, 3, 5 },
        { 1, 2, 3 },
        { 2, 3, 4 },
        { 4, 5, 2 },
        { 4, 6, 3 },
        { 8, 3, 5 }*/
    };
 
    // Массив с желаемыми откликами
    vector<vector<double>> T = {
        { .1 },
        /*{ .2 },
        { .4 },
        { .4 },
        { .8 },
        { .1 },
        { .2 },
        { .4 },
        { .4 },
        { .8 }*/
    };
 
    double sum;
    vector<double> sumHidden, sumOutput, deltaHiddenLayer, deltaOutputLayer;
    sumOutput.resize(nOutputs);
    sumHidden.resize(nHiddenLayer);
    deltaOutputLayer.resize(nOutputs);
    deltaHiddenLayer.resize(nHiddenLayer);
 
    // Эпохи обучения
    for (int epoch(0); epoch < 10; epoch++) {
        // Для кажодго паттерна данных обучения
        for (int i(0); i < X.size(); i++) {
 
            // Считаем суммы для скрытого слоя
            for (int hidden(0); hidden < nHiddenLayer; hidden++) {
                sum = .0;
                for (int x(0); x < nInputs; x++) {
                    sumHidden[hidden] += hiddenLayer[x][hidden] * X[i][x];
                }
            }
 
            // Считаем суммы для выходного слоя
            for (int output(0); output < nOutputs; output++) {
                for (int y(0); y < nHiddenLayer; y++) {
                    sumOutput[output] += outputLayer[y][output] * activation(sumHidden[y]);
                }
                for (int x(0); x < X[i].size(); x++) {
                    cout << "x[" << x << "] = " << X[i][x] << "; ";
                }
                cout << "T = " << T[i][output] << "; " << "Y = " << activation(sumOutput[output]) << "; " << "ERROR = " << T[i][output] - activation(sumOutput[output]) << endl;
            }
 
            // Считаем ошибку для каждого выхода (delta)
            for (int output(0); output < nOutputs; output++) {
                deltaOutputLayer[output] = T[i][output] - activation(sumOutput[output]);
            }
 
            // Считаем ошибку для каждого нейрона скрытого слоя
            for (int hidden(0); hidden < nHiddenLayer; hidden++) {
                for (int output(0); output < nOutputs; output++) {
                    deltaHiddenLayer[hidden] += outputLayer[hidden][output] * deltaOutputLayer[output];
                }
            }
 
            // Модификация весовых коэффициентов выходного слоя
            for (int output(0); output < nOutputs; output++) {
                for (int hidden(0); hidden < nHiddenLayer; hidden++) {
                    outputLayer[hidden][output] += deltaOutputLayer[output] * derivative(sumOutput[output]) * activation(sumHidden[hidden]) * trainSpeed;
                }
            }
 
            // Модификация весовых коэффициентов скрытого слоя
            for (int hidden(0); hidden < nHiddenLayer; hidden++) {
                for (int input(0); input < nInputs; input++) {
                    hiddenLayer[input][hidden] += deltaHiddenLayer[hidden] * derivative(sumHidden[hidden]) * X[i][input] * trainSpeed;
                }
            }
        }
    }
 
    for (int input(0); input < nInputs; input++) {
        hiddenLayer[input].resize(nHiddenLayer);
        for (int hidden(0); hidden < nHiddenLayer; hidden++) {
            cout << "hiddenLayer[" << input << "][" << hidden << "] = " << hiddenLayer[input][hidden] << endl;
        }
    }
    cout << endl;
    for (int hidden(0); hidden < nHiddenLayer; hidden++) {
        outputLayer[hidden].resize(nOutputs);
        for (int output(0); output < nOutputs; output++) {
            cout << "outputLayer[" << hidden << "][" << output << "] = " << outputLayer[hidden][output] << endl;
        }
    }
    system("PAUSE");
    return 0;
}

Но здесь есть одна проблема:

Bash
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
x[0] = 1; x[1] = 2; x[2] = 3; T = 0.1; Y = 0.834291; ERROR = -0.734291
x[0] = 1; x[1] = 2; x[2] = 3; T = 0.1; Y = 0.99734; ERROR = -0.89734
x[0] = 1; x[1] = 2; x[2] = 3; T = 0.1; Y = 1; ERROR = -0.9
x[0] = 1; x[1] = 2; x[2] = 3; T = 0.1; Y = 1; ERROR = -0.9
x[0] = 1; x[1] = 2; x[2] = 3; T = 0.1; Y = 1; ERROR = -0.9
x[0] = 1; x[1] = 2; x[2] = 3; T = 0.1; Y = 1; ERROR = -0.9
x[0] = 1; x[1] = 2; x[2] = 3; T = 0.1; Y = 1; ERROR = -0.9
x[0] = 1; x[1] = 2; x[2] = 3; T = 0.1; Y = 1; ERROR = -0.9
x[0] = 1; x[1] = 2; x[2] = 3; T = 0.1; Y = 1; ERROR = -0.9
x[0] = 1; x[1] = 2; x[2] = 3; T = 0.1; Y = 1; ERROR = -0.9
hiddenLayer[0][0] = 1.#INF
hiddenLayer[0][1] = 1.#INF
hiddenLayer[0][2] = 1.#INF
hiddenLayer[0][3] = 1.#INF
hiddenLayer[1][0] = 1.#INF
hiddenLayer[1][1] = 1.#INF
hiddenLayer[1][2] = 1.#INF
hiddenLayer[1][3] = 1.#INF
hiddenLayer[2][0] = 1.#INF
hiddenLayer[2][1] = 1.#INF
hiddenLayer[2][2] = 1.#INF
hiddenLayer[2][3] = 1.#INF
 
outputLayer[0][0] = 1.#INF
outputLayer[1][0] = 1.#INF
outputLayer[2][0] = 1.#INF
outputLayer[3][0] = 1.#INF

Не знаю, вроде бы я правильно понял этот алгоритм, а на выходе получается не то? Как так? Поймешь ли сам, поделись решением, ок?

@Fobes · 22.03.2015, 11:07 **[ТС]**

killbond, ну для начала с производной не так) упростил не правильно

п.с. не заметил) в коде передаешь то что нужно туда)

@Fobes · 22.03.2015, 11:23 **[ТС]**

Как я понял, у тебя всегда сеть сводит к 0 выход ? просто у меня именно так делает)) независимо от входов))

@killbond · 22.03.2015, 12:45

Задача, которую я ставлю перед этой НС - получить желаемый отклик на единственном выходном нейроне. Наоборот - сводит к единице, вот же:

Bash
1
2
3
4
5
6
7
8
9
10
x[0] = 1; x[1] = 2; x[2] = 3; T = 0.1; Y = 0.834291; ERROR = -0.734291
x[0] = 1; x[1] = 2; x[2] = 3; T = 0.1; Y = 0.99734; ERROR = -0.89734
x[0] = 1; x[1] = 2; x[2] = 3; T = 0.1; Y = 1; ERROR = -0.9
x[0] = 1; x[1] = 2; x[2] = 3; T = 0.1; Y = 1; ERROR = -0.9
x[0] = 1; x[1] = 2; x[2] = 3; T = 0.1; Y = 1; ERROR = -0.9
x[0] = 1; x[1] = 2; x[2] = 3; T = 0.1; Y = 1; ERROR = -0.9
x[0] = 1; x[1] = 2; x[2] = 3; T = 0.1; Y = 1; ERROR = -0.9
x[0] = 1; x[1] = 2; x[2] = 3; T = 0.1; Y = 1; ERROR = -0.9
x[0] = 1; x[1] = 2; x[2] = 3; T = 0.1; Y = 1; ERROR = -0.9
x[0] = 1; x[1] = 2; x[2] = 3; T = 0.1; Y = 1; ERROR = -0.9

Здесь Y - это значение суммы на выходном нейроне, пропущенное через сумму активации.

@Fobes · 23.03.2015, 00:05 **[ТС]**

killbond, хм, у себя нашел косяк, он был связан вообще с загрузкой обучающих выборок)) А так, сеть учится и все вроде нормалек)

Добавлено через 20 минут
killbond, как вариант, учитывая что у тебя ошибка застыла... попробуй нарастить число нейронов в скрытом слое)

@Alkatrazzz · 23.03.2015, 00:16

Видел недавно эту статью. Честно, я по ней не понял. Понял я позже по этой книге. Если ответил невпопад, то звиняйте.

@killbond · 23.03.2015, 03:31

У меня ошибка в том, что я не зануляю переменные с суммами и дельтами в итерациях обучения. Однако, это еще только пол проблемы, я добавил обнуление, а результат, вообщем-то не поменялся. Долго отлаживал код и пришел к такому выводу - сдается мне, что в статье ошибка:

$https://www.cyberforum.ru/cgi-bin/latex.cgi?\delta$ = Z - y

На следующем шаге алгоритма, выходной сигнала сети y сравнивается с желаемым выходным сигналом z, который хранится в тренировочных данных.
Разница между этими двумя сигналами называется ошибкой d выходного слоя сети.

Дело в том, что весовые коэффициенты по мере обучения растут до бесконечности, тогда, я предположил, что перепутан знак в вычислении коэффициента корректировки, т.е. должно быть y - Z. Действительно, при следующем же прогоне я получил что-то похожее на желаемый результат, однако, раз от разу все равно получалось так, что весовые коэффициенты к концу обучения уходили в бесконечность, экспериментировал с инициализацией начальных значений весовых коэффициентов сначала нулями, потом единицами, для себя сделал вывод - ни нулями, ни единицами инициализировать нельзя, результата не получится. Потом была еще серия экспериментов над кодом, оказывается, нельзя на вход НС подавать непосредственно те значения, какие есть, их нужно пропускать через сигмоиду (функцию активации) и то же самое с выходом - нельзя получить непосредственно то значение, которое требуется из набора обучающей выборки, в итоге, код, сейчас выглядит так:

C++
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
#include "stdafx.h"
#include <vector>
#include <iostream>
#include <math.h>
#include <ctime>
 
using namespace std;
 
// Функция активации
double activation(double x)
{
    if (-1 == exp(-x)) {
        return .0;
    }
    return 1 / (1 + exp(-x));
}
 
// Производная от функции активации
double derivative(double x)
{
    return x * (1 - x);
}
 
int _tmain(int argc, _TCHAR* argv[])
{
    // Параметры НС
    // Число входов,
    // Число нейронов в скрытом слое
    // Число нейронов в выходном слое
 
    int nInputs = 3,
        nHiddenLayer = 4,
        nOutputs = 1;
 
    // Скорость обучения
    double trainSpeed = 1;
 
    cout.setf(ios::fixed);
 
    srand(time(NULL));
    vector<vector<double>> hiddenLayer, outputLayer;
 
    // Инициализация связей между входом НС и скрытым слоем случайными значениями
    hiddenLayer.resize(nInputs);
    for (int input(0); input < nInputs; input++) {
        hiddenLayer[input].resize(nHiddenLayer);
        for (int hidden(0); hidden < nHiddenLayer; hidden++) {
            hiddenLayer[input][hidden] = double(rand()) / RAND_MAX;
        }
    }
 
    // Инициализация связей между скрытым слоем НС и выходным слоем случайными значениями
    outputLayer.resize(nHiddenLayer);
    for (int hidden(0); hidden < nHiddenLayer; hidden++) {
        outputLayer[hidden].resize(nOutputs);
        for (int output(0); output < nOutputs; output++) {
            outputLayer[hidden][output] = double(rand()) / RAND_MAX;
        }
    }
 
    // Массив с данным для обучения
    vector<vector<long double>> X = {
        { 1, 2, 3 },
        { 2, 3, 4 },
        { 4, 5, 2 },
        { 4, 6, 3 },
        { 8, 3, 5 },
        { 1, 2, 3 },
        { 2, 3, 4 },
        { 4, 5, 2 },
        { 4, 6, 3 },
        { 8, 3, 5 }
    };
 
    // Массив с желаемыми откликами
    vector<vector<long double>> T = {
        { 1 },
        { 2 },
        { 4 },
        { 4 },
        { 8 },
        { 1 },
        { 2 },
        { 4 },
        { 4 },
        { 8 }
    };
 
    int withoutErrors = 0;
    long double modificationCoefficient = .0;
    vector<long double> sumHidden, sumOutput, deltaHiddenLayer, deltaOutputLayer;
    sumOutput.resize(nOutputs);
    sumHidden.resize(nHiddenLayer);
    deltaOutputLayer.resize(nOutputs);
    deltaHiddenLayer.resize(nHiddenLayer);
 
    // Для кажодго паттерна данных обучения
    for (int i(0); i < X.size(); i++) {
 
        // Эпохи обучения
        for (int epoch(0); epoch < 10; epoch++) {
 
            withoutErrors = 0;
 
            // Зануляем массивы с дельтами и суммами выходного слоя
            for (int outputIndex(0); outputIndex < nOutputs; outputIndex++) {
                deltaOutputLayer[outputIndex] = .0;
                sumOutput[outputIndex] = .0;
            }
 
            // Зануляем массивы с дельтами и суммами скрытого слоя
            for (int hiddenIndex(0); hiddenIndex < nHiddenLayer; hiddenIndex++) {
                deltaHiddenLayer[hiddenIndex] = .0;
                sumHidden[hiddenIndex] = .0;
            }
 
            // Считаем суммы для скрытого слоя
            for (int hidden(0); hidden < nHiddenLayer; hidden++) {
                for (int x(0); x < nInputs; x++) {
                    sumHidden[hidden] += hiddenLayer[x][hidden] * activation(X[i][x]);
                }
            }
 
            // Считаем суммы для выходного слоя
            for (int output(0); output < nOutputs; output++) {
                for (int y(0); y < nHiddenLayer; y++) {
                    sumOutput[output] += outputLayer[y][output] * activation(sumHidden[y]);
                }
                for (int x(0); x < X[i].size(); x++) {
                    cout << "x[" << x << "] = " << X[i][x] << "; ";
                }
                cout << "T = " << T[i][output] << "; " << "Y = " << sumOutput[output] << "; " << "ERROR = " << activation(sumOutput[output]) - activation(T[i][output]) << endl;
            }
 
            // Считаем ошибку для каждого выхода (delta)
            for (int output(0); output < nOutputs; output++) {
                deltaOutputLayer[output] = activation(sumOutput[output]) - activation(T[i][output]);
            }
 
            // Считаем ошибку для каждого нейрона скрытого слоя
            for (int hidden(0); hidden < nHiddenLayer; hidden++) {
                for (int output(0); output < nOutputs; output++) {
                    deltaHiddenLayer[hidden] += outputLayer[hidden][output] * deltaOutputLayer[output];
                }
            }
 
            // Модификация весовых коэффициентов выходного слоя
            for (int output(0); output < nOutputs; output++) {
                modificationCoefficient = deltaOutputLayer[output] * derivative(sumOutput[output]) * trainSpeed;
                for (int hidden(0); hidden < nHiddenLayer; hidden++) {
                    outputLayer[hidden][output] += modificationCoefficient * activation(sumHidden[hidden]);
                }
            }
 
            // Модификация весовых коэффициентов скрытого слоя
            for (int hidden(0); hidden < nHiddenLayer; hidden++) {
                modificationCoefficient = deltaHiddenLayer[hidden] * derivative(sumHidden[hidden]) * trainSpeed;
                for (int input(0); input < nInputs; input++) {
                    hiddenLayer[input][hidden] += modificationCoefficient * activation(X[i][input]);
                }
            }
        }
    }
 
    for (int input(0); input < nInputs; input++) {
        hiddenLayer[input].resize(nHiddenLayer);
        for (int hidden(0); hidden < nHiddenLayer; hidden++) {
            cout << "hiddenLayer[" << input << "][" << hidden << "] = " << hiddenLayer[input][hidden] << endl;
        }
    }
    cout << endl;
    for (int hidden(0); hidden < nHiddenLayer; hidden++) {
        outputLayer[hidden].resize(nOutputs);
        for (int output(0); output < nOutputs; output++) {
            cout << "outputLayer[" << hidden << "][" << output << "] = " << outputLayer[hidden][output] << endl;
        }
    }
    system("PAUSE");
    return 0;
}

Сейчас проблема заключается в том, что в некоторых случаях (зависит от того, какими значениями были инициализированы) весовые коэффициенты принимают значение: -1.#IND00:

Кликните здесь для просмотра всего текста

Bash
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
x[0] = 1.000000; x[1] = 2.000000; x[2] = 3.000000; T = 1.000000; Y = 1.053691; ERROR = 0.010424
x[0] = 1.000000; x[1] = 2.000000; x[2] = 3.000000; T = 1.000000; Y = 1.051265; ERROR = 0.009959
x[0] = 1.000000; x[1] = 2.000000; x[2] = 3.000000; T = 1.000000; Y = 1.049034; ERROR = 0.009531
x[0] = 1.000000; x[1] = 2.000000; x[2] = 3.000000; T = 1.000000; Y = 1.046976; ERROR = 0.009135
x[0] = 1.000000; x[1] = 2.000000; x[2] = 3.000000; T = 1.000000; Y = 1.045070; ERROR = 0.008768
x[0] = 1.000000; x[1] = 2.000000; x[2] = 3.000000; T = 1.000000; Y = 1.043300; ERROR = 0.008428
x[0] = 1.000000; x[1] = 2.000000; x[2] = 3.000000; T = 1.000000; Y = 1.041653; ERROR = 0.008110
x[0] = 1.000000; x[1] = 2.000000; x[2] = 3.000000; T = 1.000000; Y = 1.040115; ERROR = 0.007814
x[0] = 1.000000; x[1] = 2.000000; x[2] = 3.000000; T = 1.000000; Y = 1.038677; ERROR = 0.007536
x[0] = 1.000000; x[1] = 2.000000; x[2] = 3.000000; T = 1.000000; Y = 1.037328; ERROR = 0.007275
x[0] = 2.000000; x[1] = 3.000000; x[2] = 4.000000; T = 2.000000; Y = 1.070984; ERROR = -0.136013
x[0] = 2.000000; x[1] = 3.000000; x[2] = 4.000000; T = 2.000000; Y = 1.120699; ERROR = -0.126679
x[0] = 2.000000; x[1] = 3.000000; x[2] = 4.000000; T = 2.000000; Y = 1.195252; ERROR = -0.113118
x[0] = 2.000000; x[1] = 3.000000; x[2] = 4.000000; T = 2.000000; Y = 1.302941; ERROR = -0.094468
x[0] = 2.000000; x[1] = 3.000000; x[2] = 4.000000; T = 2.000000; Y = 1.448531; ERROR = -0.071025
x[0] = 2.000000; x[1] = 3.000000; x[2] = 4.000000; T = 2.000000; Y = 1.623013; ERROR = -0.045587
x[0] = 2.000000; x[1] = 3.000000; x[2] = 4.000000; T = 2.000000; Y = 1.793125; ERROR = -0.023487
x[0] = 2.000000; x[1] = 3.000000; x[2] = 4.000000; T = 2.000000; Y = 1.914429; ERROR = -0.009281
x[0] = 2.000000; x[1] = 3.000000; x[2] = 4.000000; T = 2.000000; Y = 1.972969; ERROR = -0.002867
x[0] = 2.000000; x[1] = 3.000000; x[2] = 4.000000; T = 2.000000; Y = 1.992746; ERROR = -0.000764
x[0] = 4.000000; x[1] = 5.000000; x[2] = 2.000000; T = 4.000000; Y = 2.006233; ERROR = -0.100564
x[0] = 4.000000; x[1] = 5.000000; x[2] = 2.000000; T = 4.000000; Y = 2.698526; ERROR = -0.045074
x[0] = 4.000000; x[1] = 5.000000; x[2] = 2.000000; T = 4.000000; Y = 3.393935; ERROR = -0.014499
x[0] = 4.000000; x[1] = 5.000000; x[2] = 2.000000; T = 4.000000; Y = 3.791503; ERROR = -0.004078
x[0] = 4.000000; x[1] = 5.000000; x[2] = 2.000000; T = 4.000000; Y = 3.937318; ERROR = -0.001141
x[0] = 4.000000; x[1] = 5.000000; x[2] = 2.000000; T = 4.000000; Y = 3.981925; ERROR = -0.000322
x[0] = 4.000000; x[1] = 5.000000; x[2] = 2.000000; T = 4.000000; Y = 3.994850; ERROR = -0.000091
x[0] = 4.000000; x[1] = 5.000000; x[2] = 2.000000; T = 4.000000; Y = 3.998537; ERROR = -0.000026
x[0] = 4.000000; x[1] = 5.000000; x[2] = 2.000000; T = 4.000000; Y = 3.999585; ERROR = -0.000007
x[0] = 4.000000; x[1] = 5.000000; x[2] = 2.000000; T = 4.000000; Y = 3.999882; ERROR = -0.000002
x[0] = 4.000000; x[1] = 6.000000; x[2] = 3.000000; T = 4.000000; Y = 4.005517; ERROR = 0.000097
x[0] = 4.000000; x[1] = 6.000000; x[2] = 3.000000; T = 4.000000; Y = 4.001545; ERROR = 0.000027
x[0] = 4.000000; x[1] = 6.000000; x[2] = 3.000000; T = 4.000000; Y = 4.000433; ERROR = 0.000008
x[0] = 4.000000; x[1] = 6.000000; x[2] = 3.000000; T = 4.000000; Y = 4.000122; ERROR = 0.000002
x[0] = 4.000000; x[1] = 6.000000; x[2] = 3.000000; T = 4.000000; Y = 4.000034; ERROR = 0.000001
x[0] = 4.000000; x[1] = 6.000000; x[2] = 3.000000; T = 4.000000; Y = 4.000010; ERROR = 0.000000
x[0] = 4.000000; x[1] = 6.000000; x[2] = 3.000000; T = 4.000000; Y = 4.000003; ERROR = 0.000000
x[0] = 4.000000; x[1] = 6.000000; x[2] = 3.000000; T = 4.000000; Y = 4.000001; ERROR = 0.000000
x[0] = 4.000000; x[1] = 6.000000; x[2] = 3.000000; T = 4.000000; Y = 4.000000; ERROR = 0.000000
x[0] = 4.000000; x[1] = 6.000000; x[2] = 3.000000; T = 4.000000; Y = 4.000000; ERROR = 0.000000
x[0] = 8.000000; x[1] = 3.000000; x[2] = 5.000000; T = 8.000000; Y = 3.996272; ERROR = -0.017717
x[0] = 8.000000; x[1] = 3.000000; x[2] = 5.000000; T = 8.000000; Y = 4.713261; ERROR = -0.008560
x[0] = 8.000000; x[1] = 3.000000; x[2] = 5.000000; T = 8.000000; Y = 5.221193; ERROR = -0.005037
x[0] = 8.000000; x[1] = 3.000000; x[2] = 5.000000; T = 8.000000; Y = 5.598573; ERROR = -0.003354
x[0] = 8.000000; x[1] = 3.000000; x[2] = 5.000000; T = 8.000000; Y = 5.892796; ERROR = -0.002416
x[0] = 8.000000; x[1] = 3.000000; x[2] = 5.000000; T = 8.000000; Y = 6.130571; ERROR = -0.001835
x[0] = 8.000000; x[1] = 3.000000; x[2] = 5.000000; T = 8.000000; Y = 6.327851; ERROR = -0.001447
x[0] = 8.000000; x[1] = 3.000000; x[2] = 5.000000; T = 8.000000; Y = 6.494793; ERROR = -0.001174
x[0] = 8.000000; x[1] = 3.000000; x[2] = 5.000000; T = 8.000000; Y = 6.638222; ERROR = -0.000972
x[0] = 8.000000; x[1] = 3.000000; x[2] = 5.000000; T = 8.000000; Y = 6.762932; ERROR = -0.000819
x[0] = 1.000000; x[1] = 2.000000; x[2] = 3.000000; T = 1.000000; Y = 6.812586; ERROR = 0.267843
x[0] = 1.000000; x[1] = 2.000000; x[2] = 3.000000; T = 1.000000; Y = 1.#QNAN0; ERROR = -1.#IND00
x[0] = 1.000000; x[1] = 2.000000; x[2] = 3.000000; T = 1.000000; Y = 1.#QNAN0; ERROR = -1.#IND00
x[0] = 1.000000; x[1] = 2.000000; x[2] = 3.000000; T = 1.000000; Y = 1.#QNAN0; ERROR = -1.#IND00
x[0] = 1.000000; x[1] = 2.000000; x[2] = 3.000000; T = 1.000000; Y = 1.#QNAN0; ERROR = -1.#IND00
x[0] = 1.000000; x[1] = 2.000000; x[2] = 3.000000; T = 1.000000; Y = 1.#QNAN0; ERROR = -1.#IND00
x[0] = 1.000000; x[1] = 2.000000; x[2] = 3.000000; T = 1.000000; Y = 1.#QNAN0; ERROR = -1.#IND00
x[0] = 1.000000; x[1] = 2.000000; x[2] = 3.000000; T = 1.000000; Y = 1.#QNAN0; ERROR = -1.#IND00
x[0] = 1.000000; x[1] = 2.000000; x[2] = 3.000000; T = 1.000000; Y = 1.#QNAN0; ERROR = -1.#IND00
x[0] = 1.000000; x[1] = 2.000000; x[2] = 3.000000; T = 1.000000; Y = 1.#QNAN0; ERROR = -1.#IND00
x[0] = 2.000000; x[1] = 3.000000; x[2] = 4.000000; T = 2.000000; Y = 1.#QNAN0; ERROR = -1.#IND00
x[0] = 2.000000; x[1] = 3.000000; x[2] = 4.000000; T = 2.000000; Y = 1.#QNAN0; ERROR = -1.#IND00
x[0] = 2.000000; x[1] = 3.000000; x[2] = 4.000000; T = 2.000000; Y = 1.#QNAN0; ERROR = -1.#IND00
x[0] = 2.000000; x[1] = 3.000000; x[2] = 4.000000; T = 2.000000; Y = 1.#QNAN0; ERROR = -1.#IND00
x[0] = 2.000000; x[1] = 3.000000; x[2] = 4.000000; T = 2.000000; Y = 1.#QNAN0; ERROR = -1.#IND00
x[0] = 2.000000; x[1] = 3.000000; x[2] = 4.000000; T = 2.000000; Y = 1.#QNAN0; ERROR = -1.#IND00
x[0] = 2.000000; x[1] = 3.000000; x[2] = 4.000000; T = 2.000000; Y = 1.#QNAN0; ERROR = -1.#IND00
x[0] = 2.000000; x[1] = 3.000000; x[2] = 4.000000; T = 2.000000; Y = 1.#QNAN0; ERROR = -1.#IND00
x[0] = 2.000000; x[1] = 3.000000; x[2] = 4.000000; T = 2.000000; Y = 1.#QNAN0; ERROR = -1.#IND00
x[0] = 2.000000; x[1] = 3.000000; x[2] = 4.000000; T = 2.000000; Y = 1.#QNAN0; ERROR = -1.#IND00
x[0] = 4.000000; x[1] = 5.000000; x[2] = 2.000000; T = 4.000000; Y = 1.#QNAN0; ERROR = -1.#IND00
x[0] = 4.000000; x[1] = 5.000000; x[2] = 2.000000; T = 4.000000; Y = 1.#QNAN0; ERROR = -1.#IND00
x[0] = 4.000000; x[1] = 5.000000; x[2] = 2.000000; T = 4.000000; Y = 1.#QNAN0; ERROR = -1.#IND00
x[0] = 4.000000; x[1] = 5.000000; x[2] = 2.000000; T = 4.000000; Y = 1.#QNAN0; ERROR = -1.#IND00
hiddenLayer[0][0] = -1.#IND00
hiddenLayer[0][1] = -1.#IND00
hiddenLayer[0][2] = -1.#IND00
hiddenLayer[0][3] = -1.#IND00
hiddenLayer[1][0] = -1.#IND00
hiddenLayer[1][1] = -1.#IND00
hiddenLayer[1][2] = -1.#IND00
hiddenLayer[1][3] = -1.#IND00
hiddenLayer[2][0] = -1.#IND00
hiddenLayer[2][1] = -1.#IND00
hiddenLayer[2][2] = -1.#IND00
hiddenLayer[2][3] = -1.#IND00
 
outputLayer[0][0] = 1.#QNAN0
outputLayer[1][0] = 1.#QNAN0
outputLayer[2][0] = 1.#QNAN0
outputLayer[3][0] = 1.#QNAN0

Что это значит? Вот с этим я и пытаюсь сейчас разобраться? может кто-нибудь помочь?

Полагаю, что дело в этом самом сигмоиде: $https://www.cyberforum.ru/cgi-bin/latex.cgi?\frac{1}{1+{e}^{-x}}$ , что в знаменателе вроде как ноль выходит и получается деление на ноль...

@killbond · 24.03.2015, 10:47

вверх

@Fobes · 24.03.2015, 14:40 **[ТС]**

killbond, в статье нет ошибки, у меня все работает по ней... После 4 часов сна вообще не соображаю что читаю) Сейчас убегаю, посмотри алгоритм обучения еще раз... скорее всего что-то путаешь...
Вот так сам корректирую веса нейрона:

C++
1
2
3
4
5
6
7
8
9
10
11
12
//h -шаг, s - ошибка в нейроне, out - старое значение суммы в нейроне от функции активации
void TNeuron::CorrectionWeights(float h)
{
    int nWeights = this->Weights.size() - 1;
 
    int i = 0;
    do
    {
        this->Weights[i] += h*s*Inputs[i]*(out*(1-out));
        i++;
    }while(i <= nWeights);
}

@killbond · 30.03.2015, 09:39

Прошу обратить внимание на этот участок кода:

C++
1
2
3
4
5
6
7
            // Модификация весовых коэффициентов выходного слоя
            for (int output(0); output < nOutputs; output++) {
                modificationCoefficient = deltaOutputLayer[output] * derivative(sumOutput[output]) * trainSpeed;
                for (int hidden(0); hidden < nHiddenLayer; hidden++) {
                    outputLayer[hidden][output] += modificationCoefficient * activation(sumHidden[hidden]);
                }
            }

Ошибка именно здесь, понял я это, только когда изучил эту статью. Для коррекции весов выходного слоя не надо умножать значение ошибки на производную, это верно только для скрытых слоев. Должно быть так:

C++
1
2
3
4
5
6
7
            // Модификация весовых коэффициентов выходного слоя
            for (int output(0); output < nOutputs; output++) {
                modificationCoefficient = deltaOutputLayer[output] * trainSpeed;
                for (int hidden(0); hidden < nHiddenLayer; hidden++) {
                    outputLayer[hidden][output] += modificationCoefficient * activation(sumHidden[hidden]);
                }
            }

Т.е. все-таки в исходной статье есть ошибка

ну или место, которое вводит читателя в заблуждение

@sutop · 08.08.2015, 04:19

У тебя тест неправильный - для активационной функции 1/(1+ exp(-x)) можно получить значения только от 0 до 1, не включая концы. Таким образом ты пытаешься получить значения за пределами возможного диапазона.

Новые блоги и статьи Все статьи Все блоги /
PhpStorm 2025.3: WSL Terminal всегда стартует в ~ and_y87 14.12.2025 PhpStorm 2025. 3: WSL Terminal всегда стартует в ~ (home), игнорируя директорию проекта Симптом: После обновления до PhpStorm 2025. 3 встроенный терминал WSL открывается в домашней директории. . .	Access VikBal 11.12.2025 Помогите пожалуйста !! Как объединить 2 одинаковые БД Access с разными данными.	Новый ноутбук volvo 07.12.2025 Всем привет. По скидке в "черную пятницу" взял себе новый ноутбук Lenovo ThinkBook 16 G7 на Амазоне: Ryzen 5 7533HS 64 Gb DDR5 1Tb NVMe 16" Full HD Display Win11 Pro	Музыка, написанная Искусственным Интеллектом volvo 04.12.2025 Всем привет. Некоторое время назад меня заинтересовало, что уже умеет ИИ в плане написания музыки для песен, и, собственно, исполнения этих самых песен. Стихов у нас много, уже вышли 4 книги, еще 3. . .	От async/await к виртуальным потокам в Python IndentationError 23.11.2025 Армин Ронахер поставил под сомнение async/ await. Создатель Flask заявляет: цветные функции - провал, виртуальные потоки - решение. Не threading-динозавры, а новое поколение лёгких потоков. Откат?. . .
Поиск "дружественных имён" СОМ портов Argus19 22.11.2025 Поиск "дружественных имён" СОМ портов На странице: https:/ / norseev. ru/ 2018/ 01/ 04/ comportlist_windows/ нашёл схожую тему. Там приведён код на С++, который показывает только имена СОМ портов, типа,. . .	Сколько Государство потратило денег на меня, обеспечивая инсулином. Programma_Boinc 20.11.2025 Сколько Государство потратило денег на меня, обеспечивая инсулином. Вот решила сделать интересный приблизительный подсчет, сколько государство потратило на меня денег на покупку инсулинов. . . .	Ломающие изменения в C#.NStar Alpha Etyuhibosecyu 20.11.2025 Уже можно не только тестировать, но и пользоваться C#. NStar - писать оконные приложения, содержащие надписи, кнопки, текстовые поля и даже изображения, например, моя игра "Три в ряд" написана на этом. . .	Мысли в слух kumehtar 18.11.2025 Кстати, совсем недавно имел разговор на тему медитаций с людьми. И обнаружил, что они вообще не понимают что такое медитация и зачем она нужна. Самые базовые вещи. Для них это - когда просто люди. . .	Создание Single Page Application на фреймах krapotkin 16.11.2025 Статья исключительно для начинающих. Подходы оригинальностью не блещут. В век Веб все очень привыкли к дизайну Single-Page-Application . Быстренько разберем подход "на фреймах". Мы делаем одну. . .

@Fobes 17 / 17 / 5 Регистрация: 19.09.2012 Сообщений: 216

	Метод обратного распространения ошибки 19.03.2015, 22:29. Показов 13981. Ответов 11 Метки нет (Все метки) Всем доброго времени суток. Прошу не удалять тему, она больше к теории относится, нежели к практике. Пишу простенький редактор для работы с простыми нейро сетями. Начал реализовывать Метод обратного распространения ошибки вот по этой статье http://robocraft.ru/blog/algorithm/560.html и столкнулся с непоняткой. При корректировки весовых коэффициентов к старому весу прибавляется произведение шага на ошибку, а вот дальше у меня затуп из-за того что не могу понять что с производной(не понимаю обозначение)... От чего она считается и каким образом ? Объясните плиз, не доходит Добавлено через 19 минут Или производная считается от старой суммы в нейроне ? 0

@Fobes 17 / 17 / 5 Регистрация: 19.09.2012 Сообщений: 216
	22.03.2015, 11:07 [ТС]
	killbond, ну для начала с производной не так) упростил не правильно п.с. не заметил) в коде передаешь то что нужно туда) Миниатюры 0

@Fobes 17 / 17 / 5 Регистрация: 19.09.2012 Сообщений: 216
	22.03.2015, 11:23 [ТС]
	Как я понял, у тебя всегда сеть сводит к 0 выход ? просто у меня именно так делает)) независимо от входов)) 0

@Fobes 17 / 17 / 5 Регистрация: 19.09.2012 Сообщений: 216
	23.03.2015, 00:05 [ТС]
	killbond, хм, у себя нашел косяк, он был связан вообще с загрузкой обучающих выборок)) А так, сеть учится и все вроде нормалек) Добавлено через 20 минут killbond, как вариант, учитывая что у тебя ошибка застыла... попробуй нарастить число нейронов в скрытом слое) 1

@killbond 1 / 1 / 0 Регистрация: 21.07.2014 Сообщений: 21
	24.03.2015, 10:47
	вверх 0

@sutop 1 / 1 / 1 Регистрация: 30.07.2015 Сообщений: 8
	08.08.2015, 04:19
	У тебя тест неправильный - для активационной функции 1/(1+ exp(-x)) можно получить значения только от 0 до 1, не включая концы. Таким образом ты пытаешься получить значения за пределами возможного диапазона. 0