регресионен анализ
От машинно обучение.
регресионен анализ # 151; метод за измерване на моделиране на данни и проучване на техните свойства. Данните се състоят от двойки стойности на зависимата променлива (променлива RTT) и независима променлива (обяснителна променлива). Моделът на регресия е функция на независимата променлива и параметри с добавена случайна променлива. Параметрите на модела да се регулират така, че моделът се доближава най-добре данните. Критерият на качествен подход (целева функция) обикновено е средноквадратичната грешка. сумата от квадратите на модел разлика и зависимата променлива за всички стойности на независимата променлива като аргумент. регресионен анализ # 151; клон на математическата статистика и машинно обучение. Предполага се, че зависимата променлива е сборът от стойностите на модел и случайна променлива. Що се отнася до това естество на разпределението се правят предположения, наречен данни на хипотези. За да се потвърдят или отхвърлят тази хипотеза, извършва статистически тестове. нарича анализ на остатъци. Това предполага, че независимата променлива не съдържа грешки. Регресионният анализ се използва за прогнозиране. Време анализ серия. тестване на хипотези и идентифициране на скрити връзки в данните.
Определяне регресионен анализ
Пробата може да бъде функция и отношение. Например, данни за изграждане на регресия може да бъде :. "/> В тази проба съответства на една стойност на променлив брой променливи стойности.
регресия # 151; зависимостта на очакването (например, средната стойност) на случайна променлива от един или повече други случайни променливи (свободни променливи), че е) = F (\ mathbf) "/>. Регресионният анализ се нарича търсене на такава функция, която описва тази връзка. регресия могат Той е представен като сума от случайни и неслучайни компоненти.
където # 151; функция на регресивен зависимост, и # 151; добавка случайна променлива с нула математически очакване. Предположението за разпределението на това количество се нарича хипотеза за генериране на данни. Обикновено се приема, че стойността е Гаусово разпределение със средна стойност нула и дисперсия.
Проблемът за намиране на регресия на няколко променливи, които може формулирани по следния начин. комплект за вземане на проби # 151; много _1. \ Mathbf_N | \ mathbf \ в \ mathbb ^ М \> /> "/> Стойности на свободните променливи и много от съответните зависими променливи стойности Тези комплекти са посочени като, много сурови данни, у) _I \>.". Като се има предвид регресионен модел # 151; параметър семейство от функции, \ mathbf) "/> в зависимост от параметрите \ в \ mathbb" /> и свободните променливи "/> е да се намери най-вероятните опции>" />.:
Функцията вероятност зависи от хипотезите за данни и генериране дадени Бейс метод извод или максимална вероятност.
линейна регресия
Линейна регресия предполага, че функцията зависи от параметрите "/> линейно. Линейната зависимост от свободната променливата" /> не е необходимо,
В случая, когато функцията "/> е линейна регресия на формата
тук # 151; компоненти на "/>.
Стойностите на параметрите в случай на линейната регресия е намерена по метода на най-малките квадрати. Използването на този метод не е оправдана от предположението за Гаусово разпределение на случайната променлива.
Разлика _I) "/> между действителните стойности на зависимата променлива и възстановените останки се наричат регресия (остатъците) в литературата като синоними: .. И остатъчната грешка Един от най-важните критерии за оценка на качеството на получения зависимостта е сумата от квадратите на остатъците:
тук # 151; Сума от Правоъгълни грешки.
Дисперсионни остатъци се изчислява по формулата
тук # 151; Средноквадратичната грешка, средноквадратичната грешка.
В графиките представени проба маркиран сини точки и функцията регресия посочено от плътни линии. Абсцисата безплатно променлива, а вертикалната ос # 151; зависим. И трите са линейни, в зависимост от параметрите.
нелинейна регресия
Нелинейна регресия модели - изглед модел
които не могат да бъдат представени като скаларен продукт
където = [w_1, \ ldots, "/> - параметрите на модела на регресия" /> - без променлива от пространство ^ п "/> - зависима променлива - случайна променлива = [g_1 \ ldots" /> - функция от даден набор.
Стойностите на параметрите в случая на не-линейна регресия използват един от градиентни методи на снижаване като Levenberg-Marquardt.
За термини
Терминът "регресия" е въведено от Франсис Галтън в края на 19-ти век. Галтън установено, че децата на родители с висок или нисък ръст не е обикновено наследяват изключителен растеж и нарича явлението "регресия на посредствеността." Първо, терминът се използва само в биологичен смисъл. В резултат от работата на Карла Pirsona, терминът започва да се използва в областта на статистиката.
Сближаване на функции: непрекъсната функция доближава непрекъснато или дискретно функция
В статистическата литература разграничи регресия с един свободен променлива и с няколко безплатни променливи # 151; Еднопроцесни и многовариантно регресия. Ние би трябвало да се използват няколко свободни променливи, т.е., безплатна променлива # 151; вектор \ в \ ^ N "R />. В специални случаи, когато свободната променлива е скаларна, той ще бъде посочен. Има линейна и нелинейна регресия. Ако регресионния модел не е линейна комбинация от параметрите на функциите, ние говорим за нелинейна регресия. В този случай, модел може да бъде произволна функция на суперпозицията на набор. модели са нелинейни, експоненциална, тригонометрични и други (например, радиални базисни функции или перцептрон Rosenblatt) вярват връзката между параметрите и isimoy променлива нелинейна.
Разграничаване между параметри и непараметричен регресия. Стриктно граница между тези два вида регресии да държи трудно. Досега не са общоприети критерии разграничават един вид от друг модел. Например, смята се, че линейните модели са параметрични и модел, включително зависима променлива осредняване над пространство свободен променлива # 151; непараметричен. Пример regresionnoy параметричен модел: линейно предсказване, многослоен перцептрон. Примери смесен регресионен модел: радиална основа функция. непараметричен модел # 151; плъзгаща се средна за определен ширина прозорец. Като цяло, различен от непараметричен регресия параметър, който зависи не зависими променливи стойности от една свободна променлива, но от предварително определен съседство на тази стойност.
Интерполация: задание функция на възлови пунктове
Има разлика между термините "сближаване на функции", "сближаване", "интерполация" и "регресия". Това е, както следва.
Сближаване на функции. Като се има предвид функцията на дискретни или непрекъснато аргумент. Намери функция на някои параметри на семейството, например, сред множеството от алгебрични полиноми от степен. Параметрите трябва да представят поне някои функционални, например,
Терминът приближение # 151; синоним на понятието "сближаване на функции". Той се използва по-често, когато говорим за дадената функция като функция на дискретен аргумент. Има също така трябва да се намери функция, която работи най-близо до всички точки на определен функция. По този начин концепцията за остатъчен # 151; разстоянието между точките на непрекъсната функция и съответните отделни точки на функцията аргумент.
интерполация функции # 151; специален случай приближение проблем, когато това се налага, за да в определени точки, наречени точки на интерполация функции и съответстват на стойностите доближават неговата функция. В по-общ случай се налагат ограничения върху стойността на някои производни деривати. Това означава, че даден функцията на дискретни аргумент. Необходимо е да се намери функция, която преминава през всички точки. В този случай, метриката не се използва често, но често се въведе понятието "плавност" на неизвестен функция.
Регресия и класификация са тясно свързани един с друг. Срокът, в алгоритъма за класиране може да бъде синоним на термина в регресионния модел, ако алгоритъмът не работи с дискретен комплект отговори-Class и модела # 151; постоянно-променливо специфичен безплатно.