Регресионен анализ - статистически метод на изследване на зависимостта на случайната променлива от

Проучването моделиране анализ Статистическата регресия се използва за оценка на връзката между променливите. Този математически метод включва множество други методи за моделиране и анализ на няколко променливи, когато фокусът е върху връзката между зависимата променлива и една или повече независими. По-конкретно, регресионен анализ помага да се разбере как типичната стойност на зависимата променлива, ако един от независимите променливи се променя, докато другите независими променливи остават фиксирани.







Каква е линеен анализ

Във всички случаи, целевата оценка е функция на независимите променливи, наречени функция регресия. Анализът на регресия също интересни характерни промени като зависима променлива, функцията регресия, която може да се опише чрез разпределение на вероятностите.

Задачи регресионен анализ

Този статистически метод на изследване се използва широко да се предскаже, когато неговото използване има значителни предимства, но понякога това може да доведе до фалшиво отношения илюзия или така че е препоръчително да се използва точно по този въпрос, тъй като, например, корелацията не означава причинно-следствената връзка.

Това разработени голям брой методи за извършване на регресионен анализ като линейна регресия и обикновени най-малките квадрати, които са параметри. Тяхната същност е, че функцията за регресия се определя от гледна точка на краен брой неизвестни параметри, които се оценяват въз основа на данните. Непараметрични регресионна функция позволява да лежи в определен набор от функции, които могат да бъдат безкрайно измерение.

Като статистически метод за изучаване, регресионен анализ на практика зависи от процеса на генериране на данните на формата и как тя се отнася до подхода за регресия. Тъй като истинската форма на обработка на данните, генериране, като правило, неизвестен брой, регресионен анализ често това зависи до известна степен на предположения относно процеса. Тези предположения са понякога проверими, ако има достатъчно данни. Регресия модели често са полезни, дори когато предположенията са умерено нарушено, въпреки че те не могат да работят при максимална ефективност.

В по-тесен смисъл регресия може да се отнася конкретно за оценка на непрекъснати променливи за отговор, за разлика от дискретни отговор променливи, използвани при етикетирането. Случаят с постоянна мощност променлива се нарича още метричната регресия, за да се разграничи от свързаните с това проблеми.

Каква е линеен анализ

Терминът "регресия" Франсис Галтън изобретен през ХIХ век, за да опише биологичен феномен. Въпросът е, че ръстът на потомците на предците на растеж са склонни към регрес до нормалната средна стойност. За регресия на Галтън имаше само този биологичен смисъл, но по-късно работата му е продължена Udni Yoley и Karlom Pirsonom и изтеглени към по-общата статистическа контекст. В работата на Юл и Pearson съвместна дистрибуция на обяснителни променливи и отговорът се счита за Гаус. Това предложение беше отхвърлено от Fisher в процес на разработка през 1922 и 1925. Fisher предполага, че условното разпределение на променливата за отговор е Гаусово, но съвместното разпределение не трябва да бъде. Във връзка с това предположение Фишер-близо до формулировката на 1821 Гаус. Преди 1970 понякога се до 24 часа, за да получите резултатите от анализа на регресия.

Каква е линеен анализ

Методи регресионен анализ остават активна област на изследване. През последните десетилетия, са били разработени нови методи за надеждно регресия; регресия с корелирани реакции; регресионни техники за настаняване на различни видове липсващи данни; непараметричен регресия; Бейс методи регресия; регресия, в които променливите предсказуем грешки измерване; Регресия с повечето от предиктори от наблюдения и причинно-следствена извод с регресия.

регресионни модели

Модели на регресионен анализ включват следните променливи:

  • На неизвестните параметри отбелязани като бета, които могат да бъдат скаларна или вектор.
  • Независимите променливи X.
  • Зависимата променлива, Y.

В различни области на науката, където се извършва използване на регресионен анализ, различните термини, използвани вместо зависими и независими променливи, но във всички случаи регресионния модел се отнася до X и Y функция Р на.

На сближаване обикновено е под формата на E (Y | X) = F (X, β). За извършване на регресионен анализ трябва да се определи формата на функцията F. По-рядко, като се основава на знания за връзката между Y и X, която не се основава само на данните. Ако такова знание не е достъпно, изберете гъвкава и удобна форма на F.

Зависимата променлива Y

Да предположим сега, че векторът на неизвестни параметри β има дължина к. За да изпълните регресионен анализ, потребителят трябва да предостави информация за зависимата променлива Y:

  • Ако има N данни точки на формата (Y, X), където N
  • Ако има точно N = К, и функцията F е линейна, уравнението Y = F (X, β) може да бъде решен точно, не приблизителни. Това намалява до решаване на набор от уравнения с N-N-неизвестни (елементите P), което има уникална разтвор, докато X е линейно независими. Ако F е нелинейна, решението може да не съществува или може да има много решения.
  • Най-често срещаната ситуация е, когато има N> точка на данните. В този случай, има достатъчно информация в данните, за да се оцени уникална стойност за β, който най-добре отговаря на данните, както и модел на регресия, където данните за кандидатстване може да се разглежда като неопределена система β.






В последния случай, анализът на регресия предоставя инструменти за:

  • Търсенето на разтвори на неизвестните параметри Р, които, например, да се намали разстоянието между измерените и предсказаната стойност на Y.
  • При някои предположения на статистическа регресионен анализ като се използва излишък на информация за осигуряване на статистическа информация за неизвестните параметри Р и прогнозираните стойности на зависима променлива Y. на

Необходимият брой независими измервания

Помислете регресионен модел, който разполага с три неизвестни параметри: β0. β1 и β2. Да приемем, че експериментаторът извършва 10 измервания на една и съща стойност на независимата променлива вектор X. В този случай, регресионен анализ не дава уникален набор от ценности. Най-доброто, което може да се направи, за да се изчисли средното и стандартното отклонение на зависима променлива Ш. По подобен начин чрез измерване на две различни стойности на X, може да получи достатъчно данни за регресия с две неизвестни, но не и в продължение на три или повече неизвестни.

Каква е линеен анализ

Ако измерванията експериментатор извършва при три различни стойности на независимия променлив вектор X, регресионния анализ предлага уникален набор от резултати за трите неизвестни параметри бета.

В случай на общ линеен регресионен изложението е еквивалентна на горното изискване, че матрица X T X обратимо.

статистически предположения

Когато броят на измерванията N е по-голям от броя на неизвестните параметри К и измервания εi грешка. тя обикновено се разширява след това излишната информация, съдържаща се в измерванията, и се използва за статистически прогнози за неизвестните параметри. Този излишък на информация се нарича степента на свобода на регресията.

основни допускания,

Класически предположения за регресионен анализ включват:

  • Пробата е представител на извод предсказване.
  • Грешката е случайна променлива със средна стойност, равна на нула, което е обусловено от обяснителните променливи.
  • Независимите променливи се измерват без грешки.
  • Независимите променливи (предиктори) са линейно независими, т.е. не е възможно да се изрази всеки предиктор като линейна комбинация от останалите.
  • Грешки са несвързани помежду си, т.е. матрица ковариация е диагонална грешка и всеки ненулев елемент се дисперсията на грешка.
  • вариация грешка е постоянна от наблюдения (homoscedasticity). Ако не, можете да използвате претеглената най-малките квадрати или други методи.

Това са достатъчни условия за поне оценка площади притежават необходимите качества, по-специално тези предположения означава, че оценките на параметрите са непредубедени, последователни и ефективни, особено когато те са регистрирани в класа на линейни оценители. Важно е, че доказателства, рядко се задоволи. Това означава, че методът се използва, дори и да се предположи, не е вярна. Вариация на предположенията, понякога може да се използва като мярка за която показва как този модел е полезен. Много от тези предположения може да бъде смекчена в по-напредналите техники. Доклади статистически анализ обикновено включват анализ на проби за анализ в съответствие с модела на методология и полезност.

В допълнение, променливите в някои случаи се отнасят до стойности, измерени в точката места. Възможно е да има пространствени тенденции и пространствена автокорелация в променливите, които нарушават статистически предположения. Географски претеглена регресия - единственият метод, който има нещо общо с данните.

Линеен регресионен анализ

В линейна регресия особеност е, че зависимата променлива, която е Yi. Той представлява линейна комбинация от параметри. Например, проста линейна регресия моделиране п-точки се използват една независима променлива, XI. и два параметъра, β0 и β1.

Каква е линеен анализ

В множествена линейна регресия, има няколко независими променливи или функции.

Когато случайна извадка от населението на параметрите му позволи да се получи проба от линеен регресионен модел.

В този аспект, най-популярен е методът на най-малките квадрати. С него получава параметри за оценка, които минимизират сумата квадратите на остатъците. Този вид минимизиране (характеристика е линейна регресия) на тази функция води до набор от нормални уравнения, както и набор от линейни уравнения с параметри, които са разрешени за получаване на оценки на параметрите.

С по-нататъшното предположението, че населението е нормално разпределена грешка, изследователят може да използва тези оценки на стандартните грешки за създаването на доверителни интервали и тестови хипотези за неговите параметри.

Нелинеен регресионен анализ

Пример където функцията е нелинейно по отношение на параметрите, показва, че сумата от квадратите да бъде сведена до минимум, като се използва итеративна процедура. Това прави много усложнения, които определят различията между линеен и нелинеен метод на най-малките квадрати. Следователно, резултатите от анализа на регресия с помощта на нелинеен метод понякога непредсказуем.

Каква е линеен анализ

Изчисляване на мощност и проба размер

Тук, като правило, липсват съгласувани методи, свързани с броя на случаите, в сравнение с броя на независимите променливи в модела. Първото правило е предложен Добър и Хардин и изглежда като N = т ^ п, където п е размерът на пробата, п - броят на независимите променливи, и Т е броят на наблюденията, необходими за постигане на желаната точност, ако моделът има само една независима променлива. Например, изследовател изгражда линеен регресионен модел с помощта на набор от данни, който съдържа 1000 пациенти (п). Ако следователят реши, че се нуждае от пет наблюдения да определят точно на линията (М), максималният брой независими променливи, които могат да подкрепят модела е 4.

други методи

Въпреки факта, че параметрите на регресионния модел се оценява обикновено с помощта на метода на най-малките квадрати, има и други методи, които се използват много по-рядко. Например, са следните методи:

  • Бейс техники (например, Bayesian линеен регресионен метод).
  • Интерес регресия се използва за ситуации, в които се считат за по-подходящо спад в интереса на грешки.
  • Най-ниската абсолютна отклонение, което е по-стабилна в присъствието на емисиите, което води до квантил регресия.
  • Непараметрични регресия, което изисква голям брой наблюдения и изчисления.
  • За дистанционно обучение показатели, които се изучават в търсенето на смислен показател разстояние в определен вход пространство.

Каква е линеен анализ

софтуер

Всички основни статистически софтуерни пакети се извършват с помощта на най-малките квадрати регресионен анализ. Обикновено линейна регресия и множествена регресионен анализ може да се използва в някои приложения, електронни таблици, както и на някои калкулатори. Въпреки че много статистически софтуерни пакети могат да изпълняват различни видове непараметричен и стабилна регресия, тези методи са по-малко стандартизирани; Различни софтуерни пакети прилагат различни методи. Специализирана регресия софтуер е разработен за използване в области като анализ на проучване и образни.