Линейна регресия (определение, примери) - Как да тълкувам?

Съдържание

Какво е линейна регресия?

Какво е линейна регресия?

Линейната регресия е основно техника за статистическо моделиране, използвана за показване на връзката между една зависима променлива и една или повече независими променливи. Това е един от най-често срещаните видове прогнозен анализ. Този тип разпределение се формира в права, поради което това се нарича линейна регресия. В тази статия ще вземем примерите за анализ на линейна регресия в Excel.

За да направим първо анализ на линейна регресия, трябва да добавим добавки на Excel, като следваме стъпките.

Кликнете върху Файл - Опции (Това ще отвори изскачащи опции на Excel за вас).

Щракнете върху Добавки - Изберете добавки на Excel от Управление на падащото меню в Excel, след което кликнете върху Старт

Това ще отвори изскачащи добавки. Изберете Analysis ToolPak, след което щракнете върху Ok.

Добавката за анализ на данни ще се появи под раздела Вмъкване.

Нека разберем по-долу Примери за линеен регресионен анализ в Excel.

Примери за линеен регресионен анализ

Пример # 1

Да предположим, че имаме месечни продажби и разходи за маркетинг за миналата година и сега трябва да предскажем бъдещи продажби въз основа на миналогодишните продажби и изразходван маркетинг.

Месец	Реклама	Продажби
Януари	40937	502729
Февр	42376	507553
Март	43355	516885
Април	44126	528347
Може	45060	537298
Юни	49546	544066
Юли	56105	553664
Август	59322	563201
Септември	59877	568657
Октомври	60481	569384
Ноем	62356	573764
Дек	63246	582746

Кликнете върху Анализ на данни в раздела Данни и това ще отвори изскачащ анализ за данни.

Сега изберете Регресия от списъка и щракнете върху Ok.

Ще се отвори изскачащ прозорец за регресия.

Изберете Обхват на продажбите $ C $ 1: $ C $ 13 в полето на оста Y, тъй като това е зависимата променлива и $ B $ 1: $ B $ 14 по оста X, тъй като рекламата е независимата променлива.

Поставете отметка в полето Етикети, ако сте избрали заглавки в други данни, това ще ви даде грешката.

Изберете Output range, ако искате да получите стойността за конкретния диапазон на работния лист, иначе изберете New Workheet Ply: и това ще добави нов работен лист и ще ви даде резултата.

След това поставете отметка в квадратчето Residuals и щракнете върху Ok.

Това ще добави работни листове и ще ви даде следния резултат.

Нека разберем резултата.

Обобщен изход

Множество R: Това представлява коефициент на корелация. Стойността 1 показва положителна връзка, а стойност 0 не показва връзка.

R Square: R Square представлява коефициента на определяне. Това ви казва, че процентът на точките пада върху линията на регресия. 0,49 означава, че 49% от стойностите отговарят на модела

Коригиран R квадрат : Това е коригиран R квадрат, който се изисква, когато имате повече от една X променлива.

Стандартна грешка: Това представлява оценка на стандартното отклонение на грешката. Това е точността на измерване на коефициента на регресия.

Наблюдения: Това е броят на наблюденията, които сте направили в извадка.

ANOVA - Df: Степени на свобода

SS: Сума от квадрати.

MS: имаме две MS

Регресия MS е Regression SS / Regression Df.
Остатъчна MS е средната квадратична грешка (Residual SS / Residual Df).

F: F тест за нулевата хипотеза.

Значимост F: P-стойности, свързани със значимостта

Коефициент: Коефициентът ви дава приблизителната оценка на най-малките квадрати.

T Статистика: T Статистика за нулева хипотеза спрямо алтернативната хипотеза.

P-стойност: Това е p-стойността за теста на хипотезата.

Долна 95% и горна 95%: Това са долната граница и горната граница за доверителния интервал

Остатъчни резултати: Имаме 12 наблюдения въз основа на данните. 2- ^ра колона представлява прогнозни продажби и 3 ^-та колона Остатъчни данни. Остатъците са основно разликата в прогнозираните продажби от действителната.

Пример # 2

Изберете графата с прогнозни продажби и маркетинг

Отидете до групата диаграми под раздела за вмъкване. Изберете иконата на разпръсната диаграма

Това ще вмъкне разпръснатия парцел в Excel. Вижте изображението по-долу

Щракнете с десния бутон върху която и да е точка, след което изберете Добавяне на линия на тенденция в Excel. Това ще добави линия на тенденция към вашата диаграма.

Можете да форматирате линията на тенденция, като щракнете с десния бутон на мишката някъде по линията на тенденция и след това изберете да форматирате линията на тенденцията.
Можете да направите повече подобрения в диаграмата. т.е. форматиране на линията на тенденция, оцветяване и промяна на заглавието и т.н.
Можете също да покажете формулата на графиката, като проверите в Показване на формулата на диаграмата и покажете R на квадрат стойността на диаграмата.

Още примери за линеен регресионен анализ:

Прогноза за продаден чадър въз основа на дъжда се случи в района.
Предвиждане на променлив ток на базата на температурата през лятото.
По време на изпитния сезон продажбите на Stationary, продажбите на ръководства за изпити се увеличиха.
Предвиждане на продажбите, когато Рекламата е извършена въз основа на сериал High TRP, където се прави реклама, Популярност на посланика на марката и Крачките на мястото на провеждане, където се публикува реклама.
Продажби на къща въз основа на местността, района и цената.

Пример # 3

Да предположим, че имаме девет ученика с тяхното ниво на интелигентност и броя, които са вкарали на тест.

Студент	Резултат от теста	IQ
Рам	100	145
Шайам	97	140
Кул	93	130
Капу	91	125
Раджу	89	115
Вишал	86	110
Вивек	82	100
Виней	78	95
Кумар	75	90

Стъпка 1: Първо, открийте зависимите и независимите променливи. Тук тестът е зависимата променлива, а IQ е независимата променлива, тъй като тестът се променя, когато IQ получава промяна.

Стъпка 2: Отидете в раздела с данни - Щракнете върху Анализ на данни - Изберете регресия - щракнете върху Ok.

Това ще отвори прозореца за регресия за вас.

Стъпка 3. Диапазон на резултатите от теста на входа в полето за обхват на входа Y и IQ в полето за обхвата на входа X. (Проверете върху етикетите, ако имате заглавия в обхвата на данните. Изберете изходни опции, след това проверете желаните остатъци. Щракнете върху Ok

Ще получите обобщената информация, показана на изображението по-долу.

Стъпка 4: Анализ на регресията чрез обобщен изход

Обобщен изход

Множество R: Тук коефициентът на корелация е 0,99, което е много близо до 1, което означава, че линейната връзка е много положителна.

R Square: R Square стойността е 0,983, което означава, че 98,3% от стойностите отговарят на модела.

P-стойност: Тук P-стойността е 1.86881E-07, което е много по-малко от .1, което означава, че IQ има значителни прогнозни стойности.

Вижте таблицата по-долу.

Можете да видите, че почти всички точки попадат в линията или в близката линия на тренда.

Пример # 4

Трябва да предвидим продажбите на променлив ток въз основа на продажбите и температурата за различен месец.

Месец	Темп	Продажби
Януари	25	38893
Февр	28	42254
Март	31	42845
Април	33	47917
Може	37	51243
Юни	40	69588
Юли	38	56570
Август	37	50000

Следвайте стъпките по-долу, за да получите резултата от регресията.

Стъпка 1: Първо, открийте зависимите и независимите променливи. Тук Продажбите са зависимата променлива, а Температурата е независима променлива, тъй като Продажбите варират, докато Темп се променя.

Стъпка 2: Отидете в раздела с данни - Щракнете върху Анализ на данни - Изберете регресия - щракнете върху Ok.

Това ще отвори прозореца за регресия за вас.

Стъпка 3. Входни продажби в полето за входящ диапазон Y и Temp в полето за обхват за въвеждане X. (Проверете върху етикетите, ако имате заглавия в обхвата на данните. Изберете изходни опции, след това проверете желаните остатъци. Щракнете върху Ok

Това ще ви даде обобщена информация, както по-долу.

Стъпка 4: Анализирайте резултата.

Множество R: Тук коефициентът на корелация е 0,877, което е близо до 1, което означава, че линейната връзка е положителна.

R Square: R Square стойността е 0,770, което означава, че 77% от стойностите отговарят на модела

Пример # 5

Сега нека направим регресионен анализ за множество независими променливи:

Трябва да предскажете продажбите на мобилен телефон, който ще стартира догодина. Имате цената и населението на страните, които влияят върху продажбите на мобилни телефони.

Мобилна версия	Продажби	Количество	Население
НАС	63860	858	823
Великобритания	61841	877	660
KZ	60876	873	631
CH	58188	726	842
HN	52728	864	573
AU	52388	680	809
NZ	51075	728	661
RU	49019	689	778

Следвайте стъпките по-долу, за да получите резултата от регресията.

Стъпка 1. Първо, открийте зависимите и независимите променливи. Тук продажбите са зависими от променливата и количеството и популацията. И двете са независими променливи, тъй като продажбите варират в зависимост от количеството и населението на страната.

Стъпка 2. Отидете в раздела с данни - Щракнете върху Анализ на данни - Изберете регресия - щракнете върху Ok.

Това ще отвори прозореца за регресия за вас.

Стъпка 3. Въведете продажбите в полето за въвеждане на диапазон Y и изберете количество и популация в полето за въвеждане на диапазон X. (Проверете върху етикетите, ако имате заглавия в обхвата на данните. Изберете изходни опции, след това проверете желаните остатъци. Щракнете върху Ok

Сега изпълнете регресията, като използвате анализ на данните в раздела „Данни“. Това ще ви даде следния резултат.

Обобщен изход

Множество R: Тук коефициентът на корелация е 0.93, което е много близо до 1, което означава, че линейната връзка е много положителна.

R Square: R Square стойността е 0,866, което означава, че 86,7% от стойностите отговарят на модела.

Значимост F: Значимостта F е по-малка от .1, което означава, че уравнението на регресията има значителна прогнозна стойност.

P-стойност : Ако погледнете P-стойност за количество и население, можете да видите, че стойностите са по-малки от .1, което означава, че количеството и популацията имат значителна прогнозна стойност. По-малкото P стойности означават, че дадена променлива има по-значими прогнозни стойности.

Въпреки това, както количеството, така и популацията имат значителна прогнозна стойност, но ако погледнете P-стойността за количество и популация, тогава можете да видите, че количеството има по-малка P-стойност в превъзходство от населението. Това означава, че количеството има по-значителна прогнозна стойност от населението.

Неща за запомняне

Винаги проверявайте зависимите и независимите променливи, когато избирате каквито и да е данни.
Линейният регресионен анализ разглежда връзката между средната стойност на променливите.
Това единствено моделира връзката между променливите, които са линейни
Понякога това не е най-подходящото за реалния свят проблем. Например: (Възраст и заплати). През повечето време заплатите се увеличават с увеличаване на възрастта. След пенсионирането обаче възрастта се увеличава, но заплатите намаляват.