Линейна регресия (определение, примери) - Как да тълкувам?

Какво е линейна регресия?

Линейната регресия е основно техника за статистическо моделиране, използвана за показване на връзката между една зависима променлива и една или повече независими променливи. Това е един от най-често срещаните видове прогнозен анализ. Този тип разпределение се формира в права, поради което това се нарича линейна регресия. В тази статия ще вземем примерите за анализ на линейна регресия в Excel.

За да направим първо анализ на линейна регресия, трябва да добавим добавки на Excel, като следваме стъпките.

Кликнете върху Файл - Опции (Това ще отвори изскачащи опции на Excel за вас).

Щракнете върху Добавки - Изберете добавки на Excel от Управление на падащото меню в Excel, след което кликнете върху Старт

Това ще отвори изскачащи добавки. Изберете Analysis ToolPak, след което щракнете върху Ok.

Добавката за анализ на данни ще се появи под раздела Вмъкване.

Нека разберем по-долу Примери за линеен регресионен анализ в Excel.

Примери за линеен регресионен анализ

Пример # 1

Да предположим, че имаме месечни продажби и разходи за маркетинг за миналата година и сега трябва да предскажем бъдещи продажби въз основа на миналогодишните продажби и изразходван маркетинг.

Месец Реклама Продажби
Януари 40937 502729
Февр 42376 507553
Март 43355 516885
Април 44126 528347
Може 45060 537298
Юни 49546 544066
Юли 56105 553664
Август 59322 563201
Септември 59877 568657
Октомври 60481 569384
Ноем 62356 573764
Дек 63246 582746

Кликнете върху Анализ на данни в раздела Данни и това ще отвори изскачащ анализ за данни.

Сега изберете Регресия от списъка и щракнете върху Ok.

Ще се отвори изскачащ прозорец за регресия.

Изберете Обхват на продажбите $ C $ 1: $ C $ 13 в полето на оста Y, тъй като това е зависимата променлива и $ B $ 1: $ B $ 14 по оста X, тъй като рекламата е независимата променлива.

Поставете отметка в полето Етикети, ако сте избрали заглавки в други данни, това ще ви даде грешката.

Изберете Output range, ако искате да получите стойността за конкретния диапазон на работния лист, иначе изберете New Workheet Ply: и това ще добави нов работен лист и ще ви даде резултата.

След това поставете отметка в квадратчето Residuals и щракнете върху Ok.

Това ще добави работни листове и ще ви даде следния резултат.

Нека разберем резултата.

Обобщен изход

Множество R: Това представлява коефициент на корелация. Стойността 1 показва положителна връзка, а стойност 0 не показва връзка.

R Square: R Square представлява коефициента на определяне. Това ви казва, че процентът на точките пада върху линията на регресия. 0,49 означава, че 49% от стойностите отговарят на модела

Коригиран R квадрат : Това е коригиран R квадрат, който се изисква, когато имате повече от една X променлива.

Стандартна грешка: Това представлява оценка на стандартното отклонение на грешката. Това е точността на измерване на коефициента на регресия.

Наблюдения: Това е броят на наблюденията, които сте направили в извадка.

ANOVA - Df: Степени на свобода

SS: Сума от квадрати.

MS: имаме две MS

  • Регресия MS е Regression SS / Regression Df.
  • Остатъчна MS е средната квадратична грешка (Residual SS / Residual Df).

F: F тест за нулевата хипотеза.

Значимост F: P-стойности, свързани със значимостта

Коефициент: Коефициентът ви дава приблизителната оценка на най-малките квадрати.

T Статистика: T Статистика за нулева хипотеза спрямо алтернативната хипотеза.

P-стойност: Това е p-стойността за теста на хипотезата.

Долна 95% и горна 95%: Това са долната граница и горната граница за доверителния интервал

Остатъчни резултати: Имаме 12 наблюдения въз основа на данните. 2- ра колона представлява прогнозни продажби и 3 -та колона Остатъчни данни. Остатъците са основно разликата в прогнозираните продажби от действителната.

Пример # 2

Изберете графата с прогнозни продажби и маркетинг

Отидете до групата диаграми под раздела за вмъкване. Изберете иконата на разпръсната диаграма

Това ще вмъкне разпръснатия парцел в Excel. Вижте изображението по-долу

Щракнете с десния бутон върху която и да е точка, след което изберете Добавяне на линия на тенденция в Excel. Това ще добави линия на тенденция към вашата диаграма.

  • Можете да форматирате линията на тенденция, като щракнете с десния бутон на мишката някъде по линията на тенденция и след това изберете да форматирате линията на тенденцията.
  • Можете да направите повече подобрения в диаграмата. т.е. форматиране на линията на тенденция, оцветяване и промяна на заглавието и т.н.
  • Можете също да покажете формулата на графиката, като проверите в Показване на формулата на диаграмата и покажете R на квадрат стойността на диаграмата.

Още примери за линеен регресионен анализ:

  1. Прогноза за продаден чадър въз основа на дъжда се случи в района.
  2. Предвиждане на променлив ток на базата на температурата през лятото.
  3. По време на изпитния сезон продажбите на Stationary, продажбите на ръководства за изпити се увеличиха.
  4. Предвиждане на продажбите, когато Рекламата е извършена въз основа на сериал High TRP, където се прави реклама, Популярност на посланика на марката и Крачките на мястото на провеждане, където се публикува реклама.
  5. Продажби на къща въз основа на местността, района и цената.

Пример # 3

Да предположим, че имаме девет ученика с тяхното ниво на интелигентност и броя, които са вкарали на тест.

Студент Резултат от теста IQ
Рам 100 145
Шайам 97 140
Кул 93 130
Капу 91 125
Раджу 89 115
Вишал 86 110
Вивек 82 100
Виней 78 95
Кумар 75 90

Стъпка 1: Първо, открийте зависимите и независимите променливи. Тук тестът е зависимата променлива, а IQ е независимата променлива, тъй като тестът се променя, когато IQ получава промяна.

Стъпка 2: Отидете в раздела с данни - Щракнете върху Анализ на данни - Изберете регресия - щракнете върху Ok.

Това ще отвори прозореца за регресия за вас.

Стъпка 3. Диапазон на резултатите от теста на входа в полето за обхват на входа Y и IQ в полето за обхвата на входа X. (Проверете върху етикетите, ако имате заглавия в обхвата на данните. Изберете изходни опции, след това проверете желаните остатъци. Щракнете върху Ok

Ще получите обобщената информация, показана на изображението по-долу.

Стъпка 4: Анализ на регресията чрез обобщен изход

Обобщен изход

Множество R: Тук коефициентът на корелация е 0,99, което е много близо до 1, което означава, че линейната връзка е много положителна.

R Square: R Square стойността е 0,983, което означава, че 98,3% от стойностите отговарят на модела.

P-стойност: Тук P-стойността е 1.86881E-07, което е много по-малко от .1, което означава, че IQ има значителни прогнозни стойности.

Вижте таблицата по-долу.

Можете да видите, че почти всички точки попадат в линията или в близката линия на тренда.

Пример # 4

Трябва да предвидим продажбите на променлив ток въз основа на продажбите и температурата за различен месец.

Месец Темп Продажби
Януари 25 38893
Февр 28 42254
Март 31 42845
Април 33 47917
Може 37 51243
Юни 40 69588
Юли 38 56570
Август 37 50000

Следвайте стъпките по-долу, за да получите резултата от регресията.

Стъпка 1: Първо, открийте зависимите и независимите променливи. Тук Продажбите са зависимата променлива, а Температурата е независима променлива, тъй като Продажбите варират, докато Темп се променя.

Стъпка 2: Отидете в раздела с данни - Щракнете върху Анализ на данни - Изберете регресия - щракнете върху Ok.

Това ще отвори прозореца за регресия за вас.

Стъпка 3. Входни продажби в полето за входящ диапазон Y и Temp в полето за обхват за въвеждане X. (Проверете върху етикетите, ако имате заглавия в обхвата на данните. Изберете изходни опции, след това проверете желаните остатъци. Щракнете върху Ok

Това ще ви даде обобщена информация, както по-долу.

Стъпка 4: Анализирайте резултата.

Множество R: Тук коефициентът на корелация е 0,877, което е близо до 1, което означава, че линейната връзка е положителна.

R Square: R Square стойността е 0,770, което означава, че 77% от стойностите отговарят на модела

P-стойност: Тук P-стойността е 1.86881E-07, което е много по-малко от .1, което означава, че IQ има значителни прогнозни стойности.

Пример # 5

Сега нека направим регресионен анализ за множество независими променливи:

Трябва да предскажете продажбите на мобилен телефон, който ще стартира догодина. Имате цената и населението на страните, които влияят върху продажбите на мобилни телефони.

Мобилна версия Продажби Количество Население
НАС 63860 858 823
Великобритания 61841 877 660
KZ 60876 873 631
CH 58188 726 842
HN 52728 864 573
AU 52388 680 809
NZ 51075 728 661
RU 49019 689 778

Следвайте стъпките по-долу, за да получите резултата от регресията.

Стъпка 1. Първо, открийте зависимите и независимите променливи. Тук продажбите са зависими от променливата и количеството и популацията. И двете са независими променливи, тъй като продажбите варират в зависимост от количеството и населението на страната.

Стъпка 2. Отидете в раздела с данни - Щракнете върху Анализ на данни - Изберете регресия - щракнете върху Ok.

Това ще отвори прозореца за регресия за вас.

Стъпка 3. Въведете продажбите в полето за въвеждане на диапазон Y и изберете количество и популация в полето за въвеждане на диапазон X. (Проверете върху етикетите, ако имате заглавия в обхвата на данните. Изберете изходни опции, след това проверете желаните остатъци. Щракнете върху Ok

Сега изпълнете регресията, като използвате анализ на данните в раздела „Данни“. Това ще ви даде следния резултат.

Обобщен изход

Множество R: Тук коефициентът на корелация е 0.93, което е много близо до 1, което означава, че линейната връзка е много положителна.

R Square: R Square стойността е 0,866, което означава, че 86,7% от стойностите отговарят на модела.

Значимост F: Значимостта F е по-малка от .1, което означава, че уравнението на регресията има значителна прогнозна стойност.

P-стойност : Ако погледнете P-стойност за количество и население, можете да видите, че стойностите са по-малки от .1, което означава, че количеството и популацията имат значителна прогнозна стойност. По-малкото P стойности означават, че дадена променлива има по-значими прогнозни стойности.

Въпреки това, както количеството, така и популацията имат значителна прогнозна стойност, но ако погледнете P-стойността за количество и популация, тогава можете да видите, че количеството има по-малка P-стойност в превъзходство от населението. Това означава, че количеството има по-значителна прогнозна стойност от населението.

Неща за запомняне

  • Винаги проверявайте зависимите и независимите променливи, когато избирате каквито и да е данни.
  • Линейният регресионен анализ разглежда връзката между средната стойност на променливите.
  • Това единствено моделира връзката между променливите, които са линейни
  • Понякога това не е най-подходящото за реалния свят проблем. Например: (Възраст и заплати). През повечето време заплатите се увеличават с увеличаване на възрастта. След пенсионирането обаче възрастта се увеличава, но заплатите намаляват.

Интересни статии...