Формула Outlier - Поетапно изчисляване на отклонения (с пример)

Формулата Outlier предоставя графичен инструмент за изчисляване на данните, които се намират извън дадения набор от разпределение, което може да бъде вътрешна или външна страна в зависимост от променливите.

Какво представлява Outlier Formula?

Отклонение е точката с данни на дадената проба или дадено наблюдение или в разпределение, което трябва да е извън общия модел. Често използвано правило, което казва, че дадена точка ще се счита за отклонение, ако има повече от 1,5 IQR под първия квартил или над третия квартил.

Казано по различен начин, ниските отклонения трябва да лежат под Q1-1,5 IQR, а високите отклонения да са Q3 + 1,5IQR

Трябва да се изчисли медиана, квартили, включително IQR, Q1 и Q3.

Формулата за отклонение е представена по следния начин,

Формулата за Q1 = ¼ (n + 1) th член  Формулата за Q3 = ¾ (n + 1) th член  Формулата за Q2 = Q3 - Q1

Стъпка по стъпка Изчисляване на Outlier

Следва стъпките по-долу, за да се изчисли Outlier.

  • Стъпка 1: Първо изчислете квартилите, т.е. Q1, Q2 и междуквартилите
  • Стъпка 2: Сега изчислете стойността Q2 * 1.5
  • Стъпка 3: Сега извадете стойността Q1 от стойността, изчислена в стъпка 2
  • Стъпка 4: Тук добавете Q3 със стойността, изчислена в стъпка 2
  • Стъпка 5: Създайте диапазона на стойностите, изчислени в стъпки 3 и 4
  • Стъпка 6: Подредете данните във възходящ ред
  • Стъпка 7: Проверете дали има някакви стойности, които са под или по-високи от диапазона, създаден в стъпка 5.

Пример

Помислете за набор от данни със следните числа: 10, 2, 4, 7, 8, 5, 11, 3, 12. От вас се изисква да изчислите всички отклонения.

Решение:

Първо, трябва да подредим данните във възходящ ред, за да намерим медианата, която ще бъде Q2 за нас.

2, 3, 4, 5, 7, 8, 10, 11, 12

Сега, тъй като броят на наблюденията е нечетен, което е 9, медианата ще лежи на 5 -та позиция, която е 7, и същото ще бъде Q2 за този пример.

Следователно изчислението на Q1 е както следва -

Q1 = ¼ (9 + 1)

= ¼ (10)

Q1 ще бъде -

Q1 = 2,5 член

Това означава, че Q1 е средната стойност на второто и третото положение на наблюденията, което тук е 3 и 4, а средната стойност на същото е (3 + 4) / 2 = 3,5

Следователно изчисляването на Q3 е както следва -

Q3 = ¾ (9 + 1)

= ¾ (10)

Q3 ще бъде -

Q3 = 7,5 член

Това означава, че Q3 е средната стойност на 7 -ма и 8 -ма позиция на наблюденията, което тук е 10 и 11, а средната стойност на същото е (10 + 11) / 2 = 10,5

Сега ниските отклонения трябва да лежат под Q1-1.5IQR, а високите отклонения трябва да са Q3 + 1.5IQR

И така, стойностите са 3,5 - (1,5 * 7) = -7 и по-високият диапазон е 10,5 + (1,5 * 7) = 110,25.

Тъй като няма наблюдения, които са над или по-ниски от 110,25 и -7, нямаме никакви отклонения в тази извадка.

Пример за извънредна формула в Excel (с шаблон на Excel)

Класовете за креативен коучинг обмислят възнаграждаване на ученици, които са в топ 25%. Те обаче искат да избегнат всякакви отклонения. Данните са за 25-те студенти. Използвайте уравнението Outlier, за да определите дали има отклонение?

Решение:

По-долу са дадени данни за изчисляване на отклонението.

Броят на наблюденията тук е 25 и първата ни стъпка ще бъде преобразуването на горните сурови данни във възходящ ред.

Медианата ще бъде -

Средната стойност = ½ (n + 1)

= ½ = ½ (26)

= 13 срок

Q2 или медианата е 68,00

Което е 50% от населението.

Q1 ще бъде -

Q1 = ¼ (n + 1) th член

= ¼ (25 + 1)

= ¼ (26)

= 6,5 член, което е еквивалентно на 7 -ми член

Q1 е 56,00, което е най-ниските 25%

Q3 ще бъде -

И накрая, Q3 = ¾ (n + 1) th член

= ¾ (26)

= 19.50 срок

Тук трябва да се вземе средната стойност, която е от 19 -ия и 20 -ия член, които са 77 и 77 и средната стойност за същото е (77 + 77) / 2 = 77,00

Q3 е 77, което е най-добрите 25%

Нисък обхват

Сега ниските отклонения трябва да лежат под Q1-1.5IQR, а високите отклонения трябва да са Q3 + 1.5IQR

Голям обхват -

И така, стойностите са 56 - (1,5 * 68) = -46 и по-високият диапазон е 77 + (1,5 * 68) = 179.

Няма отклонения.

Уместност и употреба

Формулата за отклонения е много важно да се знае, тъй като може да има данни, които биха се изкривили от такава стойност. Вземете пример за наблюдения 2, 4, 6, 101 и сега, ако някой вземе средна стойност от тези стойности, това ще бъде 28,25, но 75% от наблюденията са под 7 и следователно би било неправилно решение по отношение на наблюденията на тази проба.

Тук може да се забележи, че 101 очевидно очертава очертанията и ако това се премахне, тогава средната стойност ще бъде 4, което казва за стойностите или наблюденията, че те се намират в рамките на 4. Следователно е много важно да се проведе изчисление, за да се избегне всяка злоупотреба с водеща информация за данните. Те се използват широко от статистиците по целия свят, когато провеждат някакви изследвания.

Интересни статии...