본 연구의 주요 관심사는 딸기의 당도와 과중 사이에 유의미한 상관이 존재하는가이다. 이를 위해 다음과 같은 가설을 설정하였다.
귀무가설
$H_0$: 딸기의 당도와 과중 간에는 상관이 없다(상관계수 = 0)
대립가설
$H_1$: 딸기의 당도와 과중 간에는 유의한 양(+)의 상관이 있다(상관계수 ≠ 0, 특히 본 연구에서는 양의 상관을 가정).
확률변수 $X$: 딸기의 과중 (g 단위 측정)
확률변수 $Y$: 딸기의 당도 (Brix 단위 측정)
과중과 당도 모두 연속형 확률변수이며, 이 둘 사이의 잠재적 상관관계를 파악하기 위해 Pearson 상관분석을 수행하였다.
본 연구에서는 무작위로 선정된 100개의 딸기에 대해 과중과 당도를 측정하였다. 측정방식은 다음과 같다.
과중 측정: 전자저울을 통해 각 딸기의 무게(gram 단위)를 측정함.
당도 측정: 휴대용 당도계(굴절당도계)를 사용하여 각 딸기의 당도를 측정함.
데이터는 주변 환경 변화(온도, 습도 등)를 최소화하기 위해 동일한 시간대와 동일한 장소에서 측정하였으며, 각 측정은 반복 측정을 통해 대표값을 취하였다.
총 100개의 딸기에 대해 과중(과중 열)과 당도(당도 열)를 수집하였다. 각 행은 하나의 딸기에 대응된다.
Table 1. Data
| 과중 | 당도 |
|---|---|
| 23.477654 | 11.984464 |
| 23.561780 | 11.756555 |
| 24.219264 | 12.298434 |
| 23.956901 | 12.185532 |
| 23.927044 | 12.002322 |
| 24.167261 | 11.675913 |
| 23.975257 | 12.117543 |
| 23.875119 | 12.352401 |
| 24.096041 | 11.651429 |
| 23.998601 | 12.088580 |
| 23.848615 | 12.684272 |
| 24.075743 | 12.170982 |
| 23.868979 | 12.000176 |
| 24.254491 | 11.599561 |
| 23.727020 | 12.152003 |
| 24.224991 | 12.342920 |
| 24.317190 | 12.298854 |
| 24.089727 | 12.302259 |
| 23.752103 | 11.983845 |
| 23.858291 | 12.067566 |
| 22.716392 | 11.245223 |
| 22.633502 | 11.240891 |
| 22.458927 | 11.207902 |
| 23.065475 | 11.450795 |
| 23.038966 | 11.377561 |
| 22.995760 | 11.300798 |
| 22.440756 | 11.593380 |
| 22.665328 | 11.432723 |
| 23.020929 | 11.433768 |
| 23.112095 | 11.266975 |
| 22.656817 | 11.519542 |
| 23.294296 | 11.606718 |
| 22.851577 | 11.788995 |
| 22.950737 | 11.483815 |
| 22.456223 | 11.700757 |
| 22.315478 | 11.193873 |
| 22.956911 | 11.577469 |
| 22.601784 | 11.670103 |
| 22.881271 | 11.868499 |
| 22.761595 | 11.399974 |
| 21.501315 | 10.709763 |
| 21.243480 | 10.919553 |
| 21.275626 | 10.557661 |
| 21.373443 | 10.997242 |
| 21.685143 | 10.637308 |
| 21.578411 | 10.959106 |
| 21.579023 | 10.945229 |
| 21.642908 | 10.614720 |
| 21.602002 | 10.942234 |
| 21.133722 | 10.674185 |
| 21.680464 | 10.553010 |
| 21.256418 | 10.732836 |
| 21.177809 | 10.483874 |
| 21.457995 | 10.780610 |
| 21.017263 | 11.028639 |
| 21.620883 | 11.187130 |
| 21.373690 | 10.340299 |
| 21.522017 | 10.490617 |
| 21.756899 | 10.736306 |
| 21.756747 | 11.023264 |
| 20.618732 | 9.945955 |
| 20.261126 | 10.058145 |
| 20.692055 | 9.905889 |
| 20.859352 | 9.744073 |
| 20.120983 | 10.089460 |
| 20.146729 | 10.159029 |
| 20.765715 | 10.090494 |
| 20.460829 | 10.293159 |
| 20.726271 | 10.002184 |
| 20.726369 | 9.989168 |
| 20.407348 | 10.237475 |
| 20.229023 | 10.217754 |
| 20.552695 | 10.204866 |
| 20.656186 | 9.957379 |
| 20.159894 | 10.298349 |
| 20.257409 | 10.167729 |
| 20.584918 | 10.108519 |
| 20.566055 | 9.857364 |
| 20.595051 | 10.321934 |
| 20.558494 | 10.421176 |
| 18.892416 | 9.922738 |
| 18.927040 | 9.773799 |
| 18.910693 | 9.324055 |
| 18.948171 | 9.971426 |
| 19.372785 | 9.541536 |
| 19.096166 | 9.703326 |
| 18.981050 | 9.587585 |
| 18.943279 | 9.862873 |
| 19.286198 | 9.688667 |
데이터를 시각적으로 확인하기 위해 과중(가로축)과 당도(세로축) 간 산점도를 그렸다.
전반적으로 과중이 증가함에 따라 당도가 함께 증가하는 경향을 시각적으로 확인할 수 있다.
본 연구는 딸기의 당도와 과중 간의 상관관계를 Pearson 상관분석으로 살펴본 결과, 통계적으로 유의미한 강한 양의 상관이 존재함을 확인하였다. 본 결과는 딸기의 품종 선택 및 재배 환경 설정 시 당도와 과중 간의 상호 관련성을 고려해야 함을 시사한다.
추가적으로, 품질 관리나 마케팅 전략을 수립할 때도 ‘과중’이 높으면 ‘당도’가 높을 가능성이 있음을 감안하여, 소비자 기호도에 적합한 크기와 당도를 갖춘 최적의 딸기 생산을 위한 연구로 확장될 수 있다.
당도($Y$)와 과중($X$) 사이의 상관성을 상관분석으로 검정하였다. Pearson 상관분석은 두 연속형 변수 간의 선형적 상관관계를 측정하며, 그 값은 -1과 +1 사이에 존재한다.본 논문의 가설은 다음과 같다.
귀무가설: 상관계수 = 0 (두 변수는 상관이 없다)
대립가설 $H_1$:상관계수 ≠ 0 (두 변수는 유의한 상관이 있다)
분석 결과, 표본 Pearson 상관계수와 p값은 다음과 같다.
Pearson 상관계수: 0.9550 (소수점 네째자리 반올림)
p값: 1.6521 × 10^-53
상관계수 0.955는 딸기의 과중과 당도 사이에 매우 강한 양의 상관이 있음을 의미합니다.
p값이 1.6521 × 10^-53로 유의수준(예: 0.05, 0.01 등)보다 훨씬 작습니다. 이는 귀무가설($H_0$: 상관 없음)을 기각하고, 대립가설($H_1$: 상관 있음)을 강력하게 지지함을 의미한다.
즉, 본 연구에서 관측된 딸기의 과중과 당도 간에는 통계적으로 유의한 양의 상관관계가 있음을 알 수 있습니다. 이는 딸기의 무게가 클수록 당도가 높아지는 경향이 있음을 시사한다.
본 연구는 딸기의 당도와 과중 간의 상관관계를 Pearson 상관분석으로 살펴본 결과, 통계적으로 유의미한 강한 양의 상관이 존재함을 확인하였다. 본 결과는 딸기의 품종 선택 및 재배 환경 설정 시 당도와 과중 간의 상호 관련성을 고려해야 함을 시사한다.
추가적으로, 품질 관리나 마케팅 전략을 수립할 때도 ‘과중’이 높으면 ‘당도’가 높을 가능성이 있음을 감안하여, 소비자 기호도에 적합한 크기와 당도를 갖춘 최적의 딸기 생산을 위한 연구로 확장될 수 있다.
1. Park GC, Yang YW. 2024. The product value of strawberry. DataLink Forum 2024:p1. https://doi.org/10.12972/DataLink.2024.p1
2. Park GC, Yang YW. 2024. A virtually created strawberry product value dataset for data science learning. DataLink Forum 2024:a1. https://doi.org/10.12972/DataLink.2024.a1