프로테오믹스 데이터에는 결측값이 존재하는 경우가 많으며, 특히 라벨 프리 정량 프로테오믹스(DDA 또는 DIA)의 경우 결측값이 상당히 많습니다. 먼저 누락된 값의 생성 메커니즘에 대해 이야기해 보겠습니다.
MCAR(Missing Completely At Random)은 누락된 데이터가 그 자체나 다른 변수에 의존하지 않고 완전히 무작위라는 것을 의미합니다(예: 질량 분석기 교란) ). MCAR은 완전히 무작위이므로 전체 데이터에 미치는 영향은 우선순위가 없으며 균일한 분포를 나타냅니다.
MAR(Missing At Random)은 누락된 데이터가 완전히 무작위가 아니라는 것을 의미합니다. 누락된 데이터는 관찰된 다른 변수에 따라 달라집니다. 예를 들어, 시간 변화도가 긴 컬렉션에는 누락된 값이 있을 가능성이 더 높습니다. 이때 시간 변수를 제어하면 누락된 데이터가 완전히 무작위가 됩니다. 따라서 어떤 사람들은 MCAR과 MAR 사이에 차이가 없거나 MCAR이 MAR의 특별한 경우라고 생각합니다(doi: 10.1186/1471-2105-13-S16-S5)
비임의로 누락됨 (MNAR, Missing Not At Random) 이는 누락된 데이터가 관찰된 변수 자체에 따라 달라짐을 의미합니다. 예를 들어, 질량 분석법 검출 중에 특정 펩타이드의 함량이 기기의 검출 한계보다 낮으면 이러한 펩타이드의 정량적 정보가 손실될 가능성이 높습니다.
실제로 누락된 값의 정확한 원인을 파악하기는 어렵습니다. 일반적으로 누락된 값이 MNAR 메커니즘 유형의 누락된 값임을 나타내는 충분한 증거가 없는 한 누락된 값은 MCAR 또는 MAR 메커니즘 유형에 속하는 것으로 기본 설정됩니다.
DDA 라벨이 없는 경우 일반적으로 누락된 값이 10~50개로 더 많습니다. 필터링 기준은 가변적입니다. 예를 들어, 단백질에 중복 항목이 3개 있고 2개에 값이 있는 경우 1개에 값이 있으면 필터링하는 것이 좋습니다.
평균, 중앙값 또는 최소값으로 채우는 것은 권장되지 않습니다.
일반적으로 사용되는 방법: KNN, Sequential KNN, MI, RandomForest, Impseq 등 모든 방법은 기존 데이터를 기반으로 채워집니다. 그 중 KNN, s-KNN 등은 국소 유전자 발현 가정에 의존하는 반면, Impseq은 전역 유전자 발현 가정에 의존합니다. NAguideR은 23가지 결측값 채우기 방법을 비교 평가하고 그 중 가장 좋은 방법을 선택하는 데 도움을 줄 수 있습니다.