정규화는 샘플 간의 비교를 가능하게 하고 체계적인 오류를 수정하는 데 사용됩니다. 예를 들어, 샘플 A의 로딩량은 샘플 B의 2배입니다. 결국 샘플 A의 모든 단백질이 샘플 B의 2배라고 결론지어집니다. 이는 명백히 잘못된 것입니다. 이러한 현상은 유전자 시퀀싱에도 존재하며, edgeR과 같이 일반적으로 사용되는 R 패키지에도 서로 다른 정규화 방법이 있습니다.
가장 간단하고 조잡한 방법은 대부분의 단백질은 변하지 않았고 소수만이 변했다고 가정하는 것입니다. 각 샘플을 모든 단백질의 양의 합으로 나누면 오류가 발생할 수 있습니다. 수정. 그러나 분명히 단점이 있습니다. 일부 단백질이 극도로 풍부하고 그 존재량의 합이 스스로 변경되면 올바르게 교정할 수 없습니다. 다음과 같습니다
따라서 존재비의 합을 정규화로 사용하는 것은 바람직하지 않습니다. 따라서 모집단을 대표하기 위해 표본의 일부를 취하여 문제를 해결하는 다른 방법도 있습니다. 예를 들어 중앙값을 취하고, 분기와 3분기 사이의 표본을 추출하여 극단값을 제거하는 등의 작업을 수행합니다.
다음 기사는 Nature에서 발췌한 것입니다. 단백질유전체학은 체세포 돌연변이를 유방암의 신호와 연결합니다.
먼저 저자는 샘플을 필터링했습니다. 참조는 혼합 샘플입니다. TMT와 iTRAQ 마커는 모두 제한된 샘플에만 라벨을 붙일 수 있고, 서로 다른 배치 간 비교를 위해서는 참조로 혼합 샘플이 필요하기 때문입니다. 아래 그림에서 참조할 각 샘플의 비율에 대한 로그를 살펴보겠습니다. 대부분의 결과는 0(1회)을 중심으로 하는 가우스(정규) 분포를 포함하여 예상과 일치하는 단봉 분포(오른쪽)이며, 일부 샘플은 다음과 같습니다. 분명히 이중 분포입니다(왼쪽).
저자는 클러스터링을 위해 R 패키지 mclust 이중 가우스 혼합 모델을 사용했으며 평균이 더 작은 77개의 샘플이 QC를 통과했습니다.
실제로 실용적인 것은 z-점수 방법의 변형인 (x-평균)/표준 편차입니다. 차이점은 여기서는 전체 표본의 표준편차를 사용하지 않는다는 점입니다.
먼저, 샘플 내 단백질 중 일부만 변하고, 다른 부분은 변하지 않았다고 가정해 보겠습니다. 이중 피크가 나타나는 이유는 오염 등이 아니며, 올라가지 않은 단백질도 마찬가지입니다. 또는 하향 조정된 경우 표준 편차가 더 작습니다.
위에서 언급한 주입 샘플과 시스템 오류를 정규화하기 위해 mixtools 패키지를 사용하여 다음과 같은 방법을 채택합니다.
단봉 모델로 평균 추정
쌍봉 모델로 2개의 표준 편차 추정
가장 작은 표준 편차를 사용하여 표준화
수정 앞
오류가 있으면 수정해주세요
다른 방법에 대한 참고 자료 정량적 라벨 프리 프로테오믹스의 정규화 방법에 대한 체계적인 평가