SNP a centyMorgany na różnych pozycjach w chromosomie i na różnych chromosomach

SNP pile-up regions – fałszywe podobieństwa DNA

Przydatność badań genetycznych w genealogii polega na poszukiwaniu podobieństw w łańcuchach DNA między osobami w celu sprawdzenia, czy są ze sobą spokrewnione (wyznaczanie pochodzenia etnicznego w naszej części Europy raczej nie jest przydatne). Część z tych podobieństw nas zaskakuje: mimo wielopokoleniowych wywodów u obu sprawdzanych osób, nie można znaleźć wspólnych przodków. Przyczyn takich fałszywych dopasowań (ang. false positive matches) jest wiele. W tym artykule chciałbym się skupić na dopasowaniach wynikających z tzw. pile-up regions. Określenie to jest potocznym terminem określającym dłuższe dopasowanie na konkretnym chromosomie, w którym badania genetyczne populacji wykazały, że wiele osób – w nienormalnie dużym segmencie populacji – ma taki sam kod DNA (dokładnie to SNP). W nauce używa się terminu Excess IBD sharing, czyli nadmierne współdzielenie dopasowań ze względu na pochodzenie (IBD to Identical By Descent).

Uwaga. W artykule będę zamiennie stosował terminologię angielską i próby jej tłumaczenia na język polski. Terminologia polska chyba nie jest jeszcze w pełni ugruntowana.

Wśród swoich dopasowań DNA czasami ze zdumieniem odkrywamy osoby ze stosunkowo dużym procentem podobieństwa, ale mimo daleko posuniętej papierowej genealogii, sprawdzając zapisane online drzewa genealogiczne, nie możemy znaleźć podobieństw. Zaczynamy podejrzewać jakąś zdradę małżeńską czy gwałty dokonane przechodzącego wojska. Po angielsku używa się skrótu NPE, który rozwija się jako „Non-Paternal Event”, „Non-Parental Event” lub „Not Parent Expected” co oznacza rodzica nie takiego, jaki był oczekiwany.

Przyczyna może być inna. W genealogicznych badaniach DNA wykorzystuje się zaledwie część naszego łańcucha, który liczy 3,079 miliardów par zasad (zasad azotowych nukleotydów — organiczne związki chemiczne). Ludzie między sobą różnią się około 0,1 % parami zasad (przy okazji: szympansy różnią się od nas 4%, koty 10%, a banany 40% ogólnej długości łąńcucha DNA).

SNP i jego rola w genealogii genetycznej

To, co nas interesuje w genealogii genetycznej to SNP (Single Nucleotide Polymorphism) – polimorfizm pojedynczego nukleotydu (polski skrót PPN), czyli że w danym miejscu łańcucha DNA znajduje się inny nukleotyd. Z badań Genomu ludzkiego wynika, że u nas taka różnica może występować co jakieś 100-300 nukleotydów. W projekcie Human Genome Project zakończonym w 2003 roku udało się zidentyfikować 99% ludzkiej części DNA z dokładnością 99.99% oraz w których miejscach u ludzi występują te różnice kodujące różnice pomiędzy nami. Takich miejsc w łańcuchu DNA znaleziono 3,7 miliona.

W stosunku do części z nich udało się uzyskać informację, jak te wymiany nukleotydów wpływają na nas, ale w większości jest to cały czas przedmiotem badań naukowych. Czasami jedna zmiana wywołuje różnicę (zmianę wyglądu, chorobę genetyczną, itd.), jednak w większości przypadków zmianie muszą ulec całe sekwencje SNP.

Nas interesują braki zmian — gdzie całe łańcuch DNA, które zostały przekazane obu badanym osobom przez ich wspólnego przodka — nie zostało wymienione w kolejnych pokoleniach. Jeżeli w danym miejscu mamy takie same nukleotydy, to oznacza, że się tam nie różnimy. Jeżeli tych braków różnic jest dużo, to jest szansa, że jesteśmy spokrewnieni. Jednak brak jednej zmiany to mało, w genealogii genetycznej nie przyglądamy się poszczególnym SNP, a całym odcinkom. Dopiero następujących po sobie wiele miejsc, w których by miały wystąpić zmiany, a nie wystąpiły, może świadczyć o pokrewieństwie. Zależnie od badania przyjmuje się, że użyteczny odcinek wynosi 6-8 centyMorganów.

Co to centyMorgan (cM)?

Sama definicja tego terminu nic mi nie mówi: 1 centyMorgan to taka odległość pomiędzy dwoma loci, że szansa na ich rozdzielenie w procesie rekombinacji genetycznej w ciągu jednego pokolenia wynosi 1% (Wikipedia). Z całego tego zdania rozumiem, że nie jest to jednostka odległości, do jakiej jesteśmy przyzwyczajeni, a raczej jednostka prawdopodobieństwa. W jednym z artykułów wyczytałem, że 10 centyMorganów to około 10 do 20 milionów par zasad. Na podstawie moich podobieństw na MyHerytage wyszło mi od około 200 – 600 SNP.

SNP a centyMorgany na różnych pozycjach w chromosomie i na różnych chromosomach

Wśród swoich podobieństw wybrałem kilka, które mają ze mną wspólne odcinki 8 cM w różnych miejscach na tych samych chromosomach oraz na innych chromosomach. Jak widać, liczba SNP za każdym razem jest różna.

Trzeba po prostu przyjąć na wiarę, że cM jest to jednostka, która wskazuje na możliwe pokrewieństwo z inną osobą (odległość genetyczna).

Jednostkami służącymi do dokładnego określenia miejsca na chromosomie są Rsid i pozycja w Genomie (fizyczna odległość).

Rsid to numer odnośnika do bazy SNP (dbSNP) prowadzonej przez National Center for Biotechnology Information (Narodowego Centrum Informacji Biotechnologii). W bazie umieszczane są wszelkie informacje o odkrytych SNP. Każdy z nich jest ponumerowany, opisany i umieszczany w odpowiedniej grupie (cluster). Rozwinięcie skrótu po angielsku: Reference SNP cluster ID.

Pozycja w genomie w przypadku MyHeritage oznacza numer początkowy i końcowy kolejnych pary zasad. Pary zasad są liczone od końca od końca chromosomu. Używa się jednostki megabase i zapisuje 1 Mb = 1,000,000 bases (par zasad) = 1 Megabase.  Jest to więc najbardziej naturalna dla nas miara odległości.

W świecie naukowym funkcjonują różne inne sposoby oznaczania pozycji w genomie, ale poznanie ich jest potrzebne chyba dopiero przy rozgryzaniu prac naukowych z genetyki.

Matche czyli podobieństwa łańcuchów DNA

Firmy robiące badania genetyczne na potrzeby genealogiczne badają zaledwie część tych miejsc w łańcuchu. Najwięcej na potrzeby autosomalnego badania przez pewien czas sprawdzał test dla 23andMe, prawie milion SNP. Obecnie firmy wykonujące te badania sprawdzają 600-700 tys. SNP. Ograniczona liczba wynika, to z tego, że nie wszystkie kombinacje zmian mają sens (nie powstanie prawidłowo działający organizm), część jest mało zmienna, a jeszcze inne występują zawsze razem. Przykładowo większość firm badających autosomalne DNA stara się omijać znane geny odpowiedzialne za syntezę protein (bo za bardzo nie mogą się zmienić).

Jednak firmy genealogiczne nie bywają na bieżąco. Nie wiem, jak to wygląda obecnie, ale w 2018 roku do badań autosomalnych DNA korzystano z wzorca genomu w wersji 37, która była rekomendowana przez Genome Reference Consortium w latach 2009-2013 (w tym czasie zrobiono 13 poprawek — patches). Obecnie jest rekomendowana do użycia wersja 38 z 13 poprawką wprowadzoną 28 lutego 2019 roku.

Trzeba koniecznie zauważyć, że badane są różne SNP w zależności od firmy i wersji badania. Przykładowo wspólna część badanych SNP w MyHeritage v2 i Ancestry v2 wynosi poniżej 200 tys mimo, że obie firmy badają po 600 tys SNP. Na stronie International Society of Genetic Genealogy Wiki znajdują się tablice pokrycia dla badań autosomalnych DNA.

Tablica pokrycia SNP różnych badań autosomalnego DNA. Źródło International Society of Genetic Genealogy Wiki

Nic więc dziwnego, że badania DNA wykonane przez różne firmy dla jednej osoby dają bardzo różne matche. Poniżej wycinki dwu tabelek z GEDmatch. Pierwsza część dotyczy mojej próbki zbadanej przez MyHeritage. Na pierwszym miejscu mój wynik badania z Ancestry, na trzecim czyjś wynik z badania 23andMe (oznaczony 2 gwiazdkami). Wyniku tego nie ma w porównaniu mojej próbki Ancestry. Natomiast w pierwszym porównaniu brakuje całkiem dużego (114 cM) podobieństwa pochodzącego z Ancestry (oznaczone jedną gwiazdką). Generalnie mówiąc badanie MyHeritage gorzej wychwytuje podobieństwa z FTDNA, ale lepiej 23andMe.

Wycinki z dwu porównań mojego DNA według badań MyHeritage i Ancestry. Widać, że w drugim przypadku nie jest pokazywany match oznaczony dwiema gwiazdkami, a w pierwszym jest zgubione całkiem duże podobieństwo (114 cM) z Ancestry. Takich różnic jest bardzo, bardzo dużo.

Podobną analizę można przeprowadzić na MyHeritage. Można mieć wgrane wyniki zarówno jak z MyHeritage jak i z innych firm. Niestety, nie pokazują się wyniki porównania między badaniem MyHeritage i Ancestry. Nie wiadomo też jaka firma wykonywała badania. Trzeba pamiętać, że nawet porównanie pomiędzy wynikami badań tych samych firm nie jest w 100% dokładne.

Dwa porównania łańcuchów DNA na MyHeritage. Babki z matką i wnukiem oraz córki z jej matka i synem. Widać, że dokładność pomiarów nie jest 100% (dziedziczymy po 50% materiału genetycznego po rodzicach)

Również matche zależą od tego, którą ze swoich próbek użyję do porównań z bazą MyHeritage. Różnica jest nie tylko w centyMorganach, ale wręcz niektóre osoby nie kwalifikują się do pokazania. Brakuje niektórych podobieństw zarówno gdy używam próbki z Anacestry jak i MyHeritage.

Match widoczny w porównaniach z próbką Ancestry, w zestawieniu podobieństw z próbką MyHeritage brak
Matche widoczne w porównaniach z próbką MyHeritage, w zestawieniu podobieństw z próbkami Ancestry brak

Trochę więcej przykładów można znaleźć w porównaniu Ancestry DNA do MyHeritage DNA.

Obszary kumulacji zgodnych SNP czyli DNA pile-up regions

Pile-up regions to są obszary, w których kod DNA był stały w okresie wielu pokoleń, nieproporcjonalnie niezmienny w stosunku do reszty SNP. Geny znajdujące się w tych obszarach często odpowiadają za jakąś zmianę ewolucyjną, która dała przewagę potomstwu. Może przykładem jest możliwość trawienia laktozy, która występuje niemal wyłącznie wśród Europejczyków i ich potomków (poruszone np. w The Origins of Lactase Persistence in Europe).

Pile-up region może być również wynikiem endogamii występującej w jakieś grupie wiele pokoleń temu. Jako przykład podaje się pochodzenie przodka z terenów Finlandii.

Obszary kumulacji zgodnych SNP mogą być wspólne dla całej ludzkości charakterystyczne oraz dla mniejszych grup. Te wspólne dla wszystkich zostały zebrane na przykład na stronie Genealogy Junkie. Widać, że występują na chromosomie 1, 2, 8, 9, 10, 15, 16, 17, 21 i 22. Podano tam ich pozycja w Genomie w wersji 36 i 37. Długość niektórych z nich przekracza 6 centyMorganów, więc będą pokazywane przez programy genealogiczne.

Obszary kumulacji zgodnych SNP dla całej populacji

Pile-up region może być też dla mniejszej grupy osób. Na blogu Khazaria.com zostały przedstawione również obszary charakterystyczne dla autora link. Z kolei na stronie Cruwys news przedstawiono bardzo ładne wizualizacje co może być obszarem kumulacji zgodnych SNP. W komentarzach znajduje się również sugestia, że dla części osób Pile-up region znajduje się na chromosomie 7.

Jeżeli dobrze zrozumiałem z artykułu The Geography of Recent Genetic Ancestry across Europe W przypadku bloków długości 4 cM wspólny przodek mógł być 500-1,500 lat wcześniej, a przy blokach dłuższych niż 10 cM z ostatnich 500 lat.

Mam nadzieję, że ten artykuł jest czytelnym wprowadzeniem do tematu Pile-up regions, a osoby zainteresowane głębiej tematyką doczytają więcej w artykułach, do których podałem linki. Oczywiście do czytania i pogłębiania wiedzy w internecie można znaleźć znacznie więcej. Na przykład

Relative matching using low coverage sequencing, Ella Petter, Regev Schweiger, Bar Shahino, Tal Shor, Malka Aker, Lior Almog, Daphna Weissglas-Volkov, Yoav Naveh, Oron Navon, Shai Carmi, Jeremiah H. Li, Tomaz Berisa, Joseph K. Pickrell, Yaniv Erlich bioRxiv 2020.09.09.289322; doi: https://doi.org/10.1101/2020.09.09.289322.

Leave a Comment

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *

Exit mobile version