Blog Image

Parentela

Blog: genetica forense y probabilidad

Familias y mucho más
¿No os acordáis? sen^2 x + cos^2 x = 1 :))))))

Fechas de Cumpleaños y Blind Search – Parte 2

Blind Search Posted on Mar, enero 02, 2018 16:44

Queridos!
Lo primero de todo es desearos un muy feliz Año
Nuevo 2018. Espero que este año venga cargado de salud, amor, alegrías y…
muchos LRs!!smiley No porque quiera que tengáis mucho trabajo, sino
porque espero que vuestro trabajo se vea recompensado con muchas
identificaciones (aunque tb podemos calcular LRs en casos de mismatch, como ya
sabéis)

Bueno, nos quedaba pendiente la parte dos del
comentario que me envió Thore sobre la relación entre la «paradoja del
cumpleaños» y la herramienta Blind Search. Como en la parte 1, os pongo
aquí mi traducción personal y el texto original en inglés a continuación.

Muchos de vosotros ya estáis familiarizados con la
herramienta Blind Search de Familias, así que sólo revisaremos la idea básica
necesaria para entender un ejemplo diseñado para ilustrar la “paradoja del
cumpleaños” y sus implicaciones forenses.

Consideremos un workshop al que asisten 50
participantes no emparentados entre sí, a los que llamaremos Alumno1,…,
Alumno50. Hemos genotipado a todos ellos, analizando un STR autosómico.
Imaginemos que este marcador tiene la siguiente propiedad:
si elegimos 2 individuos al azar, éstos serán idénticos para ese marcador (bien sean
ambos homocigotos o heterocigotos) con probabilidad 1/365.
Resulta que esto es cierto si el marcador elegido tiene los alelos 1, 2,…, 19
(es decir, 19 alelos distintos), cada uno con frecuencia 1/19. Los que estéis
interesados en saber por qué, podréis ver los detalles matemáticos más abajo;
los que no lo estéis, os lo creéis y ya está. En otras palabras, la
probabilidad de identidad genética se corresponde con la probabilidad de que
dos individuos tengan la misma fecha de cumpleaños.

Simulemos
genotipos para estos alumnos en Familias, seleccionando la opción “Save raw
data”. El archivo resultante puede leerlo Familias si usáis la opción “Import”
en “Tools > DVI module > Add Unidentified Persons” (introducir los datos
genéticos simulados manualmente no es recomendable). Los genotipos para los 22
individuos primeros son:

Después, desde esta misma ventana podemos hacer un Blind Search, y si
seleccionamos “Direct match” y los siguientes parámetros:
Obtenemos:

Como veis, hay 4 matches, y os detallamos el obtenido
entre los alumnos 2 y 19 (ambos heterocigotos 4-7). Sería una sorpresa no
obtener ningún match, ya que en la gráfica del cumpleaños del post anterior
veíamos que la probabilidad de obtener al menos 1 match era del 97% para 50
alumnos. Podemos también explicar este resultado de 4 matches: con 50 alumnos
hay (50*49)/2=1225 posibles comparaciones de pares de alumnos (combinaciones de
50 elementos, tomados de 2 en 2, si recordáis un poco la combinatoria). Por
tanto, se esperan 1225*(1/365) = 3.5 matches, muy cerca de los 4 matches que
obtuvimos en la simulación.

¿Que nos dice entonces la paradoja del cumpleaños y la
parte forense anterior? Pues que la opción Blind Search de Familias realiza
todas las comparaciones por pares posibles. El número de comparaciones es muy
elevado cuando hacemos la búsqueda con una larga lista de perfiles genéticos.
Si tuviéramos 1000 perfiles, habría 499500 ((1000*999)/2), aproximadamente
medio millón de comparaciones.

Con esta cantidad de comparaciones está claro que no
podemos ignorar la posibilidad de un match falso (como nos ocurre cuando
hacemos búsquedas en las bases de datos nacionales). El problema de la
valoración de un match obtenido tras la búsqueda en una base de datos se ha
discutido ampliamente en la literatura forense (ver por ejemplo Storvik and
Egeland, Biometrics, 2007). Una posible solución sería multiplicar los odds a
priori
de un match por el LR, para obtener los odds a
posteriori
, y así poder reportar este valor en el informe pericial. Pero,
también nos encontramos con el problema de que no es tan fácil alcanzar un
consenso sobre qué odds a priori usar.

Que curioso todo esto, ¿verdad? Nunca
se me hubiera ocurrido relacionar matches genéticos con fechas de cumpleaños…
Mil gracias Thore!!!

Detalles matemáticos:
Seleccionamos
un marcador con alelos 1,…,n; todos ellos con frecuencia 1/n. La probabilidad
de que 2 individuos al azar coincidan en sus genotipos es:


El LR, para un match directo de genotipos heterocigotos, como el que
obtuvimos entre los alumnos 2 y 19 con Familias, es:
El LR, para un match de «hermanos» de genotipos heterocigotos,
sería:

como podéis confirmar con Familias:

Lo que recibí de Thore:

Birthdays and Blind Searches. Part II

We
assume some familiarity with Blind search and only review the basic idea for an
example designed to illustrate the Birthday paradox and its Forensic
implications. Consider a class of of 50 unrelated pupils named Pupil1, …,
Pupil50. These pupils have been genotyped for one autosomal marker. This marker
has the property that two randomly chosen individuals are identical (homozygous
or heterozygous match) with probability 1/365 (**mathematical details are below
for those interested. It turns out that this can be achived by chosing a marker
with alleles 1,2, …, 19; all with frequencies 1/19). In other words, the
probability of genetical identity corresponds to the probability that two
individuals have the same birthday. We simulated marker data for these pupils
in Familias and ticked of the ‘Save raw data’ option. The resulting output file
was edited and read into Familias using the ‘Import’ option of ‘Tools > DVI
module > Add Unidentified Persons’. The marker data of the first 22
individuals are:

We next do a ‘Blind search’, select ‘Direct match’
and parameters as below

We get the following output:

There are four
matches, the one between pupils 2 and 19 is detailed. We would be very suprised
if there had been no matches as the birthday plot shows that the probability
for at least one match is 97% for 50 pupils. We can also add some further
intuition to this: With 50 there are 49*50/2 =1225 pairs of pupils that can
compare their birthdays. We expect 1225*(1/365)=3.5 matches; close to the 4
matches thissimulation gave.

What do we learn form the Birthday paradox and the forensic counterpart
illustrated above? The Blind search option performs all pairwise comparisons.
The number of comparisons becomes large when we search a large list of
profiles. For a list of 1000 profiles there are 499500 or roughly half a
million comparisons. Therefore, the risk of a false match cannot be ignored.
The problem of evaluating the evidence of a match found from a database search
has been widely discussed in the forensic literature (see eg Storvik and
Egeland, Biometrics, 2007). One possible solution is to multiply the prior odds
of a match with LR to obtain the posterior odds. This posterior odds can then
be reported. However, it may not be easy to reach a consensus on what prior
odds to use.

**Mathematical
details. We choose a marker with alleles 1,…,n; all with frequency 1/n. The
probability that two random individuals match is

The LR for an heterozygous match, as between pupils
2 and 19 above, is

as shown above.
The LR for a heterozygous sibling match can be shown to be

as confirmed by Familias:



Fechas de cumpleaños y Blind Search – Parte 1

Blind Search Posted on Sáb, diciembre 09, 2017 12:20

Queridos, he recibido un
comentario de Thore que me ha encantado, y no me resisto a contároslo!! Os
pongo aquí el original y mi traducción libre (ya veréis que no es exacta), pero
no puedo evitar darle un toque personal. Allá va!! Disfrutar!!

El título pretende ser
algo desconcertante e intrigante. Veremos primero la “Paradoja del cumpleaños”
(https://es.wikipedia.org/wiki/Paradoja_del_cumplea%C3%B1os) y después
la herramienta “Blind search” de Familias. Esperemos que la relación entre
ambos quede clara al final de estos posts.

Imaginaros un workshop
del GHEP que nos da Thore, en el que hay 23 socios participantes. En la primera
charla del workshop Thore nos pregunta a los 23: ¿Cuál es la probabilidad de
que al menos dos de vosotros tengáis la misma fecha de cumpleaños? Nosotros
intentamos adivinarlo, pues no nos parece muy fácil hacer el cálculo, pero
intuitivamente, la mayoría sugerimos probabilidades cercanas a cero. Cuando Thore
nos dice que la probabilidad es 0.51 (o del 51%), nosotros, claro está, no nos
lo creemos. Como somos alumnos muy interesados y brillantes (como vosotros, que
os habéis parado a leer esto!!), reclamamos
pruebas sólidas a tan atrevida afirmación. Y aquí está la respuesta:

Sabemos que cada año
tiene 365 días (olvidemos los años bisiestos), y sabemos que todos esos días
pueden ser un día de cumpleaños con la misma probabilidad (no del todo cierto…
en mi pueblo se acumulan los cumpleaños 9 meses después de las fiestas patronales
J… pero no hay problema por esto). Como en muchas ocasiones cuando hablamos de
probabilidad, es más fácil considerar la situación complementaria (es decir la
probabilidad de que la fecha de cumpleaños sea distinta). Teniendo en cuenta a
2 alumnos al azar, esta probabilidad (distintos cumpleaños) es 364/365 (un
alumno está de cumpleaños un día concreto y al otro le quedan 365-1= 364 días
para que su cumpleaños caiga en un día diferente al primero). Por tanto, la
probabilidad de que dos alumnos elegidos al azar estén de cumpleaños el mismo
día sería el suceso contrario, es decir: 1 – (364/365) = 1/365.

Para r alumnos (teniendo
en cuenta que los valores que r debe tomar son 0 < r <= 365), la
probabilidad de que ninguno de ellos esté de cumpleaños el mismo día sería:

(365/365)*(364/365)*(363/365)*…*((365-r+1)/365)

porque la segunda
persona no puede tener el mismo cumpleaños que el primero (364/365), la tercera
persona no puede tener el mismo cumpleaños que las dos primeras (363/365), etc. Y por tanto, la probabilidad de que al menos 2 alumnos estén de cumpleaños
el mismo día sería:

1 – [(365/365)*(364/365)*(363/365)*…*((365-r+1)/365)]

Para r = 23, esta operación resulta tener un valor de
0.5072972 o 51%, lo cual demuestra que Thore tiene razón. Y además Thore nos
ilustra y generaliza el caso para 1, 2, …, 3 socios del GHEP, usando R:

r =
50
probs = rep(NA,r)
pupils = 1:r
for(r in pupils)
probs[r] = 1 –
prod((365:(365-r+1)))/365^r
plot(pupils, probs, type = «l», xlab = «Number of pupils»,
ylab = «P(some have
the same birthday)»)
lines(rep(23,20), seq(0.05, probs[23], length = 20), lty = 2)
lines(7:23, rep(0.5, length(7:23)), lty = 2)
text(23, 0, «23»)
text(3, 0.5, «Prob=0.5»)
title(«The birthday paradox illustrated»)

¿Cuál es la conexión
entre esto y la herramienta Blind Search de Familias? Tener paciencia y esperar
el próximo post…

Lo que recibí de Thore:

The title
is intended to be a bit puzzling and intriguing. We first visit the ‘Birthday
paradox’ (Paradoja del cumpleaños, https://es.wikipedia.org/wiki/Paradoja_del_cumplea%C3%B1os) and later ‘Blind search ’ in
Familias; hopefully the connection will be clear eventually. Imagine the first
day of school. The math teacher asks her 23 pupils. “What is the probability
that at least two of you have the same birthday”. The pupils guess, most of
them suggest probabilities close to zero. When the teacher says that the
probability is 0.51 (or 51%), she is met with disbelief. These bright and
interested students demand solid proof for this horrendous claim. Here it is:
We assume that there are 365 days. All days are equally likely to be a birthday
(not quite true, but no problem). As often for probability calculations it is
easier to consider the complimentary event, that birthdays differ. With two
random pupils, this probability is 364/365 and so the probability that two
randomly chosen pupils have the same birthday equals 1-364/365=1/365,
obviously. For r pupils (0 <r <= 365), the probability that no one have
the same birthday is (364/365)*(363/365)*…*((365-r+1)/365). Therefore, the
probability that at least two have the same birthday equals

1 –
(364/365)*(363/365)*…*((365-r+1)/365).

For r = 23,
we find 0.5072972 or 51% proving that the teacher is right. The teacher
illustrates and generalises her claim to classes with 1, 2, …., 50 pupils using
R:…..
……..
What’s the
connection to Blind search of Familias? Please be patient and wait for the next
posting …



Blind search, otra herramienta de Familias espectacular!

Blind Search Posted on Sáb, diciembre 09, 2017 12:10

Blind search (“búsqueda ciega”) nos permite comparar perfiles
genéticos por pares. Con ella podemos saber si dos perfiles genéticos pueden
pertenecer al mismo individuo (direct match), a una pareja padre-hijo, a dos
hermanos, a dos medio hermanos …

Ya os podéis imaginar la gran utilidad que tiene esto cuando
estamos trabajando con muchos perfiles genéticos en un mismo caso. El uso más
inmediato que le podemos dar es por supuesto la comparación de perfiles
genéticos tras un suceso con múltiples víctimas (una explosión, el hallazgo de
una fosa común):

– nos puede interesar saber si hay algún tipo de relación
familiar entre las víctimas

– nos puede interesar saber el número mínimo de víctimas,
viendo cuántos perfiles genéticos distintos tenemos

Pero también puede usarse Blind Search en casos criminales:

– Seguro que habéis tenido algún caso con una
lista más o menos larga de sospechosos. Pues puede ser interesante saber si hay
algún tipo de relación familiar entre esos sospechosos, para tenerlo en cuenta
si es necesario a la hora de calcular un LR.

– Y seguro que también habéis tenido casos en los
que un perfil hallado en la escena (o en el cuerpo de la víctima), no coincide
con ningún sospechoso y por tanto es anónimo. Sin embargo puede ser interesante
comprobar si ese perfil anónimo podría pertenecer a algún familiar de vuestra
lista de sospechosos.

Se puede usar esta herramienta desde el módulo DVI, desde el
módulo convencional de Familias, y como no, desde el módulo Familial Searching.
La única diferencia entre usarlo desde un módulo u otro, es el listado de
perfiles que se compararán: perfiles post-mortem en el caso del módulo DVI,
perfiles de persons en el caso de Familias convencional y todos los perfiles de
la base de datos en el módulo Familial Searching.

Como veis, otra ayuda superútil de Familias!!