Blog Image

Parentela

Blog: genetica forense y probabilidad

Familias y mucho más
¿No os acordáis? sen^2 x + cos^2 x = 1 :))))))

Hipótesis en mezclas de dos contribuyentes

Hipótesis Posted on Dom, febrero 18, 2018 08:31

Buenos día World!
¿Cuál sería la probabilidad de que yo estuviera escribiendo esto si me hubiera tocado la lotería? Pues ni yo misma lo sé, pero si además de haberme tocado la lotería, estuviera presa en la cárcel, seguro que la probabilidad sería alta, sólo por evitar el aburrimientosmiley

Una de las cuestiones primordiales en la valoración de la prueba forense es
el establecimiento de las hipótesis. Y parece que en esto, a veces fallamos. Se
nos olvida que las hipótesis deben representar los puntos de vista de las
partes involucradas en el proceso legal, y no nuestro punto de vista como
genetistas.

Hoy voy a centrarme en las hipótesis más adecuadas en casos de mezclas de 2
contribuyentes. Obviamente, el establecimiento de las mismas depende
enormemente de las circunstancias del caso, y con unos cuantos ejemplos veremos
algunas diferencias en cuanto a los perfiles que pueden cuestionarse.

Imaginemos que tenemos una mezcla M compatible totalmente con las
referencias de una víctima V y un acusado A; y supongamos para todos los casos
que: (i) los implicados en la mezcla no están relacionados genéticamente y (ii)
la población de interés es la española (para no tener que añadir estas dos
puntualizaciones en cada hipótesis).

Es bastante razonable pensar que si la mezcla la hemos detectado en una
muestra corporal (ej. hisopo vaginal de una víctima de agresión sexual), uno de
los perfiles será el de la víctima, y es muy lógico que ni el fiscal ni la
defensa cuestionen ese perfil. En estos casos entonces podemos establecer las
hipótesis:

Hp: la mezcla procede de V y de A
Hd: la mezcla procede
de V y otra persona desconocida

Pero, ¿qué pasa si no tenemos información alguna sobre el caso? Pues que las hipótesis pueden ser varias, ya que no sabemos qué es lo que
pretende esclarecer el tribunal:

H1: la mezcla procede de la víctima
y el acusado
H2: la mezcla procede
de la víctima y otra persona desconocido
H3: la mezcla procede
del acusado y otra persona desconocida
H4: la mezcla procede
de otras dos personas desconocidas

En nuestra rutina diaria, es bastante probable que conozcamos el punto de
vista del fiscal, pues lo que normalmente quiere es implicar al/los acusado/s.
Pero en los casos de mezclas es más difícil establecer el punto de vista de la
defensa. Imaginaros que nos encontramos ante una mezcla compatible con dos
acusados A1 y A2. Lo que puede estar claro es que a ambas partes, fiscalía y
defensa, les interesa que ambos perfiles sean valorados. Podemos tener la
tentación entonces de establecer las siguientes hipótesis:

Hp: la mezcla procede de A1 y A2
Hd: la mezcla procede
de otras dos personas desconocidas

Sin embargo, no debemos esperar que las defensas de A1 y A2 tengan el mismo
punto de vista, pues es perfectamente posible que la defensa de A1 reclame su
inocencia pero quiera implicar a A2. El problema aquí es que estamos intentando
utilizar un marco de dos hipótesis en un caso donde hay potencialmente varias
propuestas de defensa (Gittelson, y otros, 2016).

Por tanto, el perito debe ser consciente de la gama de alternativas que hay
en estos casos, y al menos debe considerar las siguientes hipótesis:

Hp1: la mezcla procede
de A1 y otra persona desconocida
Hp2: la mezcla procede
de A2 y otra persona desconocida

que serán contrastadas por separado con:

Hd: la mezcla procede
de otras dos personas desconocidas

Nuestra condición de genetistas también hace que muchas veces nos empeñemos
en cuestionar perfiles que ni fiscalía ni defensa cuestionarían. Tal es el caso
por ejemplo de una mezcla hallada en la empuñadura de un cuchillo lleno de
sangre, que aparece al lado de un cadáver (pero no clavado en el cadáver). Aunque
la mezcla sea perfectamente compatible con víctima y acusado (sin drop-out,
drop-in, etc), nuestra mente científica hace que cuestionemos que el perfil de
la víctima esté ahí, aunque ni el fiscal ni la defensa duden de que tenga que
estar. Nos lanzamos entonces a establecer las hipótesis:

Hp: la mezcla procede de la víctima y el
acusado
Hd: la mezcla procede de otras dos
personas desconocidas

Pues bien, el valor de LR que vamos a obtener considerando este par de
hipótesis va a ser mucho mayor que el que obtengamos si no cuestionáramos la
presencia del perfil de la víctima (víctima + acusado vs víctima +
desconocido). Lo único que la defensa y el fiscal quieren aclarar es si el
acusado ha participado en la mezcla o no, y estaríamos siendo tremendamente
injustos si en nuestro informe ni si quiera mencionamos que hay otras posibles
hipótesis que se pueden contrastar y con las cuales obtendríamos otros valores
de LR.

En fin… para pensar un poco

También recordaros que debemos enunciar las hipótesis de la forma más clara
y precisa posible. Aquí las he enunciado muy resumidas porque he aclarado al
principio que, en todas las hipótesis que iba a plantear, la población de
referencia sería la española y los contribuyentes a la mezcla no estarían
relacionados genéticamente (tampoco sería un problema si lo estuvieran…sólo
habría que definirlo). Pero si en nuestros informes no hacemos estas
aclaraciones generales, debemos incluir esta información en las hipótesis. Por
ejemplo:

Hp: la mezcla procede de A y de otra persona desconocida de la población
española no relacionada genéticamente con A
Hd: la mezcla procede
de dos personas desconocidas de la población española, no relacionadas
genéticamente ni con A, ni entre sí

… que se nos suele olvidar poner “ni con A” o “ni entre sí”.



Significado del LR – Parte 3

Significado del LR Posted on Jue, febrero 08, 2018 16:55

Bueno, pues veamos ahora cómo se calcula una probabilidad a
posteriori en forma de apuesta (Bayes Theorem in odds form). Nos basaremos en
la diapositiva 30 de la charla de Thore, y usaremos el mismo ejemplo que
veníamos usando.

Posterior
odds de la comparación de H3 (gemelos) y H1 (hermanos):

Es decir, H3 (gemelos) es 2000 veces más probable que H1
(hermanos) teniendo en cuenta estos priors.
No sabemos si hay más hipótesis o no, si sólo hubiera una más (por ejemplo H2 =
no relacionados), su prior sería = 1 –
P(H1)-P(H3)=0.4999995. Pero podría haber más hipótesis, y el prior 0.4999995 de H2 se subdividiría entre
las hipótesis adicionales. En cualquier caso, el cálculo y la interpretación que
hemos realizado en forma de odds sería igual de válido, ya que sólo estamos
comparando H3 y H1.

Veis entonces que los posterior
en forma de odds nada tienen que ver con las probabilidades a posteriori (que deben tener en cuenta
todas las posibilidades y sumar 1!!).

Quería también poneros un ejemplo clarísimo en el que
enseguida nos damos cuenta de que no conocemos todas las hipótesis posibles. Imaginaros
que nos piden saber si un varón y una mujer son hermanos en un caso de
inmigración, y que resulta que al analizar ADNmt nos damos cuenta de que no
pueden ser hermanos de madre porque sus haplotipos son distintos. Claramente,
no conocemos todas las hipótesis: podrían ser medio-hermanos, primos, no estar
relacionados…Le pregunté a Thore sobre esto y me ha recomendado leer este
paper:

Karlsson et
al., 2007. DNA testing for immigration cases: the risk of erroneous
conclusions. For. Sci. Int. 172: 144-149

Bueno, seguro que os resulta interesante a los que hacéis
casos de inmigración ilegal y reagrupación familiar. Ya me diréis que os
parece!!

***Comentario de revista Hola: el primer autor de este
paper (Andreas Karlsson) es en realidad nuestro conocidísimo Andreas Tillmar,
que se puso el apellido de su mujer cuando se casó. Yo creo que este cambio de
Karlsson a Tillmar puede deberse a dos motivos: quizás lo hizo porque Karlsson
es el tercer apellido más frecuente en Suecia, o quizás porque está enamoradísimo
de su esposa. La segunda opción es tan bonita….



Significado del LR – Parte 2

Significado del LR Posted on Mié, enero 31, 2018 13:25

Algunos os preguntaréis cómo hemos calculado las
probabilidades a posteriori en el
comentario anterior. Pues simplemente hemos aplicado Bayes, para k hipótesis y
con cualquier probabilidad a priori (En: “Relationship inference with Familias
and R”, Chapter 2, Egeland et al., 2016):

Horror!! Vaya fórmula! Pero no es para tanto, sólo tenemos
que multiplicar cada LR por cada prior (columna
“PRODUCTO” del Excel que veréis abajo), sumar los resultados de esta
multiplicación (casilla “denominador”), y luego dividir cada producto por el
denominador (columna “POSTERIOR”). Mejor lo vemos con el ejemplo:

a) Si H1, H2 y H3 son igualmente probables a priori (1/3 cada una), obtenemos:

Si
queréis ver un ejemplo real en Familias, podéis descargaros el archivo que ha
preparado Thore. He alucinado con este archivo porque Thore ha definido las
persons y las hipótesis en español!! Cada vez tiene menos de nórdico y más de
latino… está totalmente mimetizado con nosotrosJ))Bueno,
el archivo os lo podéis descargar en este link: http://familias.name/blog/blog-dormant.fam (usando los comandos Control+s, una vez que estéis
dentro del link). Obviamente las cifras son diferentes, pero la idea es la misma. En este
archivo podéis ver cómo definir H3 (gemelos) en Familias (seleccionando “direct
match” en el pedigrí). Y además podéis comprobar que el LR de H3 vs H2 es igual
al valor de 1/RMP que obtenemos en la ventana “Case DNA data” cuando hacemos
click en “Compare DNA” (como ya discutimos en la validación del cálculo de RMP,
post del 10/01/2018)

b) Si H1 y H2 son a priori más probables que H3, obtenemos:

Que es justo lo que veíamos en las diapos de Thore.

Pero lo más importante de todo esto es destacar lo que hemos
aprendido con este ejemplo:

a) Como ya vimos, el LR no nos dice si una
hipótesis es cierta o no, más bien, si los resultados apoyan más una hipótesis
que otra (y ambas hipótesis podrían no ser ciertas!!)

b) Que en nuestros casos reales, sólo debemos
calcular probabilidades a posteriori si
nuestras hipótesis son exhaustivas, es decir, si conocemos y tenemos en cuenta
TODAS las hipótesis relevantes. Ya hemos visto con este ejemplo que existe la
posibilidad de que los resultados de ADN apoyen fuertemente una hipótesis que
tenía una probabilidad a priori extremadamente baja (H3, en el ejemplo b, con prior = 10^(-6))

La mayoría de las veces sí que conocemos las hipótesis
relevantes, por el contexto del caso. Pero ¿qué hacemos entonces si nuestras
hipótesis no son exhaustivas? Pues podemos calcular posteriors en forma de apuesta (posterior
odds), pero no probabilidades a
posteriori
.

Si queréis ver cómo, darme un tiempecito y preparo otro post!

02/02/2018
Añado aquí unas imágenes que me ha mandado Thore respecto a este post. Se trata del uso de una página web en la que podéis calcular directamente las probabilidades a posteriori sin necesitad del Excel anterior. Hay de todo en Internet!!

La única precaución que hay que tener es que debemos introducir en la página la verosimilitud de cada hipótesis, no el LR. Aquí veis en ejemplo de Thore (marcador D3 del archivo de Familias anteriro: http://familias.name/blog/blog-dormant.fam)


Y una vez calculado el likelihood, ya podéis meter los datos (prior y likelihood) en la web http://psych.fullerton.edu/mbirnbaum/bayes/BayesCalc3.htm para calcular la probabilidad a posteriori:


Very useful Thore! Many thanks!



Significado del LR – Parte 1

Significado del LR Posted on Mié, enero 24, 2018 20:01

Como sabéis el LR no nos dice si una hipótesis es cierta o
no, más bien nos dice si nuestros resultados apoyan más una hipótesis que otra.
Por tanto, cuando decimos que:

a)
Si el LR > 1: los resultados apoyan H1 (la
del numerador)

b)
Si el LR = 1: la evidencia es neutra

c) Si el LR < 1: los resultados apoyan H2 (la
del denominador)

estamos hablando realmente en términos relativos, es decir
esto sólo es cierto en el caso de H1 con respecto a H2. Pero, qué pasa si hay
más escenarios posibles?, si hay más hipótesis?

Los que hayáis echado un vistazo a las diapos del curso de
enero que dieron Thore y Magnus en Oslo (y a las que tan amablemente Thore nos dio
acceso, ver cursos), sabréis la respuesta. Para los que no hayáis tenido tiempo de verlas, aquí
os reproduzco un ejemplo que, desde mi punto de vista, es buenísimo para
entender bien esto.

Imaginemos que analizamos los perfiles genéticos de dos
individuos y que queremos saber si pueden ser hermanos. Nuestras hipótesis
podrían ser: “H1 = hermanos” vs “H2: no relacionados”.

Imaginemos que tras el análisis hemos obtenido exactamente
el mismo perfil genético en los dos individuos. Si valoramos nuestra evidencia
teniendo en cuenta esas dos hipótesis, lógicamente el LR nos va a salir elevado, por ejemplo 10^6. La
evidencia por tanto apoya la hipótesis de que son hermanos, pero sólo cuando la
comparamos con la hipótesis de que no estén relacionados.

Obviamente, si descartamos un error en el lab (como podría
ser el hecho de haber analizado la misma muestra dos veces en lugar de analizar
las dos muestras), enseguida nos viene a la mente una tercera hipótesis: “H3=
gemelos idénticos”. Si ahora valoramos este resultado teniendo en cuenta las
hipótesis H3 y H2, el LR nos dará un número aún más elevado (imaginemos que
sale 10^15).

Consideremos ahora que a priori, las tres hipótesis tienen
la misma probabilidad (1/3 cada una). En la tabla siguiente (diapositiva 43 de
la charla “Forensics I: paternity cases, complex identification cases” de
Thore), podéis ver las probabilidades a posteriori:

Así que, en este caso, aunque el LR que obtenemos al tener
en cuenta H1 y H2 es mucho mayor que 1 (10^6), lo cierto es que la probabilidad
a posteriori (P (H1│E)) es menor que la probabilidad a priori (10^9 < 1/3).

Imaginemos ahora que damos mucha más probabilidad a priori a
las hipótesis H1 y H2, y una probabilidad a priori muy pequeña a H3; por
ejemplo casi 0.5 a H1 y H2, y sólo 10^(-6) a H3 (0.000001). Si calculamos las probabilidades
a posteriori, obtenemos (diapositiva 44 de la charla anterior):

De nuevo, la probabilidad a posteriori de H1 es menor que su
probabilidad a priori. Y respecto a H3, a pesar de que hemos definido que su
probabilidad a priori sea muy baja, su probabilidad a posteriori es muy
elevada, ya que H3 es la mejor explicación de nuestros resultados.

Por tanto, aunque el LR que evalúa nuestros resultados comparando
H1 (hermanos) y H2 (no relacionados) es mucho mayor que 1, esto no significa
que H1 sea una buena hipótesis (o que H1 sea cierta). Perfectamente puede
significar que H1 no es una buena hipótesis y que H2 es aún peor. Lo dicho
entonces, que el LR no nos dice si una hipótesis es cierta o no.

En el siguiente post veremos cómo se han calculado las
probabilidades a posteriori en este ejemplo, y lo que podemos aprender de él.



Validando cálculo de RMP

Validaciones Posted on Mié, enero 10, 2018 20:40

Como sabéis, las nuevas recomendaciones de la ISFG sobre
validación de software (Coble et al., FSI:Gen 25 (2016): 191-197) anima a los
desarrolladores a que verifiquen y validen su propio software, por ejemplo
proporcionando datos e hipótesis a evaluar, así como las soluciones esperadas
de la evaluación estadística. Y Familias cumple perfectamente con esta
recomendación. También hay una validación formal externa a los desarrolladores,
como podéis ver en el paper Drábek, J:
«Validation of software for calculating the likelihood ratio for parentage
and kinship». Forensic Science International: Genetics, 3, 2008
.

Podéis encontrar los archivos de la validación de los
creadores y desarrolladores del software en http://familias.no/english/download/.
Ahí bajáis hasta el apartado «Vaidation» y encontraréis con
hipervínculo:

a) «following files«: que te
lleva a un zip con archivos de Familias para varios casos (típico trío, típico
dúo, varios modelos de mutación, alelo silente, pedigrí complejo, parentesco
con y sin Fst)

b) «file«: que te lleva a un Excel
con las soluciones que se obtienen en Familias para esos casos, comparándolas
con las soluciones ofrecidas por otras aplicaciones y/o lo que se obtiene con
cálculos manuales para los mismos casos.

No existe ningún archivo de validación para el cálculo de la
RMP (random match probability) en casos de match directo, pero Thore y Daniel
recibieron una pregunta de Paulo Chaves (Brasil) al respecto y compartieron
conmigo la respuesta. Así que aquí os pongo un ejemplo para esto, que contiene los datos de un ejercicio del libro Egeland, Kling,
Mostad (2016) p. 31. ***Quería incluiros aquí el archivo de Familias directamente, para que no tengáis que teclear nada, pero el editor del blog no me deja subir archivos tipo .fam. Si alguien lo quiere, que me lo pida!!****

Os detallo la base teórica a continuación, incluyendo y sin
incluir corrección Theta.

Como sabéis, la inversa de la RMP (1/RMP) no es más que una
versión del LR (cuando las hipótesis son «H1: los dos perfiles proceden
del mismo individuo» vs. «H2: los dos perfiles proceden de dos
individuos al azar», y no hay eventos de drop-out, drop-in,
contaminación…).

Consideremos el marcador D3S1358 con, entre otros, los
alelos 17 y 18, cuyas frecuencias son 0.204 y 0.139 respectivamente.
Consideremos también dos perfiles genéticos homocigotos 17-17 para este
marcador. La inversa de la RMP se calcula: 1/(0.204)^2 = 24.02922, lo que
indica que es 24 veces más probable obtener estos perfiles si H1 es cierta, en
comparación con que H2 sea cierta. La RMP sería (0.204)^2 = 0.04, y nos indica
la probabilidad de que una persona al azar de la población tuviera este
genotipo 17-17. Para no confundir RMP con 1/RMP, recordar que RMP es una
probabilidad, y por tanto los valores que puede tomar están siempre entre 0 y
1.

Consideremos ahora dos perfiles genéticos heterocigotos
17-18 para este marcador. La inversa de la RMP sería ahora 1/(2*0.204*0.139) =
17.63295, y la RMP sería 2*0.204*0.139 =
0.056712.

Con Familias veréis que se
obtiene lo mismo:

Veamos ahora qué obtendríamos si tenemos en cuenta un valor
de Theta = 0.03. La fórmula general podéis encontrarla en la Sección
2.5.1 del libro mencionado (Egeland, Kling, Mostad (2016) )

En el caso de homocigotos, la inversa de la RMP se
calcula:

1/RMP = 1/(0.03*0.204+(1-0.03)*0.204^2))= 21.51114966

En el caso de heterocigotos, la inversa de la RMP es:

1/RMP = 1/(2*(1-0.03)*0.204*0.139)= 18.17830151

Para hacerlo con Familias sólo tenéis que ir a la ventana de
pedigríes, hacer click en «Parameters» y rellenar la casilla Tetha
con el valor 0.03. Después, como en el caso ilustrado en las figuras, vais a la
ventana de Case DNA data (datos genéticos), y ahí seleccionáis uno de los
perfiles y click en «Compare DNA».

En resumen, esto es lo que debéis obtener:

Familias 3 tiene muchas funciones nuevas que aún hay que
validar, pues ya sabéis que esto de las validaciones es un no parar y hay que
estar actualizándose continuamente, como nos pasa en el Lab. Poco a poco iremos
haciéndolo!

Bueno, pues espero que este post os sea útil para que
también podáis hacer cálculos de LRs en casos de match directo respaldados con
validación!



ISFG summer school 2018

Cursos Posted on Mar, enero 09, 2018 19:19

La ISFG
ha decidido organizar cursos de verano en los años en los que no se celebra el congreso
internacional (como hacemos en el GHEP!!). Todavía no hay mucha información al
respecto, pero os pongo aquí lo que se planea para 2018:

ISFG Summer School 2018
Catanzaro, Calabria (Italia), 3-4 de
septiembre 2018

– Paternity and kinship testing including
Xchromosomal markers (Thore Egeland, Daniel Kling)

– DNA interpretation in criminal casework (Peter
Gill, Lourdes Prieto)

– Population genetics, massively parallel
sequencing and STRUCTURE (Chris Phillips, Leonor Gusmão)

– mtDNA analysis and EMPOP database (Walther
Parson & colleagues)

– ISO17025 procedures and Italian DNA database
management (Renato Biondo)

La organización se realiza en asociación con el
meeting anual del GeFI (Italian speaking ISFG working group). Los detalles
sobre el registro, plazos, tarifas y hoteles se publicarán en las páginas de la
ISFG y del GeFI, pero intentaré manteneros al tanto de las novedades.



Fechas de Cumpleaños y Blind Search – Parte 2

Blind Search Posted on Mar, enero 02, 2018 16:44

Queridos!
Lo primero de todo es desearos un muy feliz Año
Nuevo 2018. Espero que este año venga cargado de salud, amor, alegrías y…
muchos LRs!!smiley No porque quiera que tengáis mucho trabajo, sino
porque espero que vuestro trabajo se vea recompensado con muchas
identificaciones (aunque tb podemos calcular LRs en casos de mismatch, como ya
sabéis)

Bueno, nos quedaba pendiente la parte dos del
comentario que me envió Thore sobre la relación entre la «paradoja del
cumpleaños» y la herramienta Blind Search. Como en la parte 1, os pongo
aquí mi traducción personal y el texto original en inglés a continuación.

Muchos de vosotros ya estáis familiarizados con la
herramienta Blind Search de Familias, así que sólo revisaremos la idea básica
necesaria para entender un ejemplo diseñado para ilustrar la “paradoja del
cumpleaños” y sus implicaciones forenses.

Consideremos un workshop al que asisten 50
participantes no emparentados entre sí, a los que llamaremos Alumno1,…,
Alumno50. Hemos genotipado a todos ellos, analizando un STR autosómico.
Imaginemos que este marcador tiene la siguiente propiedad:
si elegimos 2 individuos al azar, éstos serán idénticos para ese marcador (bien sean
ambos homocigotos o heterocigotos) con probabilidad 1/365.
Resulta que esto es cierto si el marcador elegido tiene los alelos 1, 2,…, 19
(es decir, 19 alelos distintos), cada uno con frecuencia 1/19. Los que estéis
interesados en saber por qué, podréis ver los detalles matemáticos más abajo;
los que no lo estéis, os lo creéis y ya está. En otras palabras, la
probabilidad de identidad genética se corresponde con la probabilidad de que
dos individuos tengan la misma fecha de cumpleaños.

Simulemos
genotipos para estos alumnos en Familias, seleccionando la opción “Save raw
data”. El archivo resultante puede leerlo Familias si usáis la opción “Import”
en “Tools > DVI module > Add Unidentified Persons” (introducir los datos
genéticos simulados manualmente no es recomendable). Los genotipos para los 22
individuos primeros son:

Después, desde esta misma ventana podemos hacer un Blind Search, y si
seleccionamos “Direct match” y los siguientes parámetros:
Obtenemos:

Como veis, hay 4 matches, y os detallamos el obtenido
entre los alumnos 2 y 19 (ambos heterocigotos 4-7). Sería una sorpresa no
obtener ningún match, ya que en la gráfica del cumpleaños del post anterior
veíamos que la probabilidad de obtener al menos 1 match era del 97% para 50
alumnos. Podemos también explicar este resultado de 4 matches: con 50 alumnos
hay (50*49)/2=1225 posibles comparaciones de pares de alumnos (combinaciones de
50 elementos, tomados de 2 en 2, si recordáis un poco la combinatoria). Por
tanto, se esperan 1225*(1/365) = 3.5 matches, muy cerca de los 4 matches que
obtuvimos en la simulación.

¿Que nos dice entonces la paradoja del cumpleaños y la
parte forense anterior? Pues que la opción Blind Search de Familias realiza
todas las comparaciones por pares posibles. El número de comparaciones es muy
elevado cuando hacemos la búsqueda con una larga lista de perfiles genéticos.
Si tuviéramos 1000 perfiles, habría 499500 ((1000*999)/2), aproximadamente
medio millón de comparaciones.

Con esta cantidad de comparaciones está claro que no
podemos ignorar la posibilidad de un match falso (como nos ocurre cuando
hacemos búsquedas en las bases de datos nacionales). El problema de la
valoración de un match obtenido tras la búsqueda en una base de datos se ha
discutido ampliamente en la literatura forense (ver por ejemplo Storvik and
Egeland, Biometrics, 2007). Una posible solución sería multiplicar los odds a
priori
de un match por el LR, para obtener los odds a
posteriori
, y así poder reportar este valor en el informe pericial. Pero,
también nos encontramos con el problema de que no es tan fácil alcanzar un
consenso sobre qué odds a priori usar.

Que curioso todo esto, ¿verdad? Nunca
se me hubiera ocurrido relacionar matches genéticos con fechas de cumpleaños…
Mil gracias Thore!!!

Detalles matemáticos:
Seleccionamos
un marcador con alelos 1,…,n; todos ellos con frecuencia 1/n. La probabilidad
de que 2 individuos al azar coincidan en sus genotipos es:


El LR, para un match directo de genotipos heterocigotos, como el que
obtuvimos entre los alumnos 2 y 19 con Familias, es:
El LR, para un match de «hermanos» de genotipos heterocigotos,
sería:

como podéis confirmar con Familias:

Lo que recibí de Thore:

Birthdays and Blind Searches. Part II

We
assume some familiarity with Blind search and only review the basic idea for an
example designed to illustrate the Birthday paradox and its Forensic
implications. Consider a class of of 50 unrelated pupils named Pupil1, …,
Pupil50. These pupils have been genotyped for one autosomal marker. This marker
has the property that two randomly chosen individuals are identical (homozygous
or heterozygous match) with probability 1/365 (**mathematical details are below
for those interested. It turns out that this can be achived by chosing a marker
with alleles 1,2, …, 19; all with frequencies 1/19). In other words, the
probability of genetical identity corresponds to the probability that two
individuals have the same birthday. We simulated marker data for these pupils
in Familias and ticked of the ‘Save raw data’ option. The resulting output file
was edited and read into Familias using the ‘Import’ option of ‘Tools > DVI
module > Add Unidentified Persons’. The marker data of the first 22
individuals are:

We next do a ‘Blind search’, select ‘Direct match’
and parameters as below

We get the following output:

There are four
matches, the one between pupils 2 and 19 is detailed. We would be very suprised
if there had been no matches as the birthday plot shows that the probability
for at least one match is 97% for 50 pupils. We can also add some further
intuition to this: With 50 there are 49*50/2 =1225 pairs of pupils that can
compare their birthdays. We expect 1225*(1/365)=3.5 matches; close to the 4
matches thissimulation gave.

What do we learn form the Birthday paradox and the forensic counterpart
illustrated above? The Blind search option performs all pairwise comparisons.
The number of comparisons becomes large when we search a large list of
profiles. For a list of 1000 profiles there are 499500 or roughly half a
million comparisons. Therefore, the risk of a false match cannot be ignored.
The problem of evaluating the evidence of a match found from a database search
has been widely discussed in the forensic literature (see eg Storvik and
Egeland, Biometrics, 2007). One possible solution is to multiply the prior odds
of a match with LR to obtain the posterior odds. This posterior odds can then
be reported. However, it may not be easy to reach a consensus on what prior
odds to use.

**Mathematical
details. We choose a marker with alleles 1,…,n; all with frequency 1/n. The
probability that two random individuals match is

The LR for an heterozygous match, as between pupils
2 and 19 above, is

as shown above.
The LR for a heterozygous sibling match can be shown to be

as confirmed by Familias:



Fechas de cumpleaños y Blind Search – Parte 1

Blind Search Posted on Sáb, diciembre 09, 2017 12:20

Queridos, he recibido un
comentario de Thore que me ha encantado, y no me resisto a contároslo!! Os
pongo aquí el original y mi traducción libre (ya veréis que no es exacta), pero
no puedo evitar darle un toque personal. Allá va!! Disfrutar!!

El título pretende ser
algo desconcertante e intrigante. Veremos primero la “Paradoja del cumpleaños”
(https://es.wikipedia.org/wiki/Paradoja_del_cumplea%C3%B1os) y después
la herramienta “Blind search” de Familias. Esperemos que la relación entre
ambos quede clara al final de estos posts.

Imaginaros un workshop
del GHEP que nos da Thore, en el que hay 23 socios participantes. En la primera
charla del workshop Thore nos pregunta a los 23: ¿Cuál es la probabilidad de
que al menos dos de vosotros tengáis la misma fecha de cumpleaños? Nosotros
intentamos adivinarlo, pues no nos parece muy fácil hacer el cálculo, pero
intuitivamente, la mayoría sugerimos probabilidades cercanas a cero. Cuando Thore
nos dice que la probabilidad es 0.51 (o del 51%), nosotros, claro está, no nos
lo creemos. Como somos alumnos muy interesados y brillantes (como vosotros, que
os habéis parado a leer esto!!), reclamamos
pruebas sólidas a tan atrevida afirmación. Y aquí está la respuesta:

Sabemos que cada año
tiene 365 días (olvidemos los años bisiestos), y sabemos que todos esos días
pueden ser un día de cumpleaños con la misma probabilidad (no del todo cierto…
en mi pueblo se acumulan los cumpleaños 9 meses después de las fiestas patronales
J… pero no hay problema por esto). Como en muchas ocasiones cuando hablamos de
probabilidad, es más fácil considerar la situación complementaria (es decir la
probabilidad de que la fecha de cumpleaños sea distinta). Teniendo en cuenta a
2 alumnos al azar, esta probabilidad (distintos cumpleaños) es 364/365 (un
alumno está de cumpleaños un día concreto y al otro le quedan 365-1= 364 días
para que su cumpleaños caiga en un día diferente al primero). Por tanto, la
probabilidad de que dos alumnos elegidos al azar estén de cumpleaños el mismo
día sería el suceso contrario, es decir: 1 – (364/365) = 1/365.

Para r alumnos (teniendo
en cuenta que los valores que r debe tomar son 0 < r <= 365), la
probabilidad de que ninguno de ellos esté de cumpleaños el mismo día sería:

(365/365)*(364/365)*(363/365)*…*((365-r+1)/365)

porque la segunda
persona no puede tener el mismo cumpleaños que el primero (364/365), la tercera
persona no puede tener el mismo cumpleaños que las dos primeras (363/365), etc. Y por tanto, la probabilidad de que al menos 2 alumnos estén de cumpleaños
el mismo día sería:

1 – [(365/365)*(364/365)*(363/365)*…*((365-r+1)/365)]

Para r = 23, esta operación resulta tener un valor de
0.5072972 o 51%, lo cual demuestra que Thore tiene razón. Y además Thore nos
ilustra y generaliza el caso para 1, 2, …, 3 socios del GHEP, usando R:

r =
50
probs = rep(NA,r)
pupils = 1:r
for(r in pupils)
probs[r] = 1 –
prod((365:(365-r+1)))/365^r
plot(pupils, probs, type = «l», xlab = «Number of pupils»,
ylab = «P(some have
the same birthday)»)
lines(rep(23,20), seq(0.05, probs[23], length = 20), lty = 2)
lines(7:23, rep(0.5, length(7:23)), lty = 2)
text(23, 0, «23»)
text(3, 0.5, «Prob=0.5»)
title(«The birthday paradox illustrated»)

¿Cuál es la conexión
entre esto y la herramienta Blind Search de Familias? Tener paciencia y esperar
el próximo post…

Lo que recibí de Thore:

The title
is intended to be a bit puzzling and intriguing. We first visit the ‘Birthday
paradox’ (Paradoja del cumpleaños, https://es.wikipedia.org/wiki/Paradoja_del_cumplea%C3%B1os) and later ‘Blind search ’ in
Familias; hopefully the connection will be clear eventually. Imagine the first
day of school. The math teacher asks her 23 pupils. “What is the probability
that at least two of you have the same birthday”. The pupils guess, most of
them suggest probabilities close to zero. When the teacher says that the
probability is 0.51 (or 51%), she is met with disbelief. These bright and
interested students demand solid proof for this horrendous claim. Here it is:
We assume that there are 365 days. All days are equally likely to be a birthday
(not quite true, but no problem). As often for probability calculations it is
easier to consider the complimentary event, that birthdays differ. With two
random pupils, this probability is 364/365 and so the probability that two
randomly chosen pupils have the same birthday equals 1-364/365=1/365,
obviously. For r pupils (0 <r <= 365), the probability that no one have
the same birthday is (364/365)*(363/365)*…*((365-r+1)/365). Therefore, the
probability that at least two have the same birthday equals

1 –
(364/365)*(363/365)*…*((365-r+1)/365).

For r = 23,
we find 0.5072972 or 51% proving that the teacher is right. The teacher
illustrates and generalises her claim to classes with 1, 2, …., 50 pupils using
R:…..
……..
What’s the
connection to Blind search of Familias? Please be patient and wait for the next
posting …



« AnteriorSiguiente »