OpenEvidence, valorado en 425 millones de dólares (mdd), está asumiendo uno de los grandes desafíos de ingeniería de la IA: grandes modelos de lenguaje cuyo entrenamiento está estancado en el pasado.

Una de las limitaciones de los grandes modelos de lenguaje es que su formación está congelada en el tiempo. Si le pregunta al chatbot viral ChatGPT de OpenAI si las vacunas Covid funcionan contra la variante más común que circula en 2023, responde: “Como modelo de lenguaje de IA, no tengo acceso a datos o información en tiempo real más allá de mi última actualización en septiembre de 2021”.

Mucho ha cambiado desde entonces: hay nuevas cepas de Covid, nuevas aprobaciones de vacunas y medicamentos, y decenas de miles de nuevos estudios científicos. Para que los chatbots sean útiles en un entorno médico, necesitarán acceso a las últimas investigaciones. Armado con 32 mdd en capital, casi una docena de empleados con doctorados (o candidatos a doctorado) y una supercomputadora en el desierto de Nevada, Daniel Nadler ha estado trabajando para resolver este problema de límite de conocimiento con su nueva empresa OpenEvidence.

El reentrenamiento constante de los modelos de aprendizaje automático requiere enormes cantidades de potencia informática costosa, pero hay otra opción. Es un desafío técnico y de ingeniería que implica “unir estos modelos de lenguaje con el enorme flujo de documentos clínicos en tiempo real”, dice el fundador de OpenEvidence, Nadler, de 40 años. Esencialmente, otorgar a la IA acceso a un nuevo conjunto de datos justo antes de que responda la pregunta, un proceso que los científicos informáticos llaman “generación aumentada de recuperación”. Si le haces al chatbot de OpenEvidence la pregunta sobre las vacunas y la nueva variante de Covid, responde que ‘los estudios específicos sobre esta variante son limitados’ e incluye información de estudios publicados en febrero y mayo de 2023 con citas. La principal diferencia, dice Nadler, es que su modelo “puede responder con un libro abierto, a diferencia de un libro cerrado”.

No te pierdas: No lo sabías, pero con un clic, los médicos del IMSS ya ven tu historial clínico de 7 años

Esta no es la primera vez que Nadler es fundador de una startup de IA. Vendió su empresa anterior, Kensho Technologies, a S&P Global por 550 mdd (más 150 mdd en acciones) en 2018. Kensho es una herramienta impulsada por IA para traders de Wall Street que analiza millones de puntos de datos de mercado para ayudar a identificar oportunidades de arbitraje.

Durante la pandemia de Covid, a medida que la cantidad de estudios científicos sobre Covid-19 se disparó de cero a decenas de miles en el lapso de unos pocos meses, Nadler vio que los proveedores de atención médica enfrentaban un problema similar al de los traders: cómo separar información creíble y procesable del ruido. Pronto se dio cuenta de que eso no solo era cierto para los estudios de Covid, sino también para el campo médico en general, ya que cada minuto se publican alrededor de dos artículos científicos. “La construcción fundamental del problema era idéntica”, dice Nadler. “Una sobrecarga de información y la necesidad de clasificar esa información y la necesidad de usar computadoras para hacerlo”.

Los inversionistas de capital de riesgo han invertido más de 46 mil millones de dólares en nuevas startups de inteligencia artificial y machine learning centradas en la atención médica de Estados Unidos durante la última década, según datos de PitchBook. La inversión alcanzó un máximo de 13 mil 400 mdd en 2021 y se redujo a 10 mil 300 mdd en 2022. Las nuevas empresas han recaudado 3 mil mdd en 205 acuerdos en lo que va de este 2023.

Nadler fundó OpenEvidence en noviembre de 2021. Después de invertir 5 millones de su propio dinero, dice que cerró una ronda de financiación de la Serie B de 27 mdd de inversionistas ores externos en julio de 2022, valorando la puesta en marcha en 425 mdd. Abrió la ronda a los antiguos inversionistas de Kensho, incluido el capitalista de riesgo multimillonario Jim Breyer, el cofundador de Vista Equity Partners y multimillonario Brian Sheth y el banquero de inversión Ken Moelis, entre otros. En marzo, OpenEvidence fue seleccionada para participar en la aceleradora de Mayo Clinic Platform. Desde entonces, Nadler dice que más de 10 mil médicos se han registrado para el acceso anticipado, que es lo que lo impulsa a salir del sigilo ahora.

¿Te gusta informarte por Google News? No te pierdas nuestro Showcase

Así funciona la IA detrás de OpenEvidence

Nadler dice que OpenEvidence está tratando de hacerse cargo de la gran base de datos utilizada por 2 millones de trabajadores de la salud en todo el mundo llamada UpToDate, de la empresa de datos globales Wolters Kluwer, con sede en los Países Bajos. Las soluciones clínicas en la división de salud de Wolters Kluwer, que incluye UpToDate, generaron más de 900 mdd en ingresos en 2022. UpToDate depende de más de 7000 expertos humanos para escribir y editar las entradas sobre temas médicos, según Suzanne Moran, portavoz de Wolters Kluwer Health. “Los temas de UpToDate se revisan cuando se publica nueva información importante”, dijo Moran en un comunicado. Los editores revisan más de 420 revistas revisadas por pares.

Donde Nadler ve que la IA tiene una ventaja sobre las entradas editadas por humanos, es que OpenEvidence es interactiva en lugar de una página estática de texto, lo que significa que los usuarios pueden adaptar sus preguntas a escenarios de pacientes precisos y hacer seguimientos, en lugar de tener que leer enormes trozos de texto. También puede escanear decenas de miles de revistas en lugar de cientos. El grupo de documentos del que OpenEvidence está recuperando información incluye más de 35 millones de artículos de revistas. Nadler dice que revisa la Biblioteca Nacional de Medicina, que incluye más de 31 mil revistas revisadas por pares, varias veces al día. Él dice que hay un retraso de alrededor de 24 horas para procesar los nuevos artículos de revistas y ponerlos en el grupo de recuperación.

Sin embargo, todos esos datos plantean un problema potencial para los objetivos de Nadler: no todos los artículos de revistas se crean de la misma manera en lo que respecta a la calidad de lo que publican. La comunidad científica tiene un sistema de clasificación conocido como factor de impacto, lo que significa que las revistas que son más citadas son más importantes en términos relativos en comparación con las revistas con menos citas. Los modelos de OpenEvidence tienen esto en cuenta al recuperar información del conjunto de nuevos artículos de revistas. “Tiene respuestas ponderadas por evidencia”, dice Nadler, lo que significa que se tiene en cuenta la “calidad de la fuente de entrada”.

Cada modelo de lenguaje grande se comporta de manera diferente, pero la idea general es que componen respuestas prediciendo la siguiente palabra más probable en una oración. Cuando los modelos tienden a dar una respuesta incorrecta es cuando “muchas terminaciones diferentes [son] igualmente probables”, dice Uri Alon, investigador postdoctoral en el Instituto de Tecnologías del Lenguaje de la Universidad Carnegie Mellon, que no está afiliado a OpenEvidence.

Si toma un modelo que ha sido entrenado en internet y le pregunta sobre una persona famosa, es probable que obtenga información biográfica correcta. Pero si pregunta sobre una persona normal sobre la que no tiene datos de entrenamiento, podría generar una respuesta incorrecta, conocida como “alucinación”. Ahora, si proporciona al modelo un conjunto de información, incluidos los datos biográficos de esa persona normal, es mucho más probable que lo haga bien. “Algunos enfoques le permiten no solo generar una respuesta que sea coherente con los documentos que recupera”, dice Alon. “Pero también extraiga la oración exacta o el párrafo exacto que lo dice”.

Este es el enfoque que adopta OpenEvidence al proporcionar citas de los artículos de revistas de los que se extrae. Sin embargo, Alon advierte que si bien los sistemas de recuperación aumentada pueden ayudar a reducir las alucinaciones, nada es a prueba de errores. Estos modelos siempre serán falibles al igual que los humanos. “Si le das a un humano un montón de documentos o párrafos, deja que el humano los lea y luego responda preguntas, y también pídele que te diga de dónde proviene su respuesta en esos documentos, incluso los humanos cometerían errores”, dice.

OpenEvidence, gratuita de momento

En este momento, OpenEvidence es de uso gratuito para los primeros usuarios que son profesionales médicos con licencia. Parte de la razón de esto es la cantidad de poder de cómputo, y el gasto, que se necesita para ejecutar las consultas. Antonio Forte, profesor de cirugía plástica en Mayo Clinic que forma parte del consejo asesor médico de OpenEvidence, dice que usa UpToDate con regularidad. Forte dice que la mayor diferencia al usar OpenEvidence en las últimas semanas ha sido el ahorro de tiempo. En lugar de tener que leer el equivalente a un capítulo de un libro, puede obtener una respuesta “en 30 segundos, no en 10 minutos”.

La esperanza es que otros trabajadores de la salud tengan una reacción similar a Forte. Nadler dice que aún no ha decidido un modelo de ingresos. Está debatiendo entre el modelo basado en suscripción y el basado en anuncios, pero se inclina hacia un modelo híbrido basado en anuncios con una venta adicional de suscripción. Pero una cosa es segura. OpenEvidence no se convertirá en un chatbot para el paciente promedio.

“Eso no es un problema técnico. Ese es un problema regulatorio y ético”, dice Nadler, por lo que quiere crear una herramienta para ayudar a los médicos y enfermeras, pero que sigan confiando en su juicio humano. “[Existe] un límite muy firme para cualquier daño concebible que pueda derivarse del uso de la tecnología para un paciente, porque siempre está siendo intermediado por un profesional”.

Esta nota fue publicada originalmente en Forbes US

 

Siguientes artículos

IA desastres naturales
Tendrá Inteligencia Artificial papel importante en prevención de desastres naturales
Por

Se ahorrarán minutos al predecir un fenómeno meteorológico adverso, dice funcionaria de la Unión Europea.