El modelo de reconocimiento de voz de propósito general de OpenAI es defectuoso, dicen los investigadores

La prensa asociada reportado Recientemente entrevistó a más de una docena de ingenieros de software, desarrolladores e investigadores académicos que están en desacuerdo con una afirmación del desarrollador de inteligencia artificial OpenAI de que una de sus herramientas de aprendizaje automático, que se utiliza en la documentación clínica en muchos sistemas de salud de EE. UU., tiene humanos. como la precisión.

POR QUÉ IMPORTA

Investigadores de la Universidad de Michigan y otros descubrieron que las alucinaciones de IA daban como resultado transcripciones erróneas, a veces con retórica racial y violenta además de tratamientos médicos imaginarios, según AP.

Es preocupante la adopción generalizada de herramientas que utilizan Whisper, disponible de código abierto o como APIeso podría conducir a diagnósticos erróneos de los pacientes o a una mala toma de decisiones médicas.

Hint Health es un proveedor de tecnología clínica que agregó Whisper API el año pasado, brindando a los médicos la capacidad de registrar las consultas de los pacientes dentro de la aplicación del proveedor y transcribirlas con los grandes modelos de lenguaje de OpenAI.

Mientras tanto, más de 30.000 médicos y 40 sistemas de salud, como el Children’s Hospital Los Angeles, utilizan IA ambiental de Nable que incorpora una herramienta basada en Whisper. Nabla dijo que Whisper se ha utilizado para transcribir aproximadamente siete millones de visitas médicas, según el informe.

Un portavoz de esa empresa citó un blog publicado el lunes que aborda los pasos específicos que toma la compañía para garantizar que los modelos se utilicen y controlen adecuadamente en su uso.

“Nabla detecta contenido generado incorrectamente basándose en ediciones manuales de la nota y comentarios en lenguaje sencillo”, dijo la compañía en el blog. “Esto proporciona una medida precisa del rendimiento en el mundo real y nos brinda información adicional para mejorar los modelos con el tiempo”.

Es de destacar que Whisper también está integrado en algunas versiones del chatbot insignia de OpenAI, ChatGPT, y es una oferta integrada en las plataformas de computación en la nube de Oracle y Microsoft, según AP.

Mientras tanto, OpenAI advierte a los usuarios que la herramienta no debe usarse en “dominios de alto riesgo” y recomienda en sus divulgaciones en línea no usar Whisper en “contextos de toma de decisiones, donde las fallas en la precisión pueden conducir a fallas pronunciadas en los resultados”.

“¿El próximo modelo mejorará el problema de que la v3 grande genera una cantidad significativa de alucinaciones?”, preguntó un usuario en Foro de discusión GitHub Whisper de OpenAI el martes. Una pregunta que al cierre de esta edición quedaba sin respuesta.

“Esto parece tener solución si la empresa está dispuesta a darle prioridad”, dijo a la AP William Saunders, un ingeniero de investigación con sede en San Francisco que dejó OpenAI a principios de este año. “Es problemático si publicas esto y la gente tiene demasiada confianza en lo que hace”. puede hacerlo e integrarlo en todos estos otros sistemas”.

Es de destacar que OpenAI publicó recientemente un oferta de trabajo para un científico investigador de IA en salud, cuyas principales responsabilidades serían “diseñar y aplicar métodos prácticos y escalables para mejorar la seguridad y confiabilidad de nuestros modelos” y “evaluar métodos utilizando datos relacionados con la salud, asegurando que los modelos proporcionen información precisa, confiable y confiable”. ”

LA TENDENCIA MÁS GRANDE

En septiembre, el fiscal general de Texas, Ken Paxton, anunció un acuerdo con el desarrollador de inteligencia artificial Pieces Technologies, con sede en Dallas, por acusaciones de que las herramientas de inteligencia artificial generativa de la compañía habían puesto en riesgo la seguridad del paciente al prometer demasiada precisión. Esa empresa utiliza genAI para resumir datos de registros médicos electrónicos en tiempo real sobre las condiciones y tratamientos de los pacientes.

Y en un estudiar Al observar la precisión del LLM en la producción de notas médicas por parte de la Universidad de Massachusetts Amherst y Mendel, una empresa de inteligencia artificial centrada en la detección de alucinaciones mediante IA, hubo muchos errores.

Los investigadores compararon GPT-4o de Open AI y Llama-3 de Meta y encontraron que de 50 notas médicas, GPT tenía 21 resúmenes con información incorrecta y 50 con información generalizada, mientras que Llama tenía 19 errores y 47 generalizaciones.

EN EL REGISTRO

“Nos tomamos en serio este tema y trabajamos continuamente para mejorar la precisión de nuestros modelos, incluida la reducción de las alucinaciones”, dijo un portavoz de OpenAI. Noticias de TI para el cuidado de la salud por correo electrónico el martes.

“Para el uso de Whisper en nuestra plataforma API, nuestras políticas de uso prohíben su uso en ciertos contextos de toma de decisiones de alto riesgo, y nuestra tarjeta modelo para uso de código abierto incluye recomendaciones contra el uso en dominios de alto riesgo. Agradecemos a los investigadores por compartir sus hallazgos. “.

Andrea Fox es editora senior de Healthcare IT News.
Correo electrónico: afox@himss.org
Healthcare IT News es una publicación de HIMSS Media.

Leave a Comment Cancel reply