😎 Rebajas de verano - Hasta un 50% de descuento en las selecciones de acciones de IA de InvestingProEMPECEMOS

OpenAI transcribió un millón de horas de videos de Youtube para entrenar GPT-4: NYT

Publicado 07.04.2024, 00:52
© Reuters.  OpenAI transcribió un millón de horas de videos de Youtube para entrenar GPT-4: NYT

Nueva York, 6 abr (.).- OpenAI creó un programa para transcribir más de un millón de horas de videos de Youtube con el objetivo de entrenar el modelo de generación de texto GPT-4, su modelo más avanzado abierto al público, según una exclusiva de The New York Times (NYT) publicada este sábado.

El diario asegura que OpenAI, una empresa sin ánimo de lucro, desarrolló un programa bautizado como 'Whisper' que extrajo texto de más de un millón de horas en videos para obtener datos de entrenamiento de modelos de generación de lenguaje, conocidos como LLM.

Las fuentes consultados por el NYT aseguran que el equipo encargado de Whisper incluía a Greg Brockman, presidente de OpenAI.

La empresa mantuvo un debate interno sobre si la extracción de texto de los vídeos alojados en la plataforma propiedad de Google (NASDAQ:GOOGL) suponían una violación de términos de uso.

Según el artículo, OpenAI consideró que necesitaba más datos de entrenamiento en 2021 y discutió si obteneros de Youtube, podcast o audiolibros.

En una reciente entrevista el consejero ejecutivo de YouTube, Neal Mohan, aseguró que si OpenAI ha usado vídeos de la plataforma para entrenar 'Sora', su modelo de generación de vídeos realistas, estaría violando sus términos de servicio.

"Los creadores de contenido que vienen a Youtube tienen ciertas expectativas, entre ellas que los términos de servicio se cumplen. Nuestros términos permiten extraer cierto contenido como el título, el nombre de canal o el nombre del creador para facilitar la web abierta", explicó Mohan.

"No está permitido descargar las transcripciones o partes de los videos. Eso es una violación clara de nuestro términos de contenido", añadió el directivo.

La portavoz de OpenAI Lindsay Held indicó en una respuesta a la exclusiva obtenida por The Verge que la compañía crea bases de datos "únicas" y utiliza "numerosas fuentes disponibles públicamente y realiza acuerdos para obtener dato que no es público".

Google transcribe los videos de Youtube para obtener texto para alimentar a sus modelos de generación de texto, algo que violaría los derechos de los creadores que suben sus videos a la plataforma, según fuentes consultadas por el diario.

Los derechos sobre el contenido usado para entrenar modelos de Inteligencia Artificial aún no están bien definidos y la competitividad para conseguir los mejores modelos de generación de contenido realista está llevando a empujar las fronteras de la legalidad en derechos de autor.

El gigante tecnológico Meta, creador de Facebook (NASDAQ:META), debatió el año pasado si comprar la editorial Simon & Schuster para obtener acceso a su material de largo formato, según el contenido de reuniones entre gerentes, abogados e ingenieros de la compañía a los que tuvo acceso el NYT.

Últimos comentarios

Instala nuestra app
Aviso legal: Las operaciones con instrumentos financieros o criptomonedas implican un elevado riesgo, incluyendo la pérdida parcial o total del capital invertido, y pueden no ser adecuadas para todos los inversores. Los precios de las criptomonedas son extremadamente volátiles y pueden verse afectados por factores externos de tipo financiero, regulatorio o político. Operar sobre márgenes aumenta los riesgos financieros.
Antes de lanzarse a invertir en un instrumento financiero o criptomoneda, infórmese debidamente de los riesgos y costes asociados a este tipo operaciones en los mercados financieros. Fije unos objetivos de inversión adecuados a su nivel de experiencia y su apetito por el riesgo y, siempre que sea necesario, busque asesoramiento profesional.
Fusion Media quiere recordarle que la información contenida en este sitio web no se ofrece necesariamente ni en tiempo real ni de forma exacta. Los datos y precios de la web no siempre proceden de operadores de mercado o bolsas, por lo que los precios podrían diferir del precio real de cualquier mercado. Son precios orientativos que en ningún caso deben utilizarse con fines bursátiles. Ni Fusion Media ni ninguno de los proveedores de los datos de esta web asumen responsabilidad alguna por las pérdidas o resultados perniciosos de sus operaciones basados en su confianza en la información contenida en la web.
Queda prohibida la total reproducción, modificación, transmisión o distribución de los datos publicados en este sitio web sin la autorización previa por escrito de Fusion Media y/o del proveedor de los mismos. Todos los derechos de propiedad intelectual están reservados a los proveedores y/o bolsa responsable de dichos los datos.
Fusion Media puede recibir contraprestación económica de las empresas que se anuncian en la página según su interacción con éstas o con los anuncios que aquí se publican.
Este aviso legal está traducido de su texto original en inglés, versión que prevalecerá en caso de conflicto entre el texto original en inglés y su traducción al español.
© 2007-2024 - Fusion Media Ltd. Todos los Derechos Reservados.