PolifonIA | Inteligencia Artificial para Humanidades y Ciencias Sociales en América Latina | Proyecto de Divulgación Científica CIESAS | México
Conócenos
PolifonIA | Inteligencia Artificial para Humanidades y Ciencias Sociales en América Latina | Proyecto de Divulgación Científica CIESAS | México

Apóyate en IA para las transcripciones masivas

Tres profes

Apóyate en IA para las transcripciones masivas

polifonIA.org | Carlos Macías (CIESAS). La IA ofrece nuevas posibilidades, con múltiples recursos, para ser aprovechada en las disciplinas de Ciencias Sociales y Humanidades.

Ahora se cuenta con métodos eficientes para extraer y transcribir enormes volúmenes de información. No importa si nuestros archivos están almacenados en la nube o en discos.

En una entrega anterior, en enero, analizamos las ventajas que ofrece Gemini 3 (Google Cloud Vision) para recuperar y transcribir textos antiguos. PaleografIA Inteligente.

En aquella ocasión probamos la capacidad de Gemini con ejemplos documentales de archivos del siglo XVI, en castellano.

Ahora iremos un poco más allá, en busca de mayor capacidad y cobertura para la transcripción.

No todo es OpenClaw.

Un combo IA que sabe conjugar

El potencial que posee la API de Claude para las labores de transcripción, ha sido probado por colegas en varios países.

Es un hecho que este procedmiento podrá mejorar y simplificar aún más el manejo y empleo de los grandes repositorios documentales de carácter digital.

Integramos Anthropic con Python 3, para operarlos desde la consola (terminal) de nuestra computadora portátil.

Los archivos .txt van apareciendo y se agrupan en una carpeta especial, creada en nuestra laptop.

Se trata de tres componentes técnicos robustecidos, que juntos crean una pequeña orquesta inteligente, merced a la IA.

Con esta triada y con las instrucciones de un script, apreciamos con satisfacción cómo se van apilando, uno a uno, como tortillas, en nuestro disco duro, decenas de archivos ya convertidos en formato manejable, editable: .txt.

Terminal que ejecuta el script para transcribir archivos múltiples «pesados» desde Google Drive
Imagen: pantalla de la terminal en nuestra laptop, descargando los archivos ya editables.

Todas las transcripciones que de modo previo solicitamos a Anthropic API, dirigidas a la nube (Google Drive), se fraccionan para su mejor manejo, se auto almacenan en nuestra laptop y se tornan ya editables.

Listas para ser usadas para el mejor propósito.

Tipo de archivos transcritos

Los documentos transcritos residían en archivos considerados “pesados”. Los manteníamos en la nube (Google Drive), para posibilitar su manejo flexible y seguro.

Cada uno de las decenas de archivos pdf alcanzaba entre 300 y 700 MB. Esto es, entre 300 y 600 páginas de texto en imagen original.

Gran parte del contenido de los archivos se había originado en formato png y jpg. Y, años atrás, lo más que pudimos hacer -por lo laborioso-, fue convertirlos en pdf.

Queremos decir: eran en su origen imágenes de texto antiguo o contemporáneo. Documentos con cobertura temporal del siglo XVI al XX.

La ventaja de Anthropic API, instruido con el script pre elaborado en Python 3, es que puede dividir decenas de archivos “pesados” en manejables secciones (con la opción Batch API), y transcribirlas poco a poco, aunque nos demore algunas horas.

Iremos por partes. Regresaremos al proceso de transcripción, para ofrecer detalles del proceso.

Tipo de transcripciones realizadas
Fuente: PARES, Gobieno de España, Ministerio de Cultura. Archivo General de Indias, MEXICO,1064,L.1, 1542. Documento de 1542, que refiere a Andrés de Tapia, acompañante de Hernán Cortés en la llegada a Cozumel en 1519: «Relación de personas que pasaron a Nueva España y estuvieron presentes en su descubrimiento, toma y conquista, con Hernán Cortés y con Pánfilo de Narváez, y de las mujeres e hijos de los conquistadores y pobladores, que han dado peticiones y memoriales relativos al repartimiento general de la tierra«.
De OpenAI a Anthropic

El despegue de Anthropic, como compañía líder en investigación y seguridad en IA, merece algunas líneas adicionales.

Como se sabe, Anthropic fue creada por un pequeño equipo de investigación, encabezado por Darío y Daniela Amodei.

Ambos son hijos de un matrimonio formado por un artesano italoamericano (especializado en materiales de cuero para libros) y una consultora estadounidense (dedicada a desarrollar proyectos bibliotecarios).

El grupo fundador de Anthropic había colaborado desde 2016 con OpenAI.

OPenAI aspiraba a ser la mayor empresa precursora de IA desde su nacimiento, en 2015. Y lo logró a partir de 2022, al menos por tres años.

Contaba, por entonces, con el decidido respaldo de Elon Musk y de Peter Thiel, entre otros conocidos empresarios, bajo el liderazgo de Sam Altman.

OpenAI empezó a cobrar gran protagonismo en el campo de IA en diciembre de 2022, al publicarse su conocida versión 3 de ChatGPT.

A pesar de sus buenos resultados iniciales, OpenAI padeció una pequeña crisis interna en 2023, que incluyó el despido errático y temporal de Sam Altman.

Claude de Anthropic

El hecho fue que las diferencias de enfoque sobre temas de seguridad obligaron al grupo de investigadores encabezado por los hermanos Amodei a abandonar OpenAI, en 2021.

No pasó mucho tiempo para que los Amodei pudieran reunir fondos y crear un nuevo proyecto. Lo llamaron Anthropic, mismo que llegaron a catapultar en tan sólo cuatro años.

Su enfoque y su modelo de lenguaje conversacional intuitivo, ha cobrado mayor interés que ChatGPT entre los usuarios de diferentes países, al menos desde 2025.

Su modelo fue bautizado como Claude, en homenaje a Claude Shannon. Ni más ni menos que el precursor del análisis de procesamiento de datos digitales. Sus trabajos datan desde finales de la década de 1940, por lo que ha sido considerado uno de los padres de la inteligencia artificial.

[Para mayor información, véase: Andrew Andreev, “Anthropic PBC: historia, desarrollo, productos”, en ApiX-Drive, 19 de octubre, 2023].

¿Perteneces al prototipo de perfil generacional?

Ahora nos concentraremos en el potencial que ofrece Claude, para rescatar archivos.

Tomemos el caso de la necesidad personal más común.

¿Te identificas con la condición siguiente?

Tienes almacenado en un repositorio personal gran parte del trabajo de tu vida. Tu esfuerzo está plasmado en decenas de archivos en pdf. Has procurado preservar esos archivos por años.

Quizá tu memoria personal sólo retiene que son muy importantes para tu investigación. Pero es probable que no recuerdes los detalles de su contenido.

Una buena parte de esos archivos pesados (100-600 MB) consiste en gran cantidad de imágenes con texto. Ningún OCR ha podido rescatarlos con decoro, hasta ahora.

Has resguardado tus archivos de forma paciente ya en el enésimo disco externo. Eso sí, bien almacenado en algún cajón, en casa o en oficina.

Hace no muchos años decidiste subirlos a tu cuenta de Google Drive (o a cualquier otra nube), para garantizar su permanencia “en frío”.

Lo mismo guardas ahí textos del siglo XVI que del siglo XX. Documentos relevantes sin duda, capturados alguna vez por la vía del escáner, o con cámara fotográfica, o con algún otro dispositivo móvil.

Por su volumen, después de muchos años, casi has desistido.

No ha resultado accesible extraerlos -ni eficiente-, pero estas segura/o de que merecen ser editados, arreglados, para darles uso pleno.

La alternativa que ofrece la IA

Para lograr la transcripción masiva, lo siguiente sería un paso adelante.

El camino que hemos seguido ha resultado relativamente accesible. El requisito es que estés dispuesta/o a dedicarle algunas horas, con la mayor tranquilidad.

Debemos aceptar, con todo, que estaremos sujetos un poco a la congestión de Claude (Anthropic), pero con la debida paciencia se podrá completar la tarea en horas.

Incluso, para tal congestión existe una salida, con la condición de ser paciente. Sólo elegir la opción más lenta de descarga (Anthropic Batch API). Varias horas de auto descarga, a lo sumo un día.

Eso sí, siempre gastarás menos de lo que cuesta un disco duro de 2TB, sin necesidad de suscripción mensual.

Se requiere sólo cubrir la cantidad que consumas de tokens, por la transcripción de los archivos solicitados vía API.

Imagen: consola de Antropic API (Claude). No requiere pago de inscripción, ni de suscripción.
El estado de los OCRs

Hasta hace algunos años, el OCR original (Optical Character Recognition) había sido la tecnología dominante, como señalamos en un artículo previo. Convierte imágenes de texto en texto editable. Se originó en la década de 1970.

Hoy en día, se cuenta con soluciones más completas, integradas a la IA, que posibilitan ese trabajo.

No ha sido casual que existan signos de la transición hacia la IA, para el trabajo de recuperación documental de textos para ser editados.

En la acera contraria, uno de los ejemplos dramáticos de esa transición lo muestra el comportamiento decreciente del precio de Adobe en Nasdaq al día de hoy, la emisora cuyo software ha sido por décadas el más socorrido en estas labores: Acrobat.

Gráfica de desempeño del precio de la acción de Adobe en Nasdaq, 2025-2026
Fuente: Cotización de Adobe Systems Incorporated (ADBE)en el Índice Nasdaq, en Investig.com
Recursos tradicionales de transcripción

Poco después del periodo de pandemia, las alternativas de digitalización se multiplicaron.

Hoy existen herramientas eficientes que se apoyan en la IA. Podríamos definirlas como herramientas OCR especializadas.

Algunas de ellas empiezan a aprovechar más los recursos de la IA. Se trata de Mistral, Transkribus, Google Cloud Visión (ahora empleada en Gemini), Tesseract y muchas otras.

Servicios disponibles de OCR especializados
HerramientaTipoEspecialidadAcceso
TranskribusOCR especializadoManuscritos históricos s. XV-XIXFreemium + planes académicos
Google Cloud VisionOCR empresarialDetección automática de idiomasAPI de pago
Tesseract OCROpen SourceTextos impresos +100 idiomasGratuito (Apache)
EasyOCROpen SourceDeep learning +80 idiomasGratuito (Apache)
KrakenOpen SourceManuscritos medievales y modernosGratuito (Apache)
ABBYY FineReaderSoftware comercialAlta precisión +200 idiomasLicencia de pago
Recursos IA en pro de la metodología

También son útiles otros recursos de la IA para alcanzar una escala mayor. Se trata de los recursos que inciden en la adopción para la mejora a nivel metodológico. Proveen herramientas que han ido renovando la recolección de datos e información.

Entre ellas, son de destacarse las del siguiente cuadro. (Si deseas un mayor abundamiento al respecto, consulta uno de nuestros artículos previos).

Destaca NotebookLM, sin pago de suscripción, un cuaderno académico que se puede llevar en el celular: ayuda a reunir bibliografía, a concentrar apuntes y a crear resúmenes.

Recursos disponibles para la organización de las fuentes y el diseño de metodología cualitativa
CaracterísticaNotebookLMPerplexity AIQuestionPro AI
Enfoque PrincipalAnálisis profundo de fuentes propias y gestión de conocimiento.Búsqueda en tiempo real y síntesis de información web.Investigación de mercados, encuestas y paneles de audiencia.
Fuentes de DatosDocumentos personales (PDF, Docs), YouTube y enlaces específicos.Buscador indexado en tiempo real (300+ fuentes por consulta).Datos de encuestas, bases de CRM y paneles de consumidores.
Funciones ClaveAudio Overviews (podcasts), generación de diapositivas y guías de estudio.Modo «Deep Research», buscador Pro y creación de «Pages».Diseño de encuestas conversacional y análisis de sentimiento.
ColaboraciónNotebooks compartidos para equipos de estudio o trabajo.«Spaces» para proyectos conjuntos con permisos de equipo.Dashboards de reporte en tiempo real e integración con Slack/Teams.
Capacidad AgenteAgentes que actúan como «compañeros de equipo» sobre tus datos.«Custom Skills» para automatizar flujos de investigación repetitivos.Simulación de entrevistas con «Digital Twins» de consumidores.
Ideal para…Estudiantes, redactores y análisis de documentos extensos.Investigadores que necesitan datos actualizados y verificados.Profesionales de marketing y analistas de experiencia de cliente.
Procedimiento para la transcripción

Ahora sí, directo a los pasos que deben seguirse para lograr una transcripción masiva.

Desde una laptop. Tomaremos como ejemplo una Mac Air M4.

Requisitos:

  1. Abre una cuenta en https://console.anthropic.com
  2. Genera una clave API (se genera gratis, no se necesita suscripción).
  3. Se agrega un método de pago que pueda cubrir la cantidad esperada. Sólo pagarás los tokens que consumas: en realidad, con 5-25 dólares. (Alrededor de 450 pesos, con el ejemplo de 30 archivos que contienen unas 300 páginas por archivo. No se paga inscripción, ni se requiere estar suscrita/o).

Instalación:

Busca en tu equipo la «terminal» o consola.

En la Mac, teclea la palabra «terminal» en el buscador (Spotlight).

(Si trabajas con Microsoft, tienes Windows Terminal / PowerShell) 

La plataforma de Anthropic te dará una API Key.

Al abrir la terminal, escribe el código de abajo. (Sólo sustituye las palabras entre comillas que empiezan con «sk-…». Ahí inserta la API KEY que obtuviste.)

————

bash

# Abre Terminal en tu Mac

pip install anthropic

------------

# Guarda tu clave API

export ANTHROPIC_API_KEY="sk-ant-..."

—————

La API de Claude + Google Drive

¿Cómo funciona?

  • Claude conversacional gratuita te indicará cómo configurar tu conexión de Google Drive con OAuth.
  • La API Key de Claude (Anthropic) puede acceder directamente a Google Drive vía integración.
  • No necesitas descargar nada localmente. (Sólo autorizarla en Google Drive).
  • Anthropic procesa ágilmente archivos pdf de hasta 20 MB, por requerimiento en la API estándar.
  • Pero en nuestro caso, los archivos son de 100-600 MB. La solución es dividirlos en la nube (con Batch API), no en tu laptop.

Costo estimado de 42 archivos:

  • Entre 60 y 130 páginas × 42 archivos = ~2,500-5,460 páginas totales.
  • Con OCR + transcripción: ~$15-25 USD (API estándar).
  • Entre $7.50 y 12.50 USD (con Batch API, que es más lento, tiene 50% descuento).

El flujo recomendado:

  1. Conectas Claude API a tu Google Drive.
  2. Anthropic accede a los pdf directamente.
  3. Para archivos mayores a 20 MB, usas la Batch API para dividirlos (crea splits automáticos).
  4. Los resultados seran: archivos ligeros, editables, los puedes guardar en Google Drive o en una carpeta local.

Puedes auxiliarte en todo momento con la versión de Claude. Es muy eficiente, atenta y puntual, en cada instruccion técnica que te resulte necesaria.

Solicita que te prepare un script, de acuerdo con el número y carácterísticas de tus archivos.

El script lo insertarás en la terminal, para activar las instrucciones y la ejecución del trabajo.

Al final, el flujo de proyecto deberá concluir de la siguiente manera.

  • Configuración de Claude API en tu laptop.
  • Conexión de Google Drive con OAuth.
  • División automática de pdfs grandes.
  • Transcripción de documentos antiguos (o textos grandes recientes), de díficil captura.
  • Resolución de errores eventuales de sobrecarga.
  • Reorganización y culminación del proyecto (con ayuda de Claude gratuito)
  • Obtención de la pila de nuevos archivos editables en .txt
Resumen

Cuando tengas la lista archivos .txt transcritos, te recomiendo que le pidas a Claude elaborar otro script, para que queden enlazados y organizados en Microsoft Word todos tus textos.

¿Por qué es útil el último script que te prepare Claude?

  • Guardará todo organizado en word_files/
  • Leerá todas tus subcarpetas de expedientes.
  • Ordenará automáticamente los .txt por número (part1, part2… part26).
  • Combinará -si lo deseas- todos en un solo archivo Word profesional, por expediente.
  • Dejará configurado el espacio que le pidas (1.5, por ejemplo), los márgenes y separadores de guión.

Sin duda, podrás toparte con algunos pequeños errores durante el proceso.

Lo importante es que la conversación en modalidad gratuita con Claude pueda ayudarte a resolver todas y cada una de las dudas particulares o generales, hasta lograr la transcripción completa.

Esperamos que tengas buenos resultados en el procedimiento de transcripción.

Estamos seguros de que lo terminarás haciendo (y ejemplificando) mejor que nosotros.

Imagen de la portada: Gemini 3. Texto de ayuda para el prompt de la imagen:

«El legado en la era digital»: Académicos latinoamericanos debaten estrategias clave para preservar décadas de investigación ante el impacto de la Inteligencia Artificial. La conservación de archivos digitales valiosos es hoy más crítica que nunca. #IAyAcademia #LegadoDigital #InvestigaciónLatam #PreservaciónDigital

Comenta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Relacionados

Enfoque de riesgo

Enfoque de riesgo IA y regulaciones nacionales

Los esfuerzos latinoamericanos para regular la Inteligencia Artificial se centran en el Enfoque de riesgo IA, que se pla
Leer mas
frack

Mapa interactivo IA de fracking en América

A tono con el artículo previo, exploraremos más de la versión de Claude Opus 4.7 de Anthropic, ahora para ilustrar el
Leer mas
Globo

Claude Opus 4.7 para un mapa tridimensional

La nueva versión de Claude Anthropic (Opus 4.7 adaptive) permite insertar con facilidad un mapa interactivo a una publi
Leer mas