Descripción de la visión informática
La visión informática es un área de la inteligencia artificial que trata el procesamiento visual. Ahora se explorarán algunas de las posibilidades que ofrece.
La aplicación Seeing AI es un buen ejemplo del potencial de la visión informática. Diseñada para usuarios invidentes y con visión reducida, la aplicación Seeing AI aprovecha la eficacia de la inteligencia artificial para abrir el mundo visual y describir personas, texto y objetos cercanos.
Modelos y funciones de Computer Vision
La mayoría de las soluciones de visión artificial se basan en modelos de Machine Learning que se pueden aplicar a la entrada visual de cámaras, videos o imágenes. En la tabla siguiente se describen aplicaciones comunes de visión informática.
Tarea | Descripción |
---|---|
Clasificación de imágenes | La clasificación de imágenes implica entrenar un modelo de Machine Learning para clasificar imágenes en función de sus contenidos. Por ejemplo, en una solución de control del tráfico, podría usar un modelo de clasificación de imágenes para clasificar las imágenes según el tipo de vehículo que contienen, como taxis, autobuses, ciclistas, etc. |
Detección de objetos | Los modelos de Machine Learning de detección de objetos están entrenados para clasificar objetos individuales dentro de una imagen, y para identificar su ubicación con un rectángulo delimitador. Por ejemplo, una solución de control del tráfico podría usar la detección de objetos para identificar la ubicación de diferentes clases de vehículos. |
Segmentación semántica | La segmentación semántica es una técnica avanzada de aprendizaje automático en la que los píxeles individuales de la imagen se clasifican según el objeto al que pertenecen. Por ejemplo, una solución de control del tráfico podría superponer imágenes de tráfico con capas de "máscara" para resaltar diferentes vehículos mediante colores concretos. |
Análisis de imágenes | Puede crear soluciones que combinen modelos de Machine Learning con técnicas avanzadas de análisis de imágenes para extraer información de las imágenes, incluidas "etiquetas" que podrían ayudar a catalogar la imagen o incluso subtítulos descriptivos que resuman la escena que se muestra en la imagen. |
Detección, análisis y reconocimiento de caras | La detección de caras es una forma especializada de detección de objetos que busca caras humanas en una imagen. Esto se puede combinar con técnicas de clasificación y análisis de geometría facial para reconocer a los individuos en función de sus rasgos faciales. |
Reconocimiento óptico de caracteres (OCR) | El reconocimiento óptico de caracteres es una técnica que se usa para detectar y leer texto en imágenes. Puede usar OCR para leer texto en fotografías (por ejemplo, señales de tráfico o escaparates de tiendas), o bien para extraer información de documentos escaneados, como cartas, facturas o formularios. |
Servicios de visión artificial en Microsoft Azure
Puede usar Visión de Azure AI de Microsoft para desarrollar soluciones de visión por ordenador. Las características de servicio están disponibles para su uso y pruebas en Azure Vision Studio y otros lenguajes de programación. Algunas características de Visión de Azure AI son:
- Análisis de imagen: funcionalidades para analizar imágenes y vídeos y extraer descripciones, etiquetas, objetos y texto.
- Face: funcionalidades que permiten crear soluciones de detección de caras y reconocimiento facial.
- **Reconocimiento óptico de caracteres (OCR):**funcionalidades para extraer texto impreso o manuscrito de imágenes, lo que permite el acceso a una versión digital del texto escaneado.