139 Shares 7578 views

visión por ordenador moderno. Tareas y tecnología de visión por ordenador. Programación de Visión por Computador en Python

Cómo enseñar a un ordenador para entender lo que se representa en la imagen o imágenes? Esto parece simple, pero para un ordenador esto es sólo una matriz constituida por ceros y unos de los que desea extraer información importante.

¿Cuál es la visión por ordenador? Es la capacidad de "ver" el equipo

Visión – es una importante fuente de información para la persona que lo usa, se obtiene, de acuerdo con diversas estimaciones, del 70 al 90% de toda la información. Y, por supuesto, si queremos crear un coche elegante, tenemos que aplicar las mismas habilidades y equipo.

El problema de la visión por ordenador se puede afirmar con toda claridad. ¿Qué es "ver"? Se entiende que donde hay sólo mirar. Llegó a la conclusión de que las diferencias de visión por ordenador y la visión humana. Visión para nosotros – es una fuente de conocimiento sobre el mundo, así como una fuente de información métrica – es decir, la capacidad de entender las distancias y tamaños.

imagen del núcleo semántico

En cuanto a la imagen, podemos describirlo por una serie de atributos, por así decirlo, para extraer información semántica.

Por ejemplo, mirando a esta imagen, podemos decir que está al aire libre. ¿Cuál es el tráfico de la ciudad. Que hay coches. podemos suponer que este es el sudeste asiático de la configuración del edificio y jeroglíficos. El retrato de Mao Zedong a entender que se trata de Pekín, y si alguien vio vídeo en directo o él mismo había estado allí, diría que se trata de la famosa plaza de Tiananmen.

Lo que podemos decir más sobre la imagen, viéndolo? Podemos identificar objetos en la imagen, por decir, que hay gente aquí más cerca – valla. Aquí sombrillas, carteles de ese edificio. Estos son ejemplos de clases de objetos es muy importante, que se dedican a la búsqueda por el momento.

Todavía podemos aprender algunas de las características o atributos de los objetos. Por ejemplo, aquí podemos determinar que esto no es un retrato de un chino común, a saber, Mao Zedong.

Según el vehículo se puede determinar que se trata de un objeto en movimiento, y es difícil, que no se deforma durante el movimiento. Acerca de los indicadores se puede decir que los objetos, sino que también se están moviendo, pero no son difíciles, constantemente deformados. Y en la escena no es el viento, lo que puede determinarse mediante el desarrollo de banderas, e incluso puede determinar la dirección del viento, por ejemplo, que sopla de izquierda a derecha.

Las distancias y longitudes en la visión por ordenador

Muy importante es la información acerca de la ciencia métrica de visión por ordenador. Se trata de todo tipo de distancias. Por ejemplo, para el Rover es particularmente importante porque los equipos son de la Tierra alrededor de 20 minutos y responden tanto. En consecuencia, el enlace de ida y vuelta – 40 minutos. Y si hacemos un plan para los comandos de movimiento de la Tierra, es necesario tener esto en cuenta.

Integrado con éxito la tecnología de visión por ordenador en los videojuegos. Según el video, se puede construir modelos tridimensionales de objetos, personas, y fotos en el usuario puede restaurar los modelos tridimensionales de ciudades. Y luego caminar sobre ellas.

visión por ordenador – una gama bastante amplia. Está estrechamente entrelazada con varias otras ciencias. Parte de la visión por ordenador Captura el área de procesamiento de imágenes y visión por ordenador asigna a veces, históricamente.

Análisis, reconocimiento de patrones – el camino a la creación de una inteligencia superior

Examinemos estos conceptos por separado.

Procesamiento de Imágenes – esta es un área de algoritmos, en la que la entrada y salida – imagen, y tenemos que haga algo.

análisis de imagen – es el área de visión por ordenador, que se centra en el trabajo con la imagen de dos dimensiones y sacar conclusiones de esto.

Reconocimiento de Patrones – una disciplina matemática abstracta que reconoce los datos en forma de vectores. Es decir, en la entrada – vector y tenemos algo que ver con ello. Cuando el vector es, no estamos tan importante saber.

visión por ordenador – que originalmente era restaurar la estructura de las imágenes bidimensionales. Hoy en día esta zona se ha vuelto más amplia y puede ser interpretado como una aceptación de todos los objetos físicos que, sobre la base de la imagen. Es decir, es la tarea de la inteligencia artificial.

En paralelo con la visión artificial en un campo completamente diferente, en la geodesia, la fotogrametría ha evolucionado – una medida de la distancia entre los objetos en imágenes bidimensionales.

Los robots pueden "ver"

Y, finalmente, – se trata de la visión artificial. Bajo la visión artificial significa una visión de los robots. Esa es la decisión de algunos problemas de producción. Podemos decir que la visión artificial es una gran ciencia. Combina algunas de otra ciencia. Y cuando la visión por ordenador recibe cualquier aplicación particular, se convierte en una visión de la máquina.

región de visión por ordenador tiene una masa de aplicaciones prácticas. Se asocia con la automatización de la producción. En las empresas ser más eficientes para sustituir el trabajo manual por la máquina. La máquina no se cansa, no dormir, no tenía horario de trabajo irregular, que está dispuesta a trabajar los 365 días del año. Así, mediante el trabajo de la máquina, podemos conseguir un resultado garantizado en un momento determinado, y es muy interesante. Todas las tareas tienen un uso claro para los sistemas de visión por ordenador. Y no hay nada mejor que ver los resultados inmediatamente en la imagen sólo en la etapa de cálculo.

En el umbral del mundo de la inteligencia artificial

Además de la zona – que es difícil! Una parte importante del cerebro responsable de la visión, y se cree que si enseña a su equipo a "ver", es decir, la visión completa uso de la computadora, que es uno de los objetivos de la inteligencia artificial completa. Si podemos resolver el problema en el plano humano, muy probablemente, al mismo tiempo, vamos a resolver el problema de la gripe aviar. Eso es muy bueno! O no muy bueno, si nos fijamos, "Terminator 2".

¿Por qué es la visión – es difícil? Debido a que la imagen del mismo objeto puede variar mucho dependiendo de factores externos. Dependiendo del objeto de puntos de observación parecen diferentes.

Por ejemplo, una y la misma figura, desde ángulos diferentes. Y lo que es más interesante en la figura puede ser un ojo, dos ojos y medio. Y dependiendo del contexto (si esta imagen de hombre con una camisa con los ojos pintados), el ojo puede ser más de dos.

El equipo todavía no entiende, pero "ve"

Otro factor que hace que sea difícil – es la iluminación. La misma escena con diferente iluminación tendrá un aspecto diferente. tamaño del objeto puede variar. Además, los objetos de cualquier clase. ¿Cómo se puede decir de un hombre que su altura de 2 metros? Nada. crecimiento humano y puede ser 2,3 m, y 80 cm. Al igual que con otros tipos de objetos, sin embargo, son objetos de la misma clase.

objetos vivos Particularmente se someten a una variedad de cepas. Cabello, los atletas, los animales. A ver fotos de los caballos corriendo, determinar lo que está sucediendo con su melena y la cola es simplemente imposible. A la superposición de objetos en una imagen? Si usted empuja una imagen de ordenador, incluso la máquina más potente encontrar dificultades para dar la decisión correcta.

Vista siguiente – es un disfraz. Algunos objetos, animales haciéndose pasar por el medio ambiente, y bastante habilidad. Y los mismos puntos y colorear. Sin embargo, los vemos, aunque no siempre de lejos.

Otro problema – el movimiento. Los objetos en movimiento inimaginable sufren deformación.

Muchos de los objetos son muy variables. Aquí, por ejemplo, en las dos fotos de abajo los objetos de la "silla".

Y en esta se puede sentar. Pero para enseñar a una máquina, de manera que las diferentes cosas de la forma, el color, el material, todo es un objeto "silla" – es muy difícil. Este es el desafío. Para integrar métodos de visión por ordenador – es enseñar a una máquina de comprender, analizar, especular.

La integración de la visión artificial en varias plataformas

La masa de la visión por ordenador comenzó a penetrar más en 2001, cuando se creó el primer detector de caras. Lo hicimos dos autores: Viola, Jones. Fue el primer algoritmo lo suficientemente rápido y fiable, lo que demuestra el poder de los métodos de aprendizaje automático.

Ahora la visión por ordenador tiene suficientes nuevas aplicaciones prácticas – el reconocimiento del rostro humano.

Sin embargo, para reconocer al hombre como en las películas – en ángulos aleatorios, diferentes condiciones de iluminación – es imposible. Sin embargo, para resolver el problema, o uno que es diferente con diferentes personas de iluminación o en una pose diferente, similar al de la fotografía en el pasaporte, es posible con un alto grado de confianza.

una foto de pasaporte requisitos en gran parte debido a la característica de los algoritmos de reconocimiento facial.

Por ejemplo, si usted tiene un pasaporte biométrico, en algunos aeropuertos modernos, se puede utilizar el sistema de control de pasaportes automático.

problema no resuelto de la visión por ordenador – la capacidad de reconocer cualquier texto

Tal vez alguien utiliza el sistema OCR. Uno de ellos – un lector de lujo, es muy popular en el sistema de RuNet. Hay muchas formas en la que rellenar los datos, están perfectamente escaneados, la información es reconocido por el sistema muy bien. Pero con cualquier texto en la imagen, la situación es mucho peor. Este problema sigue sin resolverse.

Los juegos que implican la visión por ordenador, la captura de movimiento

gran área separada – es la creación de modelos tridimensionales y de captura de movimiento (que se implementa con bastante éxito en los juegos de ordenador). El primer programa, que utiliza la visión por ordenador – un sistema de interacción con el ordenador mediante gestos. Cuando se creó fue un montón de cosas abiertas.

El algoritmo está diseñado simplemente, sino para configurar que se tardó en crear un generador de imágenes sintéticas de la gente para conseguir un millón de imágenes. Superordenador con ellos para elegir los parámetros del algoritmo, por la que ahora funciona bien.

Eso es un millón de imágenes y tiempo de la semana superordenador contable posible crear un algoritmo que consume el 12% de la capacidad de un procesador y permite a una persona para percibir la posición en tiempo real. Este sistema Kinect de Microsoft (2010).

Búsqueda de imágenes de contenido le permite subir fotos para el sistema, y los resultados de la misma dará todas las imágenes con el mismo contenido y hecho desde el mismo ángulo.

Ejemplos de visión por ordenador: tridimensionales y mapas bidimensionales ahora se están haciendo con él. Los mapas de navegación para automóviles se actualizan periódicamente de acuerdo con el DVR.

Hay una base de datos con miles de fotos con etiquetas geográficas. Al descargar la imagen en la base de datos, se puede determinar dónde se hizo, e incluso con un poco de perspectiva. Por supuesto, siempre que el lugar es lo suficientemente populares que a la vez los turistas y formuló una serie de fotos de la zona han estado allí.

los robots están en todas partes

Robótica en el momento presente, en todas partes, sin que de ninguna manera. Ahora bien, hay vehículos que tienen cámaras especiales que reconocen los peatones y señales de tráfico para transmitir órdenes al conductor (esto de una manera un programa de ordenador para ver, ayuda al conductor). Y hay un vehículos robóticos completamente automatizados, pero no puede basarse únicamente en el sistema de cámaras de vídeo sin el uso de una gran cantidad de información adicional.

Cámara moderna – se trata de una cámara oscura analógica

Vamos a hablar de la imagen digital. Las cámaras digitales modernas están dispuestos en el principio de la cámara oscura. Sólo que en vez del orificio a través del cual la luz entra en el haz y proyecta sobre la pared posterior de la cámara del circuito de tema, tenemos un sistema óptico especial llama la lente. Su objeto es recoger un gran haz de luz y convertirla de forma que todos los rayos pasan a través de un punto virtual con el fin de obtener la proyección y formar una imagen en una película o matriz.

Las cámaras digitales modernas (matriz) se compone de elementos individuales – píxeles. Cada píxel puede medir la energía de la luz que incide sobre el total de píxeles, y emitir un número de salida. Por lo tanto, en una cámara digital, se obtiene en lugar de las mediciones de luz configurar el brillo de la imagen, atrapados en un solo píxel – el equipo de campo de visión. Por lo tanto, cuando la imagen que vemos no está fluyendo líneas y contornos claros, y una rejilla de cuadrados de colores en diferentes colores – píxeles.

Abajo se puede ver la primera imagen digital en el mundo.

Pero en esta imagen no lo es? Color. ¿Qué es el color?

percepción psicológica del color

Color – esto es lo que vemos. El color de la una y la misma cosa para los seres humanos y gatos serán diferentes. Ya que (los seres humanos) y el sistema óptico de animales – la visión es diferente. Por lo tanto, el color – es la calidad de nuestra visión psicológica que se produce cuando la observación de objetos y la luz. Y no una propiedad física del objeto y la luz. Color – es el resultado de la interacción de los componentes de la luz, y la escena de nuestro sistema visual.

Programación de Visión por Computador en Python usando bibliotecas

Si usted ha decidido a participar seriamente en el estudio de la visión por ordenador, deben prepararse inmediatamente para una serie de dificultades, esta ciencia no es el más fácil y esconde una serie de trampas. Sin embargo, "Programación de Visión por Computador de la Python" de la autoría de Jan Erik Solema – un libro que describe todo el lenguaje más simple. Aquí se familiarizará con los métodos de reconocimiento de diversos objetos en 3D, aprender a trabajar en la imagen estéreo, la realidad virtual y muchas otras aplicaciones de visión por ordenador con. En el libro hay suficientes ejemplos en Python. Sin embargo, las explicaciones se presentan, por así decirlo, generalizado, a fin de no sobrecargar demasiado la investigación y los datos duros. El trabajo adecuado para los estudiantes, aficionados y entusiastas. Descargar este libro y otros acerca de la visión por ordenador (formato pdf) puede estar en la red.

Por el momento, hay biblioteca de código abierto de algoritmos de visión artificial y procesamiento de imágenes y algoritmos numéricos OpenCV. Se lleva a cabo en la mayoría de los lenguajes de programación modernos, es de código abierto. Si hablamos de la visión por ordenador, utiliza Python como lenguaje de programación, sino que también cuenta con el apoyo de la biblioteca, además, está en constante evolución y tiene una gran comunidad.

La empresa "Microsoft" ofrece sus servicios Api-poder entrenar la red neuronal para trabajar con imágenes de personas. También existe la oportunidad de aplicar la visión por ordenador, Python utiliza como lenguaje de programación.