¿Qué tan difícil es realmente tener un gran impacto o hacer contribuciones grandes / novedosas en el campo de la visión por computadora? ¿Estás trabajando en algo grande / novedoso para contribuir al campo de visión artificial de aprendizaje automático?

Es difícil desarrollar algoritmos novedosos o tener un impacto en la visión por computadora (CV).

Pero esta pregunta lo pidió. Sí, he desarrollado con éxito un novedoso sistema de visión por computadora completamente funcional que alimenta mis aplicaciones de visión por computadora.

Desarrollé el sistema de CV en el transcurso de 4 años. Comencé el proyecto apodado área de proyecto 17 en 2009 con el objetivo de desarrollar nuevos algoritmos de visión con motivación biológica. Puse el nombre del proyecto por el área 17 de Brodmann o, para ser específicos, puse el nombre del proyecto por la corteza visual primaria. Porque el proyecto se basó en mi comprensión de los hallazgos de la neurociencia.

Por supuesto, los algoritmos que desarrollé son similares a la función de escala invariante transforma SIFT y aceleró las características robustas (SURF), pero existen grandes diferencias en la tubería de procesamiento. Las similitudes entre SIFt, SURF y mis algoritmos CV son el uso de:

  • Detección de características, pero no utiliza la diferencia de la pirámide Gaussiana (DoG) ni utiliza el enfoque basado en arpillera en el algoritmo SURF. El detector de región sobresaliente para mi sistema CV es mucho más robusto y eficiente que el de SIFT y SURF y, por lo tanto, puedo usarlo para la detección confiable de objetos en tiempo real.
  • Descriptores Utilizo los llamados descriptores M3oh para mi sistema de visión, no SIFT.
  • Matcher de características. También desarrollé un esquema de coincidencia especial que es rápido y escalable pero devuelve coincidencias más precisas que los árboles Kd o algoritmos en la biblioteca Fast para el vecino más cercano (FLANN) de OpenCV.

Lo que hace que mis algoritmos sean más robustos que SIFT y SURF y esto se puede ver claramente ya que la aplicación llamada Bimostitch panorama stitcher hace un mejor reconocimiento de imágenes que incluso la función de costura panorámica de Google o Microsoft.

Es por eso que puedo llamarlos con seguridad algoritmos de vanguardia debido a su capacidad de robustez que funcionan bien en diversas condiciones como iluminación, escala, rotaciones fuera del plano y tolerancia a las distorsiones.

También he estado trabajando para extender esto a problemas de reconocimiento de nivel de categoría como clasificación de imágenes, detección de rostro, peatones y objetos en general en mi proyecto reciente llamado IRIS (sistema integrado de reconocimiento e inferencia). IRIS es un híbrido entre los esquemas de reconocimiento de nivel de instancia y los esquemas de reconocimiento de nivel de categoría, de ahí el término integrado.

Lo estoy diseñando para usar la atención y el aprendizaje automático de una manera novedosa, a diferencia de las redes neuronales convolucionales monolíticas (CNN) IRIS desplegará al menos más de un algoritmo para reconocer / clasificar objetos y también hará uso del proceso de atención iterativa.


Cuando terminé el primer proyecto, mi objetivo era regalarlo y escribir una revista científica al respecto para contribuir al campo de la visión por computadora. Pero lo he retenido porque todavía no estoy listo para regalarlo así.

Después de pasar años haciendo una lluvia de ideas y un sinnúmero de intentos fallidos, siento que me beneficiará menos si lo delato demasiado pronto.

Así que realmente me gustaría contribuir al progreso de la visión por computadora regalando el proyecto como un proyecto de código abierto.

Podría hacerlo en el futuro cuando sienta que es hora de dejar que el pájaro salga volando de la jaula.

Espero que esto ayude.

Es difícil, pero si tienes una mentalidad original, creo que es posible. La razón por la que no lo hago es porque la posibilidad de lograr un avance tan profundo que pueda hacer dinero con ella es bastante pequeña. Pero estoy trabajando en un proyecto de aprendizaje automático (no CV) del que espero ganar dinero.

El hecho mismo de que el campo esté cambiando tan rápidamente es una prueba de que hay oportunidades. Compare esto con un campo bien establecido como la Ingeniería Civil, donde ocurren pocas novedades.

Recientemente me interesé por el CV y, como es mi caso, he especulado en mis momentos libres cómo podría hacerse. Luego empiezo a mirar la literatura y encuentro que mis ideas han sido probadas y utilizadas. O leo documentos y encuentro cuán simples son algunas de las ideas. Personalmente, encuentro las matemáticas la parte más difícil y oscurece la simplicidad de muchas de las ideas.