Publications

See also my Google Scholar profile.

Journal and Conference Papers

  • Franco M. Luque and Gabriel Infante-Lopez. Bounding the maximal parsing performance of Non-Terminally Separated Grammars. In José M. Sempere and Pedro García, editors, Grammatical Inference: Theoretical Results and Applications, volume 6339 of Lecture Notes in Computer Science, chapter 12, pages 135–147. Springer Berlin / Heidelberg, Berlin, Heidelberg, 2010.
  • Franco M. Luque and Gabriel Infante-Lopez. PAC-Learning Unambiguous k,l-NTS<= Languages. In José M. Sempere and Pedro García, editors, Grammatical Inference: Theoretical Results and Applications, volume 6339 of Lecture Notes in Computer Science, chapter 12, pages 122–134. Springer Berlin / Heidelberg, Berlin, Heidelberg, 2010.

Workshop Papers

PhD Thesis

  • Franco M. Luque. Unsupervised Methods for Natural Language Parsing. Ph.D. Thesis. Universidad Nacional de Córdoba, Argentina, 2012.

Talks

2014

  • Talk “IEPY: Una plataforma para Extracción de Información en Python”. Datafest 2014, Buenos Aires, Argentina, October 31 2014.
    • Abstract: En esta charla Franco M. Luque presentará IEPY (Information Extraction for Python), una plataforma de software libre para el desarrollo de aplicaciones de Extracción de Información. La Extracción de Información trata el problema del análisis de documentos de texto no estructurado para encontrar y estructurar determinada información de interés. En IEPY, la información se estructura en entidades, como personas, lugares y fechas, y relaciones entre las entidades, como la presencia de una persona en determinado lugar y/o momento.
  • Talk “IEPY: Una plataforma para Extracción de Información en Python”.XII Jornadas de Ciencias de la Computación. Universidad Nacional de Rosario, Rosario, Argentina, October 16 2014.
    • Abstract: En esta charla presentaré IEPY (Information Extraction for Python), una plataforma de software libre para el desarrollo de aplicaciones de Extracción de Información. La Extracción de Información trata el problema del análisis de documentos de texto no estructurado para encontrar y estructurar determinada información de interés. En IEPY, la información se estructura en entidades, como personas, lugares y fechas, y relaciones entre las entidades, como la presencia de una persona en determinado lugar y/o momento. En una etapa de preprocesamiento, IEPY analiza los documentos automáticamente, segmentándolos en palabras y oraciones, haciendo etiquetado POS. Luego, IEPY realiza el reconocimiento de entidades (Named Entity Recognition, o NER). Todos estos pasos se pueden realizar utilizando herramientas existentes, como NLTK o el Stanford Tagger y NER, o se pueden definir y utilizar módulos propios. Finalmente, en el módulo principal, IEPY realiza la extracción de relaciones (Relationship Extraction, o RE). Para ello, primero se encuentran todas las posibles evidencias de relaciones en los documentos. Luego, IEPY entra en el ciclo principal, en el que se requiere la intervención del usuario para responder preguntas acerca de las evidencias. Luego de cada ronda de preguntas, se entrenan clasificadores automáticos que permiten extraer nuevas relaciones y generar nuevas preguntas, hasta que el usuario decide terminar de responder.

2013

  • Talk “Introducción al Análisis de Lenguaje Natural basado en Corpus”. 11º Jornadas de Ciencias de la Computación. Universidad Nacional de Rosario, Rosario, Argentina, October 17 2013.
    • Abstract: El Procesamiento de Lenguaje Natural (PLN) es el área que estudia algoritmos que procesan lenguaje humano. Las tareas de PLN van desde el reconocimiento del habla hasta la extracción de información semántica, pasando por la segmentación de palabras y oraciones, y el análisis sintáctico, entre otras. A mediados de los 90, la introducción del uso de corpus anotados y de modelos estadísticos produjo una revolución en la performance de los sistemas de PLN. En esta charla daré una introducción al PLN basado en corpus, con especial énfasis en la tarea de análisis sintáctico. Para ello introduciré conceptos de gramáticas probabilísticas, algoritmos de estimación basada en corpus, y algoritmos de análisis sintáctico (parsing) de oraciones.
  • Invited seminar “Spectral learning of weighted automata”. XRCE Seminar. Xerox Research Center Europe (XRCE), Grenoble, France, June 6 2013.
    • Abstract: Joint work with Borja Balle, Xavier Carreras and Ariadna Quattoni. In recent years we have seen the development of efficient provably correct algorithms for learning different kinds of finite automata. Among these are the so-called spectral algorithms, that provide simple and efficient learning of non-deterministic automata. Despite their wide applicability to real problems, their impact in application domains remains marginal to this date. Moreover, most papers in the area of spectral methods are of a overwhelmingly theoretical nature, making them unappealing for practical use. In this talk, I will present a derivation of the spectral method for learning Weighted Finite Automata (WFA) that put emphasis on providing intuitions on the inner workings of the method and does not assume a strong background in formal algebraic methods. In addition, the algorithm to be presented overcomes some of the shortcomings of previous work and is able to learn from statistics of substrings. I will also present an application of the method to natural language parsing. We consider Split Head-Automata Grammars (SHAGs), that are composed by collections of stochastic automata. SHAGs have been successfully used to model the significant amount of non-local phenoma exhibited by dependency structures in natural language. Using spectral algorithms we can learn non-deterministic SHAGs, that is, SHAGs composed of non-deterministic automata. In experiments with the WSJ corpus, our spectral algorithm reaches accuracies comparable to those obtained by the Expectation Maximization algorithm, but with faster running times by several orders of magnitude.

2012

  • Invited seminar "Procesamiento de lenguaje natural en la Universidad Nacional de Córdoba, Argentina". Universitat Pompeu Fabra (UPF), Barcelona, España, July 4 2012.
    • Abstract: En esta charla presentaré el Grupo de Procesamiento de Lenguaje Natural de la FaMAF, UNC, y las diferentes actividades que desarrollamos en él. El Grupo de PLN se formó en el año 2005, cuenta con investigadores doctorados en diversas universidades del mundo y ya comienza a generar sus propios investigadores a través del nuevo programa de Doctorado en Ciencias de la Computación de la FaMAF. Entre las líneas de investigación se encuentran el análisis sintáctico, la inferencia gramatical, la minería de texto y la evaluación de sistemas de traducción automática. También se están llevando adelante proyectos aplicados, como la generación de recursos para las lenguas minoritarias Quechua y Mocoví, y la extracción de información de documentos sobre el accionar del Terrorismo de Estado en la Argentina.
  • Invited seminar "Spectral learning for non-deterministic dependency parsing". Universitat Politècnica de Catalunya (UPC), Barcelona, España, April 20 2012.
    • Abstract: Joint work with Ariadna Quattoni, Borja Balle and Xavier Carreras. In this talk we will present our EACL-2012 paper. We study spectral learning methods for non-deterministic split head-automata grammars, a powerful hidden-state formalism for dependency parsing. We present a learning algorithm that, like other spectral methods, is efficient and non-susceptible to local minima. We show how this algorithm can be formulated as a technique for inducing hidden structure from distributions computed by forward-backward recursions. Furthermore, we also present an inside-outside algorithm for the parsing model that runs in cubic time, hence maintaining the standard parsing costs for context-free grammars.

2011

  • A Spectral Model for Non-Deterministic Dependency Parsing. Segunda Jornada de Doctorandos de Computación, FaMAF, UNC, December 16 2011.
    • Abstract: Dependency structures of natural language sentences exhibit a significant amount of non-local phenomena. An approach to model non-local phenomena is to use higher-order models, which have the advantage that they are easy to train but may suffer from high parsing costs and data sparsity issues. An alternative approach is to use hidden-variable models, which attempt to induce states that compress information that needs to pass across factors. A drawback of hidden-variable methods is that typically training algorithms are expensive and susceptible to local-minima issues. In this work we present a dependency parsing model that exploits hidden structure using probabilistic non-deterministic automata. Crucially, the model can be trained with a spectral learning algorithm that is both efficient and not susceptible to local-minima. We also present an inside-outside algorithm for our parsing model that runs in cubic time, hence maintaining the standard parsing costs. In experiments, we show that adding hidden-structure to a variety of baseline models results in ~30% error reductions.

2010

  • Inducción No Supervisada de Gramáticas de Lenguaje Natural. Primera Jornada de Doctorandos de Computación, FaMAF, UNC, December 6 2010.
    • Abstract: Uno de los problemas centrales del área de Procesamiento de Lenguaje Natural es el desarrollo de analizadores sintácticos (parsers) de oraciones. En el caso supervisado, los parsers “aprenden” la gramática de una lengua en una fase previa de entrenamiento, en la que se utiliza un corpus de texto previamente analizado sintácticamente por lingüistas. El caso no supervisado es una versión mucho más compleja del problema de análisis sintáctico. En este caso, los parsers se entrenan solamente con oraciones sin analizar, es decir, con texto de lenguaje natural en bruto. El parsing no supervisado resulta interesante para su aplicación en idiomas para los que no existen corpus sintácticos, y también para modelar la adquisición del lenguaje por parte de los humanos, un problema central de estudio de las ciencias cognitivas. Un área relacionada al parsing no supervisado de lenguaje natural es el de la Inferencia Gramatical de lenguajes formales. En este ámbito se estudia la posibilidad de aprender un lenguaje formal a partir de una secuencia de ejemplos del lenguaje. Existen definiciones formales para aprendibilidad de diferentes tipos, y resultados de aprendibilidad para diferentes clases de lenguajes dentro de la jerarquía de Chomsky. En esta charla presentaré el problema de parsing no supervisado desde el punto de vista de la Inferencia Gramatical, relacionando el lenguaje natural con los lenguajes formales.
  • reacTIVision: Interfaces de Usuario con Objetos del Mundo Real. Charlas de Computación Contate algo Che (CaChe 2010), FaMAF, UNC, October 25 2010.
    • Abstract: reacTIVision es un framework open source de visión por computadora, que permite el seguimiento a través de una cámara de marcadores fiduciales (“fiducial markers”), un conjunto de símbolos predefinidos que se pueden imprimir y pegar sobre objetos reales. El software reconoce la presencia de múltiples marcadores en la cámara e informa posición, ángulo, veloci- dad de movimiento y rotación, etc. Esto permite el control de aplicaciones a través de Interfaces de Usuario Tangibles, es decir, manipulando objetos físicos en el mundo real, y en combinación con proyectores permite crear entornos de Realidad Aumentada. reacTIVision también puede reconocer la imagen que forma la presión de dedos sobre superficies transparentes, permitiendo la creación de interfaces Multi-Touch. El ejemplo más impresionante de uso de reacTIVision es el instrumento de música electrónica Reactable, que ha sido utilizado en vivo por la islandesa Björk, entre otros. En esta charla/tutorial/demo presentaré la instalación básica del framework, la API de programación y algunos ejemplos muy básicos de uso.

2009

  • PAC-Learning Unambiguous NTS Languages (312.72 KiB), Reading Group of the NLP Group, FaMAF, UNC, July 22 2009.
    • Abstract: In this talk I present the work Clark (2006), in which the author describes an algorithm for learning unambiguous NTS languages and demonstrates that it is Probably Approximately Correct (PAC). Previously I explain the concept of PAC learning as defined in Biggs (1992) and put it in contrast to the concept of identification in the limit.
    • Abstract: En esta charla hago un resumen de mi experiencia en la 12ava Conferencia de la EACL en Atenas. Esta incluye la participación en el Workshop CLAGI, el cursado del Tutorial Combinatory Categorial Grammars for Robust Natural Language Processing, y la asistencia a varias charlas de la conferencia principal. En cuanto a la conferencia principal, presento resumidamente los cuatro trabajos que me parecieron más interesantes.

2008

    • Abstract: Uno de los problemas centrales de la Lingüística Computacional es el desarrollo de parsers, analizadores sintácticos de oraciones de una lengua en particular. Los parsers supervisados aprenden la gramática de una lengua a partir de un corpus de frases previamente analizadas por lingüistas. En cambio, los parsers no supervisados sólo aprenden a partir de texto sin analizar, de la misma manera que lo hacen los seres humanos. Una forma de construir parsers es definiendo modelos probabilísticos sobre las oraciones y su sintaxis. El aprendizaje se convierte entonces en la elección de una instancia del modelo, y se puede realizar a través del algoritmo EM, que maximiza la probabilidad del texto observado. Presentamos CCM, DMV y DMV+CCM (Klein and Manning 2004), ejemplos de estos modelos, y proponemos algunas modificaciones que permiten mejorar la performance de los parsers obtenidos.
  • Ten (Or More) Minutes on Unsupervised Parsing (365.75 KiB), Workshop of the NLP Group, FaMAF, UNC, April 23 2008.
    • Abstract: In this talk I introduce the problem of Unsupervised Parsing of Natural Language and one approach on it's solution, the DMV+CCM model from Klein and Manning (2004). I also present our work in progress on DMV+CCM, that aims at the usage of punctuation information to improve the parsing performance, showing some positive preliminary results.

2007

  • Introducción a Markov Logic Networks (187.14 KiB), Reading Group of the NLP Group, FaMAF, UNC, July 18 and 25 2007 (presented in two parts).
    • Abstract: En esta charla introduzco las Redes Lógicas de Markov o Markov Logic Networks, que son simplemente lógicas de primer orden con pesos asignados a los predicados, y que definen una distribución probabilística sobre los mundos posibles. También expongo los fundamentos del uso de Redes de Markov como modelo subyacente y del MCMC (Markov Chain Monte Carlo) como algoritmo de inferencia aproximada, en particular el muestreo Gibbs con la colcha de Markov (Markov blanket).

2006