Ramon Wartala: Dokumenten-Clustering mit ActiveRecord – Der Algorithmus hinter Co2Alarm.com
Ende letzten Jahres machte Toby Segaran mit “Programming Collective Intelligence” von sich Reden. Das Buch demonstriert anhand einfacher Beispiele wie sich die Kollective Intelligenz, welche innerhalb moderner Webanwendungen wohnt, nutzen und entwickeln lässt. Doch leider hört das Buch an vielen Stellen dort auf, wo der interessierte Entwickler gerne mehr wissen würde, zum Beispiel, wie man aus hunderten, unstrukturierten RSS-Feed-Postings Themencluster erzeugen kann. Mit Rails und im Besonderen mit dem Objekt-Relationaler ActiveRecord lässt sich dies auch skalierbar implementieren.
Ausgangspunkt für einen Blick hinter die Kulissen soll anhand der Webapplikation co2alarm.com gewährt werden, welche in den Wochen vor der Konferenz der Öffentlichkeit präsentiert werden soll. Im Fokus des Vortrags soll nicht so sehr der mathematische Hintergrund von Clustering-Algorithmen im Allgemeinen, sondern vielmehr die praktische Anwendung von Rails im Besonderen stehen. Dabei wird sowohl eine einfache und verdauliche Version des kmeans-Algorithmus in Ruby/ActiveRecord erläutert, als auch ein Blick auf entsprechende RubyGems geworfen, die einem dabei behilflich sein können, natürlich(englisch-)sprachige Texte zu analysieren und zu verarbeiten.
Slides: 2008_Clustering_Wartala.pdf
Ramon Wartala ist IT-Leiter beim Hamburger Onlinevermarkter orangemedia.de GmbH. Er beschäftigt sich seit der Frühzeit des Internet mit der Entwicklung von Anwendungen für das Netz der Netze. Seit 10 Jahren schreibt er Artikel für verschiedene Computermagazine und hält Vorträge zum Thema Software-entwicklung. Er ist Mitbegründer der deutschen Rails-Usergroup und Co-Autor des Addison-Wesley Buchs “Webanwendungen mit Ruby on Rails”.






