… na ja, ganz so jung ist nun auch wieder nicht, aber der Reihe nach.: Mit eine der besten Keynotes, die ich gehört habe, war die von Jimmy Wales auf der Online 2007 in London. Nach einer Reihe von interessanten (2-3 Mio $ Kosten pro Jahr, 8 populärste Website in der Welt, sogar die 14 populärste im Iran) und skurrilen Fakten über Wikipedia (z.B. welche Wikiauswüchse der Wikimediaboom ausgelöst hat –> Muppetwiki oder Wookieepedia) hat er dann WikiaSearch vorgestellt. “…Das Konzept der Wikia Suchmaschine beruht auf dem glaubwürdigen Feedback der Community-Teilnehmer, die gemeinsam an dem offenen, transparenten und frei zugänglichen Werk arbeiten…” <– also durchaus ein Ansatz der auch beim Mahalo Geschäftsmodell Pate gestanden hat.
Archiv für Mai 2008
Nachdem auf unserer FG Homepage Bilder und Meinungen der Absolventen per Apple-like-Cover-flow präsentiert werden, haben auch SuMa-Entwickler die Usability- Innovation für die Präsentation der Ergebnismengen erkannt ![]()
Facesearch ist eine Bilder-SuMa von Franz Enzenhofer, die den Google Index als Datenbasis und die Google-API als Schnittstelle, sowie Protoflow zur Visualiserung benutzt.

facesearch ist allerdings nur eine Spezialform der von Enzenhofer vorgestellten Bildersuche über den Googleindex – zu finden unter creativspace.at.
clewwa – wirklich clever?
Nach eigenen Angaben sucht“Clewwa – die schlaue Suchmaschine für Verbraucher” (vorgestellt kurz vor dem Weltverbrauchertag im März 08 ) im Gegensatz zu gewöhnlichen Suchmaschinen Informationen innerhalb eines vorgegebenen Katalogs von Internetseiten. Dieser Katalog umfasst Seiten ausgewählter Behörden, Umwelt- und Verbraucherverbände, Universitäten und Forschungseinrichtungen, Unternehmen und Wirtschaftsverbände sowie Zeitungen, Zeitschriften, Radio- und Fernsehsender und verbraucherrelevanter Onlineportale. Clewwa nutzt nur Internetseiten, die sich mit relevanten Informationen zu den Themen Lebensmittel, Kosmetik, Textilien, Tabak, Bedarfsgegenstände, Futtermittel, Pflanzenschutz, Tiergesundheit, Umwelt und Gentechnik auseinander setzen. Dabei werden die Internetseiten wichtiger Akteure in den jeweiligen Themengebieten berücksichtigt, ohne Ansehen der vertretenen Positionen…

Leider bleibt es bei dem heren Anspruch. Das Ranking wird Lucene überlassen, die Auswahl der indexierten Websites führt bspw. beim Term “MILCH” zu solchen paradoxen Ergebnissen -Abfrage 28.05.08-, dass sieben mal die gleiche Pressemitteilung vom Juli 2007 der Verbraucherzentrale Bundesverband e.V. unter den Top Ten ausgegeben wird. Alles in allem ist schwer nachvollziehbar, worauf sich das Attribut “schlau” bei der Charakterisierung der SuMa bezieht.
Wissenrepräsentation
ist der Titel des aktuellen Buches vom Wolfgang und Mechthild Stock.
Prof. Stock ist Leiter der Abteilung für Informationswissenschaft der Heinrich-Heine-Universität Düsseldorf. Was das Buch so besonders macht, ist die multidisziplinäre Sicht auf die Problematik der Wissensrepräsentation. Er versteht es wie kaum ein Anderer die Verbindung zwischen informationswissenschaftlichen Grundlagen (zur Indexierung, Dokumentationssprachen und Klassifikation) und den aktuellen Entwicklungen im WWW (Folksonomies, Web2.0 und Ontologien) herzustellen und damit den klassischen Blickwinkel der KI, Informatik und Wirtschaftsinformatik in didaktisch hervorragender Art und Weise um linguistische, bibliothekarische und fachinformatorische Facetten zu erweitern. Sehr gute Ergänzung zur Vorlesung!
…laut einer Untersuchung von Websiteoptimization 312 kB groß, enthält 474 Wörter und 41 Links von denen 10 auf Sites außerhalb der Domain verweisen. 84.8% der Seiten benutzen JavaScript, 91.6% der Seiten enthalten Bilder und die die Durchschnittsgröße der grafischen Bereiche ist 221×221 Pixel. Der Anteil von Streamin Media erhöht sich pro Jahr um 100%
In Tim O’Reilly‘s Blog wurde im April 08 ein sehr anschauliche Verteilung der Marktanteile der Social Network Sites von Le Monde veröffentlicht. Leider gibt es (und das gerade für DE) für meinen Geschmack zu viele weiße Flecken.
Der Digital Footprint Calculator von EMC erlaubt den persönlichen Datendurchsatz pro Tag zu berechnen. Ich erzeuge demnach eine digitale Spur von 1,15 MB pro Tag. Jeder Mensch hat nach Angaben von EMC 2007 einen “digitalen Fußabdruck” von durchschnittlich 45 Gigabyte (!) hinterlassen. Damit ist natürlich das Feld bereitet für Geschäftsmodelle wie Online Reputationsmanagement. myON-ID ist eine weitere Personensuchmaschine, die die normale Suche nach Einträgen in sozialen Netzwerken, Blogs, News, Bildern und im Web ergänzt um die Möglichkeit diese zu kommentieren und ggf. sogar zu entfernen (über den Partner ReputationDefender).
“Wer sucht wo nach mir im Internet” kann mit dem Premium-Account getraced werden und die Krönung: Inhaber eines Premium Accounts bekommen eine Werbeanzeige bei Google (AdWords) geschenkt, damit das myON-ID Profil ganz sicher gefunden wird, wenn jemand bei Google den Namen eingibt.
ist eine Personensuchmaschine, die sich auf Deep Web content und Web2.0 Seiten bezieht.
Unter anderem werden ausgewertet:
- die Amazon Profile
- ICQ Anmeldedaten
- mySpace Profile
- Flickr Profile
- Reunion Daten
- LexisNexis Datenbanken
- Hoovers Profile und Firmendaten …
Nach eigenen Angaben ist “Pipl designed to retrieve information from the deep web, our robots are set to interact with searchable databases and extract facts, contact details and other relevant information from personal profiles, member directories, scientific publications, court records and numerous other deep-web sources.”
Die Ergebnisse sind absolut beeindruckend. Ganz ‘en passent’ liefern die Betreiber von pipl eine ganze Reihe von statistischem Material (vom Alterstrend bis zur gegrafischen Verteilung) zu den wichtigsten social networking sites (von Facebook bis Frienster).
State of the art of crawling
In der aktuellen Ausgabe des D-Lib Magazin (March/April 2008 ) wird eine Untersuchung der Crawler von Google, Yahoo und MSN Search vorgestellt. Hier die wichtigsten Ergebnisse:
“…width does appear to be crawled more thoroughly than depth, and providing links on one or two “index” pages improves crawler penetration. Google was quick to reach and explore the new sites, whereas MSN and Yahoo were slow to arrive, and the percentage of site coverage varied by site structure and by top-level domain.
- Google is clearly king of the crawl: its lowest site coverage was 99%, whereas
- MSN’s worst coverage was 2.5% and
- Yahoo’s worst coverage of a site was 3%.”
Die Versuchsanordnung ähnelt der, die wir am FG vor Urzeiten, als das Web noch 1.0 die Browser noch IE 2.0 und das FG noch ‘Informationsmethodik’ hießen, durchgeführt haben:
- Beispielwebsite aufbauen,
- Logfiles auswerten, und dann nachschauen
- WANN, WER, WIE OFT vorbeigeschaut hat.
Unser damaliger Topic war “Magnetschweberollos”. Interessant war, dass kurz nachdem wir unsere Website zu diesem innovativen Entwicklungszweig der Rollosindustrie ‘on the air’ hatten, auch andere Rollosanbieter bei der Suche nach diesem Term gefunden wurden.
Suchergebnisse können natürlich nur so gut sein, wie der Nutzer in der Lage ist, seine Anfrage zu formulieren. Eine Positivliste der schönsten Suchanfragen zum kalifornischen Gouverneur Arnold Schwarzenegger (1193 unterschiedliche Schreibweisen) und zu Popsternchen Britney Spears (1126) wurde der Zeit Online von der Suchmaschine AskJeeves zur Verfügung gestellt.
Hier einige Highlights:
| Arnold | Britney |
| +ahnuld,+shwartzenegger | +bittney,+ppears |
| +alrnold,+schwartznigger | +baitny,+spears |
| +aniold,+schwarzenegger | +baritny,+spears |
| +annold,+scwarzennega | +bitney,+srears |
| +anold,+schwarzenegger | +bitrney,+spears |
| +anold,+schwarzennegar | +bjritney,+spears |
| +anold,+schwarznegger | +bnritney,+spaers |
| +anold,+schwazenegger | +braiany,+spaers |
| +anold,+schwratzenegger | +bratany,+spears |
| +anold,+shwarzenegger | +brattany,+spears |
| +anold,+swarzanegger | +bratiny,+spears |
| … | … |
Fazit: Die orthografischen Unzulänglichkeiten der Nutzer übersteigen oftmals doch das Vorstellungsvermögen der Suchmaschinenbetreiber.







