Semantic search

Jump to navigation Jump to search

How much information is in a language?

About the paper "Humans store about 1.5 megabytes of information during language acquisition“, by Francis Mollica and Steven T. Piantadosi.

This is one of those papers that I both love - I find the idea is really worthy of investigation, having an answer to this question would be useful, and the paper is very readable - and can't stand, because the assumptions in the papers are so unconvincing.

The claim is that a natural language can be encoded in ~1.5MB - a little bit more than a floppy disk. And the largest part of this is the lexical semantics (in fact, without the lexical semantics, the rest is less than 62kb, far less than a short novel or book).

They introduce two methods about estimating how many bytes we need to encode the lexical semantics:

Method 1: let's assume 40,000 words in a language (languages have more words, but the assumptions in the paper is about how many words one learns before turning 18, and for that 40,000 is probably an Ok estimation although likely on the lower end). If there are 40,000 words, there must be 40,000 meanings in our heads, and lexical semantics is the mapping of words to meanings, and there are only so many possible mappings, and choosing one of those mappings requires 553,809 bits. That's their lower estimate.

Wow. I don't even know where to begin in commenting on this. The assumption that all the meanings of words just float in our head until they are anchored by actual word forms is so naiv, it's almost cute. Yes, that is likely true for some words. Mother, Father, in the naive sense of a child. Red. Blue. Water. Hot. Sweet. But for a large number of word meanings I think it is safe to assume that without a language those word meanings wouldn't exist. We need language to construct these meanings in the first place, and then to fill them with life. You can't simply attach a word form to that meaning, as the meaning doesn't exist yet, breaking down the assumptions of this first method.

Method 2: let's assume all possible meanings occupy a vector space. Now the question becomes: how big is that vector space, how do we address a single point in that vector space? And then the number of addresses multiplied with how many bits you need for a single address results in how many bits you need to understand the semantics of a whole language. There lower bound is that there are 300 dimensions, the upper bound is 500 dimensions. Their lower bound is that you either have a dimension or not, i.e. that only a single bit per dimension is needed, their upper bound is that you need 2 bits per dimension, so you can grade each dimension a little. I have read quite a few papers with this approach to lexical semantics. For example it defines "girl" as +female, -adult, "boy" as -female,-adult, "bachelor" as +adult,-married, etc.

So they get to 40,000 words x 300 dimensions x 1 bit = 12,000,000 bits, or 1.5MB, as the lower bound of Method 2 (which they then take as the best estimate because it is between the estimate of Method 1 and the upper bound of Method 2), or 40,0000 words x 500 dimensions x 2 bits = 40,000,000 bits, or 8MB.

Again, wow. Never mind that there is no place to store the dimensions - what are they, what do they mean? - probably the assumption is that they are, like the meanings in Method 1, stored prelinguistically in our brains and just need to be linked in as dimensions. But also the idea that all meanings expressible in language can fit in this simple vector space. I find that theory surprising.

Again, this reads like a rant, but really, I thoroughly enjoyed this paper, even if I entirely disagree with it. I hope it will inspire other papers with alternative approaches towards estimating these numbers, and I'm very much looking forward to reading them.

Hypochondrie und Studienarbeit

Ein Sechstel der amerikanischen Gesundheitsausgaben entsteht durch Hypochondrie (so Focus von letzter Woche). Wahrscheinlich würden sich die Ärzte sehr darüber freuen, wenn auch die Behandlungszeit und die entstandenen Kosten nur eingebildet wären...

Noch nimmt die Studienarbeit den Großteil meiner Zeit in Anspruch - deswegen keine rechten Updates (ab nächster Woche zieht diese Entschuldigung nicht mehr). Gestern und heute wird letzte Hand angelegt und morgen wird sie dann an der Fakultät gedruckt. Danach bringe ich sie zum Binder, um sie am folgenden Tag dort abzuholen - und dann ist Abgabe. Dann heißt es nur noch meine Philosophiesachen erledigen und meine Diplomarbeit schreiben (ja, nur noch :), und mein Studium ist beendet.

Ach ja...

I am weak

Basically I was working today, instead of doing some stuff I should have finished a week ago for some private activities.

The challenge I posed myself: how semantic can I already get? What tools can I already use? Firefox has some pretty neat extensions, like FOAFer, or the del.icio.us plugin. I'll see if I can work with them, if there's a real payoff. The coolest, somehow semantic plugin I installed is the SearchStatus. It shows me the PageRank and the Alexa rating of the visited site. I think that's really great. It gives me just the first glimpse of what metadata can do in helping being an informed user. The Link Toolbar should be absolutely necessary, but pitily it isn't, as not enough people make us of HTMLs link element the way it is supposed to be used.

Totally unsemantic is the mouse gestures plugin. Nevertheless, I loved those with Opera, and I'm happy to have them back.

Still, there are such neat things like a RDF editor and query engine. Installed it and now I want to see how to work with it... but actually I should go upstairs, clean my room, organise my bills and insurance and doing all this real life stuff...

What's the short message? Get Firefox today and discover its extensions!

I'm a believer

The Semantic Web is promising quite a lot. Just take a look at the most cited description of the vision of the Semantic Web, written by Tim Berners-Lee and others. Many people are researching on the various aspects of the SemWeb, but in personal discussions I often sense a lack of believing.

I believe in it. I believe it will change the world. It will be a huge step forward to the data integration problem. It will allow many people to have more time to spend on the things they really love to do. It will help people organize their lives. It will make computers seem more intelligent and helpful. It will make the world a better place to live in.

This doesn't mean it will safe the world. It will offer only "nice to have"-features, but then, so many of them you will hardly be able to think of another world. I hardly remember the world how it was before e-Mail came along (I'm not that old yet, mind you). I sometimes can't remember how we went out in the evening without a mobile. That's where I see the SemWeb in 10 years: no one will think it's essential, but you will be amazed when thinking back how you lived without it.

ISWC 2008 coming to Karlsruhe

Yeah! ISWC2006 is just starting, and I am really looking forward to it. The schedule looks more than promising, and Semantic MediaWiki is among the finalists for the Semantic Web Challenge! I will write more about this year's ISWC the next few days.

But, now the news: yesterday it was decided that ISWC2008 will be hosted by the AIFB in Karlsruhe! It's a pleasure and a honor -- and I am certainly looking forward to it. Yeah!


Comments are still missing on this post.

ISWC impressions

The ISWC 2005 is over, but I'm still in Galway, hanging around at the OWL Experiences and Direction Workshop. The ISWC was a great conference, really! Met so many people from the Summer School again, heard a surprisingly number of interesting talks (there are some conferences, where one boring talk follows the other, that's definitively different here) and got some great feedback on some work we're doing here in Karlsruhe.

Boris Motik won the Best Paper Award of the ISWC, for his work on the properties of meta-modeling. Great paper and great work! Congratulations to him, and also to Peter Mika, though I have still to read his paper to form my own opinion.

I will follow up on some of the topics from the ISWC and the OWLED workshop, but here's my quick, first wrap-up: great conference! Only the weather was pitily as bad as expected. Who decided on Ireland in November?

If life was one day

If the evolution of animals was one day... (600 million years)

  • From 1am to 4am, most of the modern types of animals have evolved (Cambrian explosion)
  • Animals get on land a bit at 3am. Early risers! It takes them until 7am to actually breath air.
  • Around noon, first octopuses show up.
  • Dinosaurs arrive at 3pm, and stick around until quarter to ten.
  • Humans and chimpanzees split off about fifteen minutes ago, modern humans and Neanderthals lived in the last minute, and the pyramids were built around 23:59:59.2.

In that world, if that was a Sunday:

  • Saturday would have started with the introduction of sexual reproduction
  • Friday would have started by introducing the nucleus to the cell
  • Thursday recovering from Wednesday's catastrophe
  • Wednesday photosynthesis started, and lead to a lot of oxygen which killed a lot of beings just before midnight
  • Tuesday bacteria show up
  • Monday first forms of life show up
  • Sunday morning, planet Earth forms, pretty much at the same time as the Sun.
  • Our galaxy, the Milky Way, is about a week older
  • The Universe is about another week older - about 22 days.

There are several things that surprised me here.

  • That dinosaurs were around for such an incredibly long time. Dinosaurs were around for seven hours, and humans for a minute.
  • That life started so quickly after Earth was formed, but then took so long to get to animals.
  • That the Earth and the Sun started basically at the same time.

Addendum April 27: Álvaro Ortiz, a graphic designer from Madrid, turned this text into an infographic.

Illuminati and Wikibase

When I was a teenager I was far too much fascinated by the Illuminati. Much less about the actual historical order, and more about the memetic complex, the trilogy by Shea and Wilson, the card game by Steve Jackson, the secret society and esoteric knowledge, the Templar Story, Holy Blood of Jesus, the rule of 5, the secret of 23, all the literature and offsprings, etc etc...

Eventually I went to actual order meetings of the Rosicrucians, and learned about some of their "secret" teachings, and also read Eco's Foucault's Pendulum. That, and access to the Web and eventually Wikipedia, helped to "cure" me from this stuff: Wikipedia allowed me to put a lot of the bits and pieces into context, and the (fascinating) stories that people like Shea & Wilson or von Däniken or Baigent, Leigh & Lincoln tell, start falling apart. Eco's novel, by deconstructing the idea, helps to overcome it.

He probably doesn't remember it anymore, but it was Thomas Römer who, many years ago, told me that the trick of these authors is to tell ten implausible, but verifiable facts, and tie them together with one highly plausible, but made-up fact. The appeal of their stories is that all of it seems to check out (because back then it was hard to fact check stuff, so you would use your time to check the most implausible stuff).

I still understand the allure of these stories, and love to indulge in them from time to time. But it was the Web, and it was learning about knowledge representation, that clarified the view on the underlying facts, and when I tried to apply the methods I was learning to it, it fell apart quickly.

So it is rather fascinating to see that one of the largest and earliest applications of Wikibase, the software we developed for Wikidata, turned out to be actual bona fide historians (not the conspiracy theorists) using it to work on the Illuminati, to catalog the letters they sent to reach other, to visualize the flow of information through the order, etc. Thanks to Olaf Simons for heading this project, and for this write up of their current state.

It's amusing to see things go round and round and realize that, indeed, everything is connected.

Imagine there's a revolution...

... and no one is going to it.

This notion sometimes scares me when I think abou the semantic web. What if all this great ideas are just to complex to be implemented? What if it remains an ivory tower dream? But, on the other hand, how much pragmatism can we take without loosing the vision?

And then, again, I see the semantic web working already: it's del.icio.us, it's flickr, it's julie, and there's so much more to come. The big time of the semantic web is yet to come, and I think none of us can really imagine the impact it is going to have. But it will definitively be interesting!

Immortal relationships

I saw a beautiful meme yesterday that said that from the perspective of a cat or dog, humans are like elves who live for five hundred years and yet aren't afraid to bond with them for their whole life. And it is depicted as beautiful and wholesome.

It's so different from all those stories of immortals, think of Vampires or Highlander or the Sandman, where the immortals get bitter, or live in misery and loss, or become aloof and uncaring about human lives and their short life spans, and where it hurts them more than it does them good.

There seem to be more stories exploring the friendship of immortals with short-lived creatures, be it in Rings of Power with the relationship of Elrond and Durin, be it the relation of Star Trek's Zora with the crew of the Discovery or especially with Craft in the short movie Calypso, or between the Eternal Sersi and Dane Whitman. All these relations seem to be depicted more positively and less tragic.

In my opinion that's a good thing. It highlights the good parts in us that we should aspire to. It shows us what we can be, based in a very common perception, the relationship to our cats and dogs. Stories are magic, in it's truest sense. Stories have an influence on the world, they help us understand the world, imagine the impact we can have, explore us who we can be. That's why I'm happy to see these more positive takes on that trope compared to the tragic takes of the past.

(I don't know if any of this is true. I think it would require at least some work to actually capture instances of such stories, classify and tally them, to see if that really is the case. I'm not claiming I've done that groundwork, but just capture an observation that I'd like to be true, but can't really vouch for it.)

In Barcelona

T'estimo, Catalunya! Ich liebe Dich, Katalonien. Eine herrliche Gegend -- obwohl ich gar nichts davon gesehen habe. Wir kamen Mittwoch in Barcelona an und fuhren direkt zur Universität, die eine eigene Stadt 20 km außerhalb bildet. Dies beruht auf General Francos Versuch, die Intelligenz aus den Städten Spaniens zu verbannen und so für Ruhe zu sorgen. Heute ging es dann direkt von der Uni wieder zurück zum Flughafen.

Wie dem auch sei, eine herrliche Zeit in Katalonien verbracht. Und warum liebe ich es so?

  1. Das Wetter. Heute morgen 20 Grad, Sonnenschein den ganzen Tag, herrlich.
  2. Das Essen. Lange Zeit mied ich die spanische Küche, weil ich in meinem bescheidenen Irrglauben dachte, sie sei wie die mexikanische, und ich die mexikanische seitdem ich sie in St Louis versuchte nicht mehr mag. Tatsächlich war das Essen ausgezeichnet.
  3. Die Landschaft. Zwischen Meer und Gebirge. Wunderschön.

Ich muss da mal dringend privat hin. Vielleicht sehe ich sogar was von Barcelona...

In Sheffield

Die Stadt aus Stahl. Sheffield ist eine überraschend große Stadt, knapp 520.000 Einwohner und damit die viertgrößte Stadt in Großbritannien. Steht aber weder auf den Wetterkarten, noch hat es einen Flughafen. Es hat nichtmal eine vernünftige Verbindung zum nächsten Flughafen. Wir fuhren über eine Stunde den Snake Pass entlang, eine Strecke mit einer angeblich wunderschönen Aussicht. Es war Nacht.

Ich mach selber ja keine Photos, darum hier die Photos bei Flickr zu der Stadt. Auch auf Google Maps konnte ich das Octogon gegenüber finden. Ist ziemlich cool.

Zur Zeit sitze ich im großen Review unseres Projektes zu Semantischen Technologien. Die EU entscheidet, ob ihr Geld gut ausgegeben war. Ich bin nervös, und habe heute Nachmittag meinen Vortrag. Mit den nutkidz auf den Folien.

Drückt mir die Daumen.

In the beginning

"Let there be a planet with a hothouse effect, so that they can see what happens, as a warning."

"That is rather subtle, God", said the Archangel.

"Well, let it be the planet closest to them. That should do it. They're intelligent after all."

"If you say so."

Ina Kramer (1948-2023)

1990 erschien die erste aventurische Regionalkarte "im 3D Effekt", wie es damals beworben wurde, "Das Bornland" im Abenteuer "Stromaufwärts" von Michelle Schwefel. Später im Jahr erschien dann die Spielhilfe "Das Königreich am Yaquir", in dem die Karte zum Lieblichen Feld war.

Ich habe stundenlang diese Karten angestarrt. Sie waren so unglaublich detailliert. So wunderschön. Ich war sprachlos, wie schön diese Karten waren. Ich kannte nichts was die Qualität dieser Karten hatte, nicht nur bezüglich Karten für Rollenspielwelten und Fantasywelten, sondern überhaupt.

Es war ein frecher Traum, sich vorzustellen, ganz Aventurien in diesem Format, eins zu einer million, zu haben, und dennoch, innerhalb eines guten Jahrzehnts war der Traum erfüllt, Box für Box, Publikation für Publikation.

Wir verdanken dieses Meisterwerk, Aventurien im Massstab von 1:1.000.000, der Autorin und Grafikerin Ina Kramer. Ina's Bilder und vor allem Porträts und Karten in den DSA Publikationen der späten 80er und den 90er haben für mich mein Bild von DSA und wie ich mir Aventurien vorstellte geprägt wie sonst nur Caryad. Ob das Porträt von Kaiser Hal, Haldana von Ilmenstein, Prinz Brin, so viele andere. Neben ihren Bildern schrieb sie auch vielerlei Texte, vor allem Romane.

Das Rad ist zerbrochen. Am 10. Februar 2023 ist Ina Kramer im Alter von 74 Jahren gestorben.

Ina, vielen Dank für Deine Werke. Ich durfte Ina ein paar Mal treffen, auf Konventen und manchen anderen Gelegenheiten. Ihre Werke haben für mich einen wichtigen Teil meines Lebens mit Bildern und Karten erfüllt. Ich glaube auch, dass Inas Karten mein lebenslanges Interesse an Landkarten weckte.

Internet jetzt auch Offline

Ihr braucht das Internet bloß hier online runterzuladen, und schon könnt ihr darin ganz ohne Netzverbindung surfen. Cool, ne?

Introducing rdf2owlxml

Very thoughtful - I simply forgot to publish the last entry of this blog. Well, there you see it finally... but let's move to the new news.
Another KAON2 based tool - rdf2owlxml - just got finished, a converter to turn RDF/XML-serialisation of an OWL-ontology into an OWL/XML Presentation Syntax document. And it even works with the Wine-ontology.

So, whenever you need an ontology in the easy to read OWL/XML Presentation Syntax - for example, in order to XSL it further to a HTML-page representing your ontology, or anything like that, because it's hard to do this stuff with RDF/XML, go to rdf2owlxml and just grab the results! (The results work fine with dlpconvert as well, by the way).

Hope you like it, but be reminded - it is a very early service right now, only a 0.2 version.

Ironie

Ein militanter Gegner des Gesetzes zum verpflichtenden Anschallen mit dem Sicherheitsgurt beim Autofahren stirbt bei einem Autounfall.

Java developers f*** the least

Andrew Newman conducted a brilliant and significant study on how often programmers use f***, and he splitted it on programming languages. Java developers f*** the least, whereas LISP programmers use it on every fourth opportunity. In absolute term, there are still more Java f***s, but less than C++ f***s.

Just to add a further number to the study -- because Andrew unexplicably omitted Python -- here's the data: about 196,000 files / 200 occurences -> 980. That's the second highest result, placing it between Java and Perl (note that the higher the number, the less f***s -- I would have normalized that by taking it 1/n, but, fuck, there's always something to complain).

Note that Google Code Search actually is totally inconsisten with regards to their results. A search for f*** alone returns 600 results, but if you look for f*** in C++ it returns 2000. So, take the numbers with more than a grain of salt. The bad thing is that Google counts are taken as a basis for a growing number of algorithms in NLP and machine learning (I co-authored a paper that does that too). Did anyone compare the results with Yahoo counts or MSN counts or Ask counts or whatever? This is not the best scientific practice, I am afraid. And I comitted it too. Darn.


Comments are still missing on this post.

Jesus ist der Beste

Aahh... richtig schön, wieder einen ganz normalen, toll gezeichneten, ganz und gar neuen nutkidz-Comic zu sehen... Und für alle, die es noch nicht bemerkt haben: das Projekt 100.000 schreitet voran! Der 30.000ste Besucher ist bereits gezählt worden, und Ihr haltet die unglaubliche Geschwindigkeit aufrecht! Weiter so! Und versprochen, bald kommen auch weitere Inhalte als nur das DSA4 Werkzeug wieder hier drauf, dasselbe befindet sich bloß zur Zeit so herrlich in Entwicklung... Gestern kam es in die Top-500 der aktivsten SourceForge-Projekte - und davon gibt es immerhin über 55.000!

Und noch eine Kleinigkeit für alle, die es noch nicht wissen: laut Umfrage der US-Bevölkerung teilen sich auf der Rangliste der wichtigsten Amerikaner Rang 13 niemand anderes als Bill Clinton und Jesus H. Christus! (so Focus 10/03)

Und da soll einen noch etwas überraschen!


Job at the AIFB

Are you interested in the Semantic Web? (Well, probably yes or else you wouldn't read this). Do you want to work at the AIFB, the so called Semantic Web Machine? (It was Sean Bechhofer who gave us this name, at the ISWC 2005) Maybe this is your chance...

Well, if you ask me, this is the best place to work. The offices are nice, the colleagues are great, our impact is remarkable - oh well, it's loads of fun to work here, really.

We are looking for a person to work on KAON2 especially, which is a main building block of many a AIFB software, as for example my own OWL Tools, and some European Projects. Mind you, this is no easy job. But if you finished your Diploma, Master or your PhD, know a lot about efficient reasoning, and have quite some programming skills, peek at the official job offer (also available in German).

Do you dare?

Jochen Witte

Jochen Witte war ein Freund meiner Schulzeit. Ich habe viel von ihm gelernt, er konnte all diese praktischen Sachen zu denen ich nie einen Zugang hatte und von denen ich oft wünschte, ich könnte sie. Von ihm lernte ich, was eine gute Soundanlage braucht und warum Subwoofer groß sein müssen und was Subwoofer überhaupt sind. Zusammen schleppten wir schwere Boxen, um Unterstufendiscos und Abischerze und Vorträge zu ermöglichen. Von ihm lernte ich die Vorzüge des Gaffertapes kennen, und dass es nicht nur silbernes Klebeband ist. Er war der erste, der mir Mangas und Anime ein wenig näherbrachte, insbesondere hatte er eine Leidenschaft für Akira. Er ließ mich das erste Mal die elektronische Musik von Chris Hülsbeck und Jean-Michel Jarre hören. Er las ASM, ich las Power Play. Wir spielten eine zeitlang DSA miteinander. Er war der erste den ich kannte mit einem Pager. Er wirkte stets so als konnte er alles reparieren, und es war gut so jemanden zu kennen.

Gleichzeitig waren einige meiner Freunde und ich ihm gegenüber nicht immer freundlich, oh nein, im Gegenteil, manchmal war ich geradewegs grausam. Ich mache mich über seine Brille lustig oder sein Gewicht, und konnte Punkte damit sammeln, über ihn Witze zu machen. Ich wusste es war falsch. Wir waren ja schon die Außenseiter in der Klasse, und ich versuchte ihn zum Außenseiter der Außenseiter zu machen. Meine einzige Entschuldigung ist, dass wir Kinder waren, und ich noch nicht die Stärke hatte, besser zu sein. Ich lernte viel daraus, und wollte nie wieder so sein. Mit der Zeit verstand ich mich besser. Wo diese Grausamkeit herkam. Und das es nicht an Jochen lag, sondern in mir. Ich schäme mich für vieles was ich tat. Ich weiß nicht, ob ich mich jemals bei ihm entschuldigt habe.

Und dennoch glaube ich waren wir Freunde.

Nach der Schulzeit verloren wir uns aus den Augen. Er studierte Chemie in Esslingen, wir trafen uns hin und wieder im Movie Dick zur Sneak Preview. Er zog nach Staig im Alb-Donau-Kreis und fand sich als Goth wieder. Aber über die Jahre hinweg, gerieten wir hin und wieder in Kontakt.

Eine unserer gemeinsamen Erinnerungen war, wie wir zusammen zu einem Vortrag von Erich von Däniken fuhren. Es war mein Auto. Wir hatten einen Platten, und während er es zum Laufen brachte - wie gesagt, er konnte alles reparieren - fragte er mich, wann ich denn das letzte Mal nach dem Öl geschaut habe. Ich muss so belämmert reingeschaut haben, dass er nur noch lachen konnte. Die Antwort war "Nie", und er sah es in meinem Gesicht. Jedesmal wenn wir uns trafen, sprach er mich auf diesen Abend an.

Jochen half mir beim Umzug nach Karlsruhe. Das Gästebett passte nicht richtig zusammen. Er sagte er könnte es festziehen, aber ich würde es nie wieder auseinander bekommen. Es wird schwierig, damit umzuziehen. Ich sagte, das ist OK, ist ja nur ein billiges IKEA Gästebett Couch Dings. Ich habe nicht vor, damit umzuziehen, versicherte ich ihm.

Ich zog damit von Karlsruhe nach Berlin. Von Berlin nach Alameda. Innerhalb von Alameda. Von Alameda nach Berkeley. Es hat den Umzugshelfern jedesmal Kopfzerbrechen bereitet, genau wie Jochen versprochen hatte. Letzte Woche brach ein Stück ab. Ich sitze jetzt darauf und schreibe das hier. Nach fast einem Jahrzehnt sollte ich es wohl endlich austauschen.

Das letzte mal trafen wir uns ganz zufällig 2017 am Stuttgarter Bahnhof. Ich war überhaupt nur ein Mal im letzen halben Jahrzehnt wieder in Deutschland. Und da, am Bahnhof, traf ich ihn. Es war schön, Jochen wiederzusehen, und wir redeten als ob wir uns immer noch täglich sehen würden, wie zwanzig Jahre zuvor. Als ob das Abitur erst gestern war.

Diese Woche erfuhr ich von Michael, dass Jochen verstorben ist. Er starb nur wenige Monate nach unserem zufälligen Treffen, im April 2018. Er wurde nur vierzig Jahre alt.

Es tut mir leid.

Und noch viel mehr: Danke.

Ruhe in Frieden, Jochen Witte.

Joghurt und Coke

Was mir in Spanien sehr positiv auffiel: sie hatten viele Getränkeautomaten rumstehen. Nun, zugegeben, nicht überraschend. Durstig wie ich war suchte ich also gerade einen Getränkeautomaten, und als ich einen solchen erblickte, war ich erstaunt gleich daneben einen Joghurtautomaten zu finden. Was für eine coole Idee! Später fiel mir auf, dass das durchaus häufig der Fall war: überall verkaufte man Joghurt. Warum es das bei uns nicht gibt? Schönen, frischen kühlen Joghurt, überall, labend, lecker, ach, einfach herrlich, dachte ich, und kaufte eine Cola.

Johnny Cash and Stalin

Johnny Cash was the first American to learn about Stalin's death.

At that time, Cash was a member of the Armed Forces and stationed in Germany. According to Cash, he was the one to intercept the Morse code message about Stalin's death before it was announced.

Jubiläum für den Papst

Mit dem heutigen Tag überschreitet die Dauer des Pontifikats von Johannes Paul II. das von Leo XIII. Hier meine persönlichen Gratulationen nach Vatikanstadt!

Es gibt hierbei die Frage, ob JP2 damit zum zweit- oder zum drittlängst regierenden Papst wird.Pius IX. regierte 31 Jahre und ist damit mit Sicherheit vor JP2, aber was ist mit dem heiligen Petrus? Abgesehen davon, dass weder das Datum seines Todes bekannt ist (zwischen 64 und 67) noch das Jahr, in dem er zum Fels der Kirche wurde (um 30?), weiß man nicht einmal, ob man Petrus überhaupt als Papst zählen kann. Sich selber hätte er mit Sicherheit nicht so bezeichnet.

Dies bloß zum Hintergrund. Es soll also nicht überraschen, wenn es dieser Tage Meldungen gibt, die JP2 sowohl zum zweit- wie auch zum drittlängstregierenden Papst ernennen.Viel amüsanter ist jedoch die Lösung, die Associated Press veröffentlicht hat (und die an zahlreichen Stellen widergegeben wurde):
Now, Pope John Paul II has added another milestone to his career, passing Pope Leo the 13th to become the third longest-serving pontiff in the history of the Roman Catholic Church.
The longest pontificate -- almost 32 years -- was that of the 19th-century Pope Pius the Ninth.

Liebe Associated Press, wer war dann Nummer 2? Vertraue nie den Nachrichten.

Juhee Julai!

Diesmal das Editorial etwas später - und diesen Monat auch leider etwas weniger Aktivität, zumindest am Anfang. Nächste Woche muss ich fort, also auch keine Antworten auf eMails, oder sonst etwas im Netz, eine ganze Woche Internetfrei... wow!
Schwesterchens Galerie ist nun vollständig online. Insgesamt finden sich 91 Bilder in der Galerie, allesamt schön anzuschauen, aus über einem halben Jahrzehnt. Als nächstes werde ich mich wieder an die weitere Beschreibung der DSA-Chronik machen, dies kann aber noch in den August hinein dauern, sowie zum DSA4 Werkzeug mehr schreiben. Die endgültige Öffnung der Quellen kommt näher (noch ist der Code nicht dafür geeignet, glaube ich).

Hauptaugenmerk bleibt, wie auch in den letzten Monaten, auf meiner Studienarbeit. Die Phase der Informationssuche scheint vorbei, das Schreiben hat angefangen und geht in schnellen Schritten voran. Auch dazu wird sich hier mehr finden - aber dies braucht halt Zeit, und somit werden in nächster Zeit leider die Updates seltener...

Aber auch der Juli wird vorbeigehen, und dann der August, und ab Herbst geht es hier spätesten wieder richtig rund! Großes Ehrenwort, und hey, habe ich hier je ein Versprechen für mehr als zwei Monate verschieben müssen?

Mit den besten Grüßen,
und wer bei diesem Wetter zuviel im Netz surft, ist eh selber schuld,
Euer Denny

KAON2 OWL Tools V0.23

A few days ago I packaged the new release of the KAON2 OWL tools. And they moved from their old URL (which was pretty obscure: http://www.aifb.uni-karlsruhe.de/WBS/dvr/owltools ) to their new home on OntoWare: owltools.ontoware.org. Much nicer.

The OWL tools are a growing number of little tools that help people working with OWL. Besides the already existing tools, like count, filter or merge, partly enhanced, some new entered the scene: populate, that just populates an ontology randomly with instances (which may be used for testing later on) and screech, that creates a split program out of an ontology (you can find more information on OWL Screech' own website).

A very special little thing is the first beta implementation of shell. This will become a nice OWL shell that will allow to explore and edit OWL files. No, this is not meant as a competitor to full-fledged integrated ontology development environments like OntoStudio, Protégé or SWOOP, it's rather an alternative approach. And it's just started. I hope to have autocompletion implemented pretty soon, and some more commands. If anyone wants to join, give me a mail.

KAON2 and Protégé

KAON2 is the Karlsruhe Ontology infrastructure. It is an industry strength reasoner for OWL ontologies, pretty fast and comparable to reasoners like Fact and Racer, who gained from years of development. Since a few days KAON2 also implements the DIG Interface! Yeah, now you can use it with your tools! Go and grab KAON2 and get a feeling for how good it fulfills your needs.

Here's a step to step description of how you can use KAON2 with Protégé (other DIG based tools should be pretty the same). Get the KAON2 package, unpack it and then go to the folder with the kaon2.jar file in it. This is the Java library that does all the magic.

Be sure to have Java 5 installed and in your path. No, Java 1.4 won't do it, KAON2 builds heavily on some of the very nice Java 5 features.

You can start KAON2 now with the following command:

java -cp kaon2.jar org.semanticweb.kaon2.server.ServerMain -registry -rmi -ontologies server_root -dig -digport 8088

Quite lengthy, I know. You will probably want to stuff this into a shell-script or batch-file so you can start your KAON2 reasoner with a simple doubleclick.

The last argument - 8088 in our example - is the port of the DIG service. Fire up your Protege with the OWL plugin, and check in the OWL menu the preferences window. The reasoner URL will tell you where Protege looks for a reasoner - with the above DIG port it should be http://localhost:8088. If you chose another port, be sure to enter the correct address here.

Now you can use the consistency checks and automatic classification and all this as provided by Protege (or any other Ontology Engineering tool featuring the DIG interface). Protégé tells you also the time your reasoner took for its tasks - compare it with Racer and Fact, if you like. I'd be interested in your findings!

But don't forget - this is the very first release of the DIG interface. If you find any bugs, say so! They must be squeezed! And don't forget: KAON2 is quite different than your usual tableaux reasoner, and so some questions are simply not possible. But the restrictions shouldn't be too severe. If you want more information, go to the KAON2 web site and check the references.

Karl-Heinz Witzko

Ich hatte unglaublich gutes über das DSA Abenteuer "Jenseits des Lichts" gehört. Aber auch, dass es sehr schwer zu spielleiten sei. Ich sprach Karl-Heinz Witzko darauf an, den Autor des Abenteuers, und er sagte, er würde es für mich leiten. Wir müssten nur eine Zeit finden.

Wann auch immer wir uns trafen, versprachen wir uns gegenseitig, Zeit dafür zu finden. Ich hatte das Buch gekauft, aber natürlich nicht gelesen, und war immer sehr gespannt darauf, was es wohl mit dem Abenteuer auf sich hatte.

Karli hat zu DSA seine ganz einzigartige Stimme beigetragen. Ein Werk wie DSA, eine Welt wie Aventurien, entstammt nicht aus dem Kopf einer einzigen Person, sondern hunderte schufen und trugen bei. Und Karli's Stimme hatte ihren ganz eigenen Humor, und erweiterte die Welt um Perspektiven und Eigenheiten die sonst nie entdeckt worden wären. Ich habe seine Romane mit viel Schmunzeln gelesen, seine Solos sehr gerne und wiederholt gespielt und erforscht, nur sein einziges Gruppenabenteuer kannte ich nicht. Nach seiner Zeit bei DSA schrieb Karli weitere Romane und erschuf weitere Welten.

Am 29. September 2022 ging Karli von uns. Der Name Karl-Heinz Witzko wurde aus dem "Buch der Anwesenden" gestrichen, und ins "Buch der Abwesenden" eingetragen. Altem Brauch auf Maraskan folgend werden Karli nun die Sechszehn Ratschläge mit auf dem Weg gegeben, und die Sechszehn Forderungen gestellt. Ich hätte gerne gehört oder gelesen, was Karli aus diesen gemacht hätte.

Danke für Deine Worte. Danke für Deine Zeit. Danke für Deinen Humor.

Heute schlug ich "Jenseits des Lichts" auf und fing an zu lesen.

Katherine Maher on The Truth

Wikipedia is about verifiable facts from reliable sources. For Wikipedia, arguing with "The Truth" is often not effective. Wikipedians don't argue "because it's true" but "because that's what's in this source".

It is painful and upsetting to see Katherine Maher so viciously and widely attacked on Twitter. Especially for a quote repeated out-of-context which restates one of the foundations of Wikipedia.

I have worked with Katherine. We were lucky to have her at Wikipedia, and NPR is lucky to have her now.

The quote - again, as said, taken out of the context that it stems from the way Wikipedia editors collaborate is: "Our reverence for the truth might be a distraction that's getting in the way of finding common ground and getting things done."

It is taken from this TED Talk by Katherine, which provides sufficient context for the quote.

Katherine Maher to step down from Wikimedia Foundation

Today Katherine Maher announced that she is stepping down as the CEO of the Wikimedia Foundation in April.

Thank you for everything!

Kebab Connection

aus der Reihe Filme in 50 Worten

Montag, Sneak im Metropol. Eine der Regeln der Sneak: ein Film, der eine Preview bekommt, kommt nicht in der Sneak. Wurde Montags gebrochen.

Zum Glück. Weil den Film hätte ich sonst nicht gesehen. Dem Titel nach erwartete ich eine platte Komödie über Türken der zweiten Generation, die voll auf cooler Lan, blöde Sprüche, und zwischen den Knöcheln hängende Hosen stehen. Stattdessen: ein witziger Film, mit einer glaubhaften Geschichte, der Klischees nicht nur bedient, sondern sie an den richtigen Stellen auch ernst nimmt und konsequent weitertreibt. Wenn der Vater den Sohn als Sohn eines Esels beschimpft, weil er weiß, dass er im Unrecht ist, oder er verzweifelt versucht, seine Fehler wegzuerklären, weil er zu stolz ist, sie als solche zuzugeben, dann sehen wir überzeugend dargestellte Szenen. Kurz: ein wirklich guter Film, der leider wegen des Marketings und des Titels den größten Teil der potenziellen Zuschauer verfehlen könnte.

Keine Spielmesse

Dieses Jahr komme ich doch nicht auf die Essener Spielemesse. Geld, Wetter, Reisemöglichkeit, Zeit, usf., mögen mir keine rechte Gelegenheit geben. Schade, wollte ich doch einige Leute sprechen...

Nun ja, was soll's, nächstes Jahr hoffentlich wieder. Und jetzt noch die Treffen absagen...

Keine Updates

Weiterhin keine großen Updates, ich habe für die Uni noch einiges aufzuholen. Aber wie auch schon letzte Woche kommt pünktlich ein neuer nutkidz-Comic!

Keynote at SMWCon Fall 2020


I have the honor of being the invited keynote for the SMWCon Fall 2020. I am going to talk "From Semantic MediaWiki to Abstract Wikipedia", discussing fifteen years of Semantic MediaWiki, how it all started, where we are now - crossing Freebase, DBpedia, Wikidata - and now leading to Wikifunctions and Abstract Wikipedia. But, more importantly, how Semantic MediaWiki, over all these years, still holds up and what its unique value is.

Page about the talk on the official conference site: https://www.semantic-mediawiki.org/wiki/SMWCon_Fall_2020/Keynote:_From_Semantic_Wikipedia_to_Abstract_Wikipedia

Keynote at Web Conference 2021

Today, I have the honor to give a keynote at the WWW Confe... sorry, the Web Conference 2021 in Ljubljana (and in the whole world). It's the 30th Web Conference!

Join Jure Leskovec, Evelyne Viegas, Marko Grobelnik, Stan Matwin and myself!

I am going to talk about how Abstract Wikipedia and Wikifunctions aims to contribute to Knowledge Equity. Register here for free:

Update: the talk can now be watched on VideoLectures:

Kill Bill Vol. 2

Huch. Gestern wollte ich eigentlich in Kill Bill Vol. 1 - stattdessen rutschte ich in Kill Bill Vol. 2. Macht nichts, dacht ich mir, habe ich hier halt im Rahmen der Filme in 50 Worten, voller stolz...

Ein Film, wo ich von der Story noch weniger verraten darf als sonst, sonst werde ich womöglich geköpft. Und das ist bei den potenziellen Zuschauern dieses Filmes nicht aus der Luft gegriffen! Wer Teil 1 geliebt hat, der wird auch Teil 2 mögen! Megacoole Actionszenen. Heiße Musik. Wunderschöne Aufnahmen. Geradlinger (für einen Tarantino, meine ich) Handlungsbogen. Schnelle Duelle. Was den Inhalt angeht: nun ja, der Titel verrät eigentlich schon ziemlich alles...

Kurz: wer Teil 1 gesehen hat, weiß eh, ob er hier reingeht oder nicht. Wozu also noch groß rezensieren?
Das einzig überraschende mag sein, dass der Film - ein zweiter Teil, wohlgemerkt - ab 16 Jahren freigegeben ist, während der erste ab 18 war.

Kindheitsträume wahr werden lassen

Randy Pausch ist Professor für User Interfaces and der CMU, einer der bekanntesten Universitäten der USA. Im September 2006 wurde bei ihm Bauchspeicheldrüsenkrebs diagnostiziert. Seitdem kämpft er um jeden Tag.

In der Vortragsreihe Journeys (Reisen) der CMU, welche Randy mit seinem Vortrag eröffnete, sollen die Vortragenden sich überlegen, was sie den Zuhörern sagen würden, wenn dies ihre letzte Gelegenheit für einen Vortrag wäre. Ihr Erbe, sozusagen.

Der Vortrag -- auch wenn er knappe anderthalb Stunden dauert -- stellt flott und unterhaltend Randys Kindheitsträume vor, und wie sie wahr geworden sind, oder nicht. Er erzählt viele Anekdoten, und fasst wichtige Weisheiten zusammen.

Das Video des Vortrags, mit Untertiteln in Deutsch oder Englisch, ist bei Google Video erhältlich. Sehenswert.

Kleeblatt Versand

Heute erhielt Schwesterchen einen Brief mit einer "Letzten Anweisung für Ihren Gewinn-Abruf". Ihre Gewinnnummer hatte nämlich Glück und brachte ihre einen "Anteils-Gewinn aus der großen 1.618,00 Euro Super-Jackpot-Vergabe"! Toll, oder? 1618 Euro! Da freut man sich. Besonders, wenn man nicht mitgespielt hat.
Wie stets ist der Teufel im Detail: schauen wir mal genauer nach, was hier der Kleeblatt Versand aus Graz durch die Bundesrepublik schickt.
Zunächst mal ist das ganze nicht durch einen Notar, sondern durch einen offiziellen Rechtsberater bestätigt. Nein, nicht, dass ich glaube, der Kleeblatt Verlag würde hier lügen und betrügen, und deswegen nicht einmal einen richtigen Notar hinzuziehen - beileibe nicht! Eher, dass ein Notar wohl zu teuer gewesen wäre, und die ganze Aktion ja - wie es in den Regeln ausdrücklich steht (die in unleserlichen Majuskeln in Hellgrau auf der Rückseite des zweiten Blattes stehen) - "zum Zweck der Gewinnung von neuen Kunden und Interessierten durchgeführt", und die Aktion natürlich am Besten so billig wie möglich sein soll.

"Wie aber?", fragt man sich. "Ich habe doch gewonnen! Ich brauche nur diese 0190er Nummer anrufen, und ich kriege meinen Gewinn!" - ja, schon. Dieser Gewinn aber ist ein Anteil der 1618 Euro. Und der Anruf geht an eine 0190er Nummer, die 1,86 Euro die Minute kostet. Lassen wir den Anruf, sagen wir mal, sechs Minuten dauern (ist nicht lang: Buchstabieren des Namens, der Adresse, es wird nach ein paar Daten gefragt, die im Brief verteilt sind, vielleicht am Anfang noch ein wenig - ebenso zahlungspflichtige, musikuntermalte "Bitte Warten"-Schleifen - und prompt sind 10 Euro unterwegs.
"10 Euro? Das ist doch OK, wenn man 1618 Euro bekommt. Ich meine, die habe ich doch sicher!" Falsch! Man hat einen Anteils-Gewinn an den 1618 Euro erhalten. Das heißt, wenn nur 1000 Leute aus ganz Deutschland anrufen - eine lächerlich kleine Zahl bei einer so überzeugend wirkenden Gewinnmitteilung - bekommt jeder 1,61 Euro. Das heißt, jeder - bis auf den Kleeblatt-Versand. Der kassierte durch die Anrufe über 10.000 Euro.

"Aber wenn das jetzt bekannt ist, dann rufen doch weniger an, und mein Anteil wächst" - oder alternativ "Der macht das doch nur, um seinen eigenen Anteil zu erhöhen, und will, dass wir alle nicht anrufen!" Hier kämen wir in ein klassisches Problem der Spieltheorie: machen wenige mit, ist der Gewinn des Einzelnen größer, aber wenn viele mitmachen etc. Dazu gibt es ausreichend theoretische Texte, ich will hier nicht weiter darauf eingehen.
Zumal das hier nicht zutrifft: ich kann mit Nodix gar nicht die Massen erreichen, welche diesen Gewinn-Abruf erhalten, dazu habe ich schlicht nicht die Reichweite. Ein paar hundert Leser am Tag, das ist nicht das Ding.
Zweitens: ich werde nicht teilnehmen (weil ich ja gar keine Einladung erhalten habe) und ich werde auch Schwesterchen davon abraten. Ich schreibe das also nicht aus persönlichem Interesse, zumal, wie eben gesagt, dass auch nicht wirklich helfen würde.

Alles, was ich mit diesem Beitrag wollte, ist auf die schiere Frechheit zu verweisen, mit der hier Gutgläubigkeit ausgeschlachtet wird. Der Kleeblatt Versand missbraucht hier, um an bestätigte Adressen zu gelangen - nichts Anderes ist ihr Ziel - die Naivität der Leute. Dies führt zu mehr Misstrauen in der Welt. Nein, es ist kein Betrug, glaube ich - ich bin kein Rechtsanwalt - weil alle Informationen ja korrekt da stehen. Sie sind aber irreführend, und ich bin mir sicher, dass jeder Teilnehmer mit einem wesentlich größeren Gewinnanteil rechnet, als den, den er erhalten wird.
Natürlich, wie stets gilt: "Der Rechtsweg ist ausgeschlossen. Teilnehmer oder Dritte können nicht auf die Zuteilung eines bestimmten Gewinnes klagen. Jeder Teilnehmer bestätigt mit seiner Teilnahme, dass er die Teilnahmebedingungen gelesen und verstanden hat, anerkennt und akzeptiert."
Wozu also noch beschweren?

Ich würde mich freuen, wenn ihr diesen Beitrag verlinkt, wenn ihr die Möglichkeit habt. Auch dürft ihr ihn kopieren und sinnerhaltend kürzen und widergeben, solange mein Name oder ein Link hierher angegeben ist. Auf so einen Schmarrn - wie man in Graz sagen würde - sollte man deutlich hinweisen!
Danke.


Ursprünglich auf Nodix von Denny veröffentlicht.

Vorhergehender Beitrag:
Nachfolgender Beitrag:


Kleinigkeiten

Und immer noch am Kleingikeiten basteln. Der Counter, der fleißig seit knapp zwei Jahren die Besucher zählt, hat jetzt auch einen netten Verlauf erhalten, und die Titelseite wurde stark verkleinert, indem die Texte ins Archiv geschoben wurden. Dadurch sollte sich die Ladezeit für die Titelseite stark verkürzen. Zudem ist das Baumgarfbanner nach einem Tag Dienst wieder gewechselt worden - von Grün zu Blau. Stets eine Kleinigkeit, und alles wird besser mit der Zeit...

Klickfrei

Sehr coole Designidee: eine Webseite, die man vollständig navigieren kann, ohne zu klicken, dontclick.it. Sehr schnell, sehr flüssig und sehr hübsch. Ich stelle mir jetzt noch vor, dass wir keine Maus haben, sondern versuchen, mit unseren Augen den Cursor zu steuern - und schon haben wir ein extrem futuristisches User Interface...

Hilft auch bei RSI.

Knowledge Graph Conference 2019, Day 1

On Tuesday, May 7, began the first Knowledge Graph Conference. Organized by François Scharffe and his colleagues at Columbia University, it was located in New York City. The conference goes for two days, and aims at a much more industry-oriented crowd than conferences such as ISWC. And it reflected very prominently in the speaker line-up: especially finance was very well represented (no surprise, with Wall Street being just downtown).

Speakers and participants from Goldman Sachs, Capital One, Wells Fargo, Mastercard, Bank of America, and others were in the room, but also from companies in other industries, such as Astra Zeneca, Amazon, Uber, or AirBnB. The speakers and participants were rather open about their work, often listing numbers of triples and entities (which really is a weird metric to cite, but since it is readily available it is often expected to be stated), and these were usually in the billions. More interesting than the sheer size of their respective KGs were their use cases, and particularly in finance it was often ensuring compliance to insider trading rules and similar regulations.

I presented Wikidata and the idea of an Abstract Wikipedia as going beyond what a Knowledge Graph can easily express. I had the feeling the presentation was well received - it was obvious that many people in the audience were already fully aware of Wikidata and are actively using it or planning to use it. For others, particularly the SPARQL endpoint with its powerful visualization capabilities and the federated queries, and the external identifiers in Wikidata, and the approach to references for the claims in Wikidata were perceived as highlights. The proposal of an Abstract Wikipedia was very warmly received, and it was the first time no one called it out as a crazy idea. I guess the audience was very friendly, despite New York's reputation.

A second set of speakers were offering technologies and services - and I guess I belong to this second set by speaking about Wikidata - and among them were people like Juan Sequeda of Capsenta, who gave an extremely engaging and well-substantiated talk on how to bridge the chasm towards more KG adoption; Pierre Haren of Causality Link, who offered an interesting personal history through KR land from LISP to Causal Graphs; Dieter Fensel of OnLim, who had a a number of really good points on the relation between intelligent assistants and their dialogue systems and KGs; Neo4J, Eccenca, Diffbot.

A highlight for me was the astute and frequent observation by a number of the speakers from the first set that the most challenging problems with Knowledge Graphs were rarely technical. I guess graph serving systems and cloud infrastructure have improved so much that we don't have to worry about these parts anymore unless you are doing crazy big graphs. The most frequently mentioned problems were social and organizational. Since Knowledge Graphs often pulled data sources from many different parts of an organization together, with a common semantics, they trigger feelings of territoriality. Who gets to define the common ontology? What if the data a team provides has problems or is used carelessly, who's at fault? What if others benefit from our data more than we did even though we put all the effort in to clean it up? How do we get recognized for our work? Organizational questions were often about a lack of understanding, especially among engineers, for fundamental Knowledge Graph principles, and a lack of enthusiasm in the management chain - especially when the costs are being estimated and the social problems mentioned before become apparent. One particularly visible moment was when Bethany Sehon from Capital One was asked about the major challenges to standardizing vocabularies - and her first answer was basically "egos".

All speakers talked about the huge benefits they reaped from using Knowledge Graphs (such as detecting likely cliques of potential insider trading that later indeed got convicted) - but then again, this is to be expected since conference participation is self-selecting, and we wouldn't hear of failures in such a setting.

I had a great day at the inaugural Knowledge Graph Conference, and am sad that I have to miss the second day. Thanks to François Scharffe for organizing the conference, and thanks to the sponsors, OntoText, Collibra, and TigerGraph.

For more, see:

Knowledge Graph Technology and Applications 2019

23 May 2019

Last week, on May 13, the Knowledge Graph Technology and Applications workshop happened, co-located with the Web Conference 2019 (formerly known as WWW), in San Francisco. I was invited to give the opening talk, and talked about the limits of Knowledge Graph technologies when trying to express knowledge. The talk resonated well.

Just like in last week's KGC, the breadth of KG users is impressive: NASA uses KGs to support air traffic management, Uber talks about the potential for their massive virtual KG over 200,000 schemas, LinkedIn, Alibaba, IBM, Genentech, etc. I found particularly interesting that Microsoft has not one, but at least four large Knowledge Graphs: the generic Knowledge Graph Satori; an Academic Graph for science, papers, citations; the Enterprise Graph (mostly LinkedIn), with companies, positions, schools, employees and executives; and the Work graph about documents, conference rooms, meetings, etc. All in all, they boasted more than a trillion triples (why is it not a single graph? No idea).

Unlike last week, the focus was less on sharing experiences when working with Knowledge Graphs, but more on academic work, such as query answering, mixing embeddings with KGs, scaling, mapping ontologies, etc. Given that it is co-located with the Web Conference, this seems unsurprising.

One interesting point that was raised was the question of common sense: can we, and how can we use a knowledge graph to represent common sense? How can we say that a box of chocolate may fit in the trunk of a car, but a piano would not? Are KGs the right representation for that? The question remained unanswered, but lingered through the panel and some QnA sessions.

The workshop was very well visited - it got the second largest room of the day, and the room didn’t feel empty, but I have a hard time estimating how many people where there (about 100-150?). The audience was engaged.

The connection with the Web was often rather tenuous, unless one thinks of KGs as inherently associated with the Web (maybe because they often could use Semantic Web standards? But also often they don’t). On the other side it is a good outlet within the Web Conference for the Semantic Web crowd and to make them mingle more with the KG crowd, I did see a few people brought together into a room that often have been separated, and I was able to point a few academic researchers to enterprise employees that would benefit from each other.

Thanks to Ying Ding from the Indiana University and the other organizers for organizing the workshop, and for all the discussion and insights it generated!

Update: corrected that Uber talked about the potential of their knowledge graph, not about their realized knowledge graph. Thanks to Joshua Shivanier for the correction! Also added a paragraph on common sense.

Komplette nutkidz

Yeah! Die nutkidz sind wieder vollständig online. Alle bisherigen 38 Folgen, in deutsch und in englisch.

Und das beste: Gerüchten zufolge soll bald sogar eine neue Folge kommen... ;)

Kroatiens erste drei WM Spiele 2006

Gestern wurde ich durch die Nachricht, dass die WM Gruppen ausgelost werden, eher überrascht (Dank an Rudi für den Hinweis), aber jetzt bin ich über die Ergebnisse erfreut - das werden sehr schöne Spiele!

Berlin, Dienstag, 13. Juni, 20 Uhr: Brasilien gegen Kroatien

Yeah! Das Megaspiel für Kroatien. Der amtierende Weltmeister. Der Favorit. Die Nummer 1 der Weltrangliste. Das erste Spiel auf der WM für beide Länder. Gab es schon mal ein Spiel zwischen den beiden? Nicht in einem offiziellen Turnier. Aber es gab ein Freundschaftsspiel letztes Jahr. Ergebnis? 1:1. Na, nichts ist unmöglich!

Nürnberg, Sonntag, 18. Juni, 14 Uhr: Japan gegen Kroatien

Die Japaner haben wir schon mal besiegt - nur ist das schon ein paar Jahre her, und es war knapp. Beim ersten Auftritt der Kroaten und der Japaner bei einer WM. Doch diesmal sind die Vorzeichen umgedreht. Japan ist Nummer 15 auf der Weltrangliste, Kroatien die 20. Es wird ein enges Spiel. Und - auch Japan konnte dieses Jahr beim Confederations Cup gegen Brasilien ein 2:2 rausholen, und hätte gar fast gewonnen...

Stuttgart, Donnerstag, 22. Juni, 20 Uhr: Kroatien gegen Australien

Ein Heimspiel für die Kroaten. Und in der kroatischen Mannschaft steckt nicht nur ein Australier kroatischer Herkunft. Die Australien waren ganz schön angekäst, als Australier wieder nach Kroatien zurückwanderten, weil sie dort in der Nationalmannschaft vorankommen konnten. Jetzt wird sich Australien rächen wollen. Aber in Stuttgart hat Kroatien eine große kroatische Gemeinde in der Hinterhand. Nur - wird schwerlich dieses Spiel entscheidend werden.

Eine starke Gruppe - aber es gibt ja auch keine leichten Gruppen mehr. Ein klarer Favorit. Aber es kommt auch der Zweite weiter. Noch sechs Monate, dann rollt der Ball!

Und ich interessiere mich gar nicht für Fußball.

Kroatiens nächsten drei WM Spiele 2006

Nachdem gestern die ziemlich sicheren Spiele aufgeschrieben wurde, hier der weitere Verlauf für Kroatien. Gewisse Diskrepanzen zur Realität können sich durch Tatsachen einstellen.

Kaiserslautern, Montag, 26. Juni, 16 Uhr, Zweite Runde: Italien gegen Kroatien

Haushoher Favorit des Spiels ist klar der mehrfache Weltmeister. Die Italien sind jedoch etwas zu leichtherzig, und Kroatien schafft es den alten Nachbar gegenüber der Adria zu besiegen. Das Spiel wird als SmartWeb Demonstrationsobjekt benutzt (erstes K.O.-Spiel in Kaiserslautern!), doch das geht unter weil es danach zu Schlägereien und Randalen kommt in verschiedenen deutschen Städten. Sehr traurig so was.

Hamburg, Freitag, 30. Juni, 20 Uhr, Viertelfinale: Kroatien gegen Frankreich

Mal wieder ein Weltmeister. Diesmal will Frankreich die Schlappe in 2002 wettmachen, doch Kroatien ist in Hochform nach den bisherigen Spielen. Doch es ist eine Wiederholung der WM 1998. Damals besiegte Kroatien im Viertelfinale den Favoriten Deutschland, und verlor dann im Halbfinale gegen den späteren Weltmeister Frankreich. So auch hier. Im Viertelfinale besiegen wir den Favoriten!

München, Mittwoch, 5. Juli, 20 Uhr, Halbfinale: Kroatien gegen Brasilien

Das wir die Brasilianer auch dummerweise jetzt schon wiedertreffen müssen! Im Finale wäre es doch viel spannender. Beide Mannschaften haben eine regelrechte Odyssee durch Deutschland hinter sich gebracht, um sich nach dem Eröffnungsspiel in Berlin hier in München wieder zu begegnen. Wer darf wieder nach Berlin? - nur, diesmal zum Finale. Am Tag zuvor konnte sich Deutschland als einer der beiden Finalteilnehmer qualifizieren - und wer wird nun den Gastgeber im Finale fordern? Alle tippen auf den Weltmeister.

Letztes Spiel wird dann entweder in Stuttgart gegen Holland um Platz Drei, oder in Berlin gegen Deutschland um den Titel. Egal wie es ausgeht: das Spiel wird am nächsten Tag Schlagzeilen machen!

La Grande seduction

aus der Reihe Filme in 50 Worten

Ein kleines Dorf weit, weit ab vom Schuss, mit etwas mehr als 100 Einwohner (bei Bedarf auch doppelt so viele), stirbt langsam vor sich hin. Als es darum geht, eine Fabrik hier anzusiedeln, fehlt vor allem eines - ein ansässiger Arzt. Durch einen dummen Zufall kommt ein schickimicki Schönheitschirurg in das Dorf, und die Dorfbewohner versuchen alles, davon zu überzeugen, dass dies der beste Ort auf Erden ist...

Sympathisch, lustig, unterhaltsam. Man hätte die Figuren vielleicht noch ein wenig überspitzter erwartet, die ganze Geschichte noch absurder gestaltet, den Humor etwas schwärzer - aber stattdessen blieb der Film stets in einem realistischen, wohligen Rahmen. Sehenswert.

Ab dem 2. Dezember im Kino.

Ladenschlussträume

Ich moechte ein Land, wo ich um 21:15 in eine Buchhandlung laufen kann, um mich umzuschauen. Ich moechte ein Land, in dem ich abends nicht in die Stadt hetzen muss, weil die Laeden zu sind.
Ach, halt. In so einem Land bin ich ja!
Also, umformulieren: ich moechte, dass auch endlich in Deutschland das Ladenschlussgesetz gekippt wird. Mehr Freiheit fuer alle!

Und ehrlich: ich glaube nicht, dass es der Untergang des Abendlandes waere, wenn neben den Taxifahrern, Hoteliers, Krankenschwestern, Kellnern, Reportern, Journalisten, Aerzten, Schaffnern, Busfahrern, Feuerwehrmaennern, Polizisten, Bauern, Schichtarbeitern, Webmastern, Freischaffenden, Schluesseldiensten, Telefonsexanbietern, Selbststaendigen, Pfarrern und vielen anderen auch die Einzelhandelsfachverkaeufer Sonntags und abends arbeiten wuerden.

Lange Nacht der Museen

Ist es eigentlich Etikettenschwindel bei der langen Nacht der Museen von einer lange Nacht zu sprechen? Die hört ja schon um 2 auf!

Gestern war in Stuttgart wieder die Lange Nacht der Museen. Diesmal leider ohne mich, da ich in Karlsruhe noch auf der DenkWerkzeug 2005 war (die wiederum einige Aha-Erlebnisse und interessante Einsichten erbrachte), und ich erst nach Mitternacht in Stuttgart aufschlug (weil ich nicht bedachte, dass Samstags die Züge anders fahren).

Hätte sie wirklich lange gedauert, wäre ich noch hingegangen. Für anderthalb Stunden aber 12 Euro auszugeben, nun ja, ich weiß nicht. Ironisch: die Rückfahrt dauerte dann fast so lange, wie die Museumsnacht noch ging, weil am Schlossplatz eine Bahn entgleist war.

Zur langen Nacht der Museen muss immer etwas passieren, wie etwa vor zwei Jahren, als das Parkhaus uns nicht rausließ.

Languages with the best lexicographic data coverage in Wikidata 2023

Languages with the best coverage as of the end of 2023

  1. English 92.9%
  2. Spanish 91.3%
  3. Bokmal 89.1%
  4. Swedish 88.9%
  5. French 86.9%
  6. Danish 86.9%
  7. Latin 85.8%
  8. Italian 82.9%
  9. Estonian 81.2%
  10. Nynorsk 80.2%
  11. German 79.5%
  12. Basque 75.9%
  13. Portuguese 74.8%
  14. Malay 73.1%
  15. Panjabi 71.0%
  16. Slovak 67.8%
  17. Breton 67.3%

What does the coverage mean? Given a text (usually Wikipedia in that language, but in some cases a corpus from the Leipzig Corpora Collection), how many of the occurrences in that text are already represented as forms in Wikidata's lexicographic data.

The list contains all languages where the data covers more than two thirds of the selected corpus.

Last Unicorn dreamcast

One thing my sister and I were doing from time to time was to think, if the Last Unicorn was remade as a live action movie, who would we cast in the different roles? It is sad to see how many of our dreamcast have since died: our favorite Prince Lir was Heath Ledger, and King Haggard, unsurprisingly, Christopher Lee.

Since I was reading the book with Little One, and now watched the movie again (for the 120th time or so), I was again going through my current dreamcast. Here we go.

  • Lady Amalthea - Anna Taylor-Joy
  • Schmendrick - Zach Braff, Donald Glover
  • Molly Grue - Mia Farrow
  • Prince Lir - Owen Wilson, no, getting too old; Liam Hemsworth? Chloe Moretz would be an interesting choice
  • King Haggard - Anthony Hopkins, Jack Nicholson

Since it is en vogue, I also asked Bard and ChatGPT. Here's Bard:

  • Jeff Bridges as Schmendrick the Magician
  • Mia Farrow as Molly Grue
  • Angela Lansbury as the Unicorn
  • Daryl Hannah as Filidor
  • Jeff Goldblum as Schmendrick's sidekick, Bungle
  • Peter Dinklage as the Red Bull
  • Uma Thurman as Mommy Fortuna
  • Alan Rickman as King Haggard

OK, Alan Rickman is a great choice, but unfortunately dead. Uma Thurman as Mommy Fortuna is weird. Peter Dinklage as the Red Bull... why does the Red Bull need to be cast at all? Who are Bungle and Filidor? Angela Lansbury as the Unicorn / Lady Amalthea is... not the right choice. Also dead. Mia Farrow and Jeff Bridges are too obvious choices given their roles in the cast of the animation movie, also Angela Lansbury is from the original cast. I would give Bard a D for that answer.

ChatGPT says:

  • Unicorn - Saoirse Ronan or Emma Watson
  • Schmendrick - Timothee Chalamet or Eddie Redmayne
  • Molly Grue - Meryl Streep or Helen Mirren
  • King Haggard - Ian McKellen or Christopher Lee (if he were still alive)
  • Prince Lir - Tom Holland or Ansel Elgort
  • Mommy Fortuna - Tilda Swinton or Cate Blanchett

Not even close to my choice, but heck, those are good choices. Molly Grue and Mommy Fortuna seem both a bit over-cast. Prince Lir and Schmendrick are pretty brilliant choices. I am not particularly impressed by Emma Watson for Lady Amalthea, I could see Saoirse Ronan work.

I'd give a B+ to ChatGPT.

I feel like ChatGPT seems to go for actors and actresses that are popular with the crowd who likes The Last Unicorn? Not the worst choice.

I followed up with Bard to see who Bungle and Filidor are, because they don't appear neither in the book nor in the movie, if I remember correctly. So, "Bungle is a red unicorn who is Schmendrick's sidekick in the novel The Last Unicorn. He is a clumsy and incompetent unicorn, but he is also a loyal and brave friend. Bungle is played by Jeff Goldblum in the 1982 animated film adaptation of the novel." And "Filidor is a bard in the novel The Last Unicorn. He is a wandering minstrel who travels the land singing songs and telling stories. Filidor is a wise and kind-hearted man, and he is always willing to help those in need. He is played by Daryl Hannah in the 1982 animated film adaptation of the novel." That's entirely a fabrication.