Das Problem dieser Tagclouds ist nun jedoch auch die verwendete Sprache, Wörter wie z.B. “jene, welche, sein, seine, ihre, unser, jedes, wessen” sind als Schlagwörter unbeliebt. Meist versucht man sämtliche Präpositionen, Adverben und Determinative auszugliedern da diese schlichtweg überall vorkommen können ohne eine relevante Aussage an sich treffen zu müssen.
Um dies zu unterbinden nutzt man nun o.g. “Stopword Lists”; Dies sind also nichts weiter als Aufzählungen von unerwünschten Tags. Ich habe auf Frage eines Seitenbesuchers meine Liste mal zum Download verfügbar gemacht.
Die meisten Addons & Plugins für aktuelle CMS oder Blogsysteme wie WordPress, Joomla, Drupal u.v.m. unterstützen die Verwendung von Stopwords.
PS: An das Team der Uni-München, korrekt – ich bin kein Computerlinguist. Mit ein wenig Recherche (Klick auf About.me) wäre dies aber auch schnell aufgefallen, der Inhalt der hier zur Verfügung gestellten Stopword Liste ist auch nicht zu stemming zwecken erstellt worden, sondern um ein einfaches Blogsystem aufzuwerten. Gerne nehme ich den in den Studienarbeiten zusammengetragenen Input auf und werde die Liste damit ergänzen :)
Aber nun zum Download:
[tweet2download file="stopwords.txt" tweet="Good list with German Stopwords - http://bit.ly/stopwords #stopwords via @solariz" follow="@solariz" /]


superb idea… thanks
Very useful … vielen Dank
Super!! Danke viel mal für die Liste :)
Diese Liste kann ich auch gleich brauchen. Danke
Vielen Dank! Ohne Leute wie Sie, die sich die Zeit nehmen und Mühe machen, so etwas der Allgemeinheit zur Verfügung zu stellen, wäre das Leben wirklich schwierig! Danke!
Vielen Dank! Ohne Leute wie Sie, die sich die Zeit nehmen und Mühe machen, so etwas der Allgemeinheit zur Verfügung zu stellen, wäre das Leben wirklich schwierig! Danke!
Vielen Dank, vor allem für die Stopword-Liste. Gerne gebe ich etwas zurück.
Ich habe nämlich nen kleinen Vorschlag, wie du einen Teil deines Codes wesentlich performanter machen könntest.
//–Aussortieren vorbereiten–//
$stop = array_flip($stopwords); // stopwords ist ein array.
// durch das flippen wird anschliessen die sehr effizient
// prüfung mit isset ermöglicht.
$keywords_array = explode(‘;’, $source);
//–Vergleich der Wörter der Datei mit der Liste der unerwünschten Ausdrücke–//
// und entferne gleichzeitig die kurzen wörter
foreach($keywords_array as $key=>$val) {
if (strlen($val)<$minWordLength || isset($stop[$val]))
unset($keywords_array[$key]);
};
$cleaned = implode(';',$keywords_array);