PHP Substantive und Eigenamen herausfinden

Diese Seite verwendet Cookies. Durch die Nutzung unserer Seite erklären Sie sich damit einverstanden, dass wir Cookies setzen. Weitere Informationen

  • PHP Substantive und Eigenamen herausfinden

    Hi,

    ich habe eine Ap, die Nachrichten zusammenfasst. Das soll jetzt auf PHP verlagert werden, damit alles schneller geht und die App dann nur noch die Daten abfragen muss. Jetzt habe ich nur ein Problem mit den Substantiven. Ich möchte in einen Text (ca. 300 Wörter) alle Substantive und Eigennamen herausfinden. Zurzeit mache ich das mit der Großschreibung von Wörtern. Das geht zwar so halbwegs aber 1. nur im Deutschen und 2. wenn ein Substantiv am Anfang des Satzes steht gar nicht. Die App soll jetzt auch mehrsprachig werden.

    Ich habe schon nach Wörterbüchern für PHP bzw. als MySQL DB geschaut. Ich bin da auf WordNet gestoßen. Das gibt es für alle Sprachen außer Deutsch frei verfügbar. Und das ist eben mein Problem. Ich weiß nicht mal ob ich es verwende bzw. ob es überhaupt ein Erfolg wird und die Uni Tübingen verlangt dafür über 3000€.

    Kennt jemand noch ein freies Wörterbuch oder irgendeine andere Variante wie man möglich in verschiedenen Sprachen Substantive finden kann? Natürlich am besten das man es in PHP oder als MySQL DB verwenden kann.

    Viele Grüße
    Nils
  • Du kannst dir ja mal das Wörterbuch der TU-Chemnitz ansehen. Gibt's meines Wissens auch als Download.

    Sowohl im Deutschen als auch in anderen Sprachen gibt es sehr viele Wörter, die sowohl Substantiv als auch einen oder mehrere andere Wordtypen haben. Ohne semantische Analyse wirst du da sehr fehlerhafte Ergebnisse bekommen.
    „Meine Komplikation hatte eine Komplikation.“
  • beage schrieb:

    Hallo Nils,

    ich meine mich zu erinnern, sowas schonmal gesehen zu haben bei den Google APIs. Such mal nach Wörterbuch API oder Duden APIs. Wiktionary hat glaube ich, auch was.

    Ich habe gerade mal geschaut, es gibt immer nur welche mit Online API. Das Problem ist, dass man ja nicht Ressourcen sparend viele API Request machen kann. Das dauert ja viel länger als ein paar. MySQL Requests. Aber danke!

    nussratte schrieb:

    wie reagierst du bei Tippfehlern?
    dann wird das Wort nicht erkannt und nicht als Substantiv markiert, bzw das gemacht was du darauf hin machen willst

    wenn man sich heutzutage mal Nachrichten anschaut, gibt es da keinen Satz ohne Fehler

    Das stimmt aber es gibt ja auch noch welche ohne Fehler. Das kann die App eben nicht erkennen.

    macmoonshine schrieb:

    Du kannst dir ja mal das Wörterbuch der TU-Chemnitz ansehen. Gibt's meines Wissens auch als Download.

    Sowohl im Deutschen als auch in anderen Sprachen gibt es sehr viele Wörter, die sowohl Substantiv als auch einen oder mehrere andere Wordtypen haben. Ohne semantische Analyse wirst du da sehr fehlerhafte Ergebnisse bekommen.

    Dankeschön! Ich habe mir das gerade mal angeschaut, das hört sich gut an. Man muss da wohl alle Filtern die Neutrum, Feminin oder Maskulin sind. Oder wie meinst du das?
  • AppleDeveloper schrieb:

    Ich hab mir das noch mal angeschaut, ich suche jetzt einfach alle Substantive heraus aus der Datei und füge die in die DB ein.

    Eine Frage noch: Ich hab in PHP das Word "trees" in der DB steht nur "tree" wie frage ich das ab? Andersherum geht es über CD das ist ja logisch aber so rum? Jemand eine Idee?
    Ich habs mir nicht näher angeschaut... Such mal nach singularize und pluralize in Verbindung mit PHP. Da gibt es einige Ansätze.
    Ich bin gegen Signaturen!!!
  • macmoonshine schrieb:

    Du kannst dir ja mal das Wörterbuch der TU-Chemnitz ansehen. Gibt's meines Wissens auch als Download.

    Sowohl im Deutschen als auch in anderen Sprachen gibt es sehr viele Wörter, die sowohl Substantiv als auch einen oder mehrere andere Wordtypen haben. Ohne semantische Analyse wirst du da sehr fehlerhafte Ergebnisse bekommen.
    Für einen @kmr-Trollbot dürfte das reichen.
  • AppleDeveloper schrieb:

    Man muss da wohl alle Filtern die Neutrum, Feminin oder Maskulin sind. Oder wie meinst du das?
    Bei vielen Worten kannst du nur aus dem Zusammenhang darauf schließen, ob es Substantive sind. Aber in manchen Fällen ist auch das schwierig. Zwei bekannte Beispiele:
    1. der gefangene floh.
    2. meine schwester ist gut zu vögeln
    Außerdem kannst du fast jedes Nicht-Substantiv substantivieren (z. B. das Rauschen im Walde, die Studierenden, der Vorgesetzte). Im Englischen hast du auch sehr viele Wörter, die mehrere Worttypen haben (z. B. issue, regard).

    Eine einfache Datenbank reicht dafür nicht aus.


    AppleDeveloper schrieb:

    Ich hab in PHP das Word "trees" in der DB steht nur "tree" wie frage ich das ab?
    Selbst im Englischen, wo die Pluralbildung noch vergleichsweise einfach ist, gibt's schon eine Reihe Ausnahmen (z. B. party / parties, foot / feet). Im Deutschen gibt es dann ja beispielsweise die starke Deklination (z. B Blatt / Blätter, Saal / Säle, der/die/das Band / Bände/Bands/Bänder). Regelmäßige Plurale sind im Deutschen schon fast die Ausnahme.
    [list=1][/list]
    „Meine Komplikation hatte eine Komplikation.“

    Dieser Beitrag wurde bereits 2 mal editiert, zuletzt von macmoonshine ()

  • kmr schrieb:

    macmoonshine schrieb:

    1. der gefangene floh.
    2. meine schwester ist gut zu vögeln

    In diesen Fällen hilft aber doch die Orthographie.
    Ja, Schlaumeier. Ich habe die Beispiele bewusst kleingeschrieben. Wer sagt dir, dass die Verfasser der Texte die Orthographie beachten. Gerade bei der Groß-Klein-Schreibung gibt's einige Gemeinheiten, du Thüringer Rostbratwurst. Wenn du das Rumtrollen nicht lässt, melde ich dich dem Heiligen Stuhl und Seiner Heiligkeit. ;)

    Das Deutsche ist hier mit seiner Großschreibung für Substantive doch die Ausnahme.
    „Meine Komplikation hatte eine Komplikation.“
  • Da gibt es doch auch was von Apple?

    NSLinguisticTagger + Objective-Cloud.

    Dürfte einen Tag brauchen, bis das läuft.

    Wenn ich lese, dass Leute PHP verwenden, damit es auf dem Server läuft, weiß ich gleich wieder, dass wir das richtige Projekt gemacht haben. Schon wegen der Codehygiene.
    Es hat noch nie etwas gefunzt. To tear down the Wall would be a Werror!
    25.06.2016: [Swift] gehört zu meinen *Favorite Tags* auf SO. In welcher Bedeutung von "favorite"?
  • macmoonshine schrieb:

    Für Englisch funktioniert der anscheinend auch ganz gut. Für Deutsch konnte ich noch keine sinnvolle Ausgabe bekommen (Alles ist OtherWord).

    Sehr interessant dazu: realm.io/news/natural-language-processing-with-swift/

    An das dort verlinkte NLTK musste ich bei der Fragestellung auch denken.
    Das muss ich auch mal testen. Aber eigentlich muss es auch in Deutsch gehen. Denn Siri geht ja auch im Deutschen. Ich habe auch noch den NSSpellChecker gefunden. Muss ich mir mal anschauen.

    Ich habe jetzt gelesen für Cocao Touch geht es nur in Englisch aber wie es unter Cocoa aussieht muss ich mal schauen.
  • Ah, bei mir klappt's bei ganzen Sätzen auch mit Deutsch. Allerdings taggt er „Heiliger Stuhl“ als Adjektiv + Nomen anstatt ein Nomen, obwohl ich JoinNames eingeschaltet habe. „Meine“ kennzeichnet er als Bestimmungswort, obwohl es ja eher ein Pronomen ist. In Sätzen scheint er dafür auch kleingeschriebene Nomen zu erkennen.
    „Meine Komplikation hatte eine Komplikation.“
  • macmoonshine schrieb:

    Ah, bei mir klappt's bei ganzen Sätzen auch mit Deutsch. Allerdings taggt er „Heiliger Stuhl“ als Adjektiv + Nomen anstatt ein Nomen, obwohl ich JoinNames eingeschaltet habe. „Meine“ kennzeichnet er als Bestimmungswort, obwohl es ja eher ein Pronomen ist. In Sätzen scheint er dafür auch kleingeschriebene Nomen zu erkennen.
    Danke fürs testen! Das hört sich gut an. Damit kann man ja schon was anfangen. Dankeschön!