leolca's blog: 2019

terça-feira, 5 de novembro de 2019

atividade científica

A atividade científica mais importante é o estabelecimento de teorias. Teorias sistematizam o conhecimento adquirido e possibilitam o seu crescimento dedutivamente. (...) Os conceitos teóricos são as peças utilizadas para a construção de uma teoria. As afirmações conectam estes conceitos, formando uma estrutura mais ou menos coerente, ou seja, estabelecem relações entre eles. (...) A parte mais importante de uma teoria é, sem dúvida, as afirmações que podem possuir diferentes status metodológicos e gnosiológicos. No nível científico mais baixo estão os registros, que apenas fixam observações individuais. Eles são muito importantes no início de uma pesquisa, quando se estabelece a existência de um fenômeno, e na conclusão da pesquisa, quando se examinam as teorias. As generalizações empíricas (indutivas) possuem um status um pouco mais alto, substituem vários registros e também inferem algo sobre objetos não observados. Elas estão presentes em todos os estágios de pesquisa, mas, acima de tudo, elas predominam nas pesquisas imaturas onde não é possível estabelecer afirmações de forma dedutiva. Afirmações desta sorte constituem grande parte da linguística atual: todas as regras gramaticais e fonológicas, toda linguística gerativa e a maior parte da linguística histórica consistem em generalizações empíricas de diferentes níveis de abstração. As generalizações empíricas são, em grande parte, afirmações confirmadas, mas que faltam referenciar uma teoria. Elas são em verdade hipóteses trazidas pela indução. Em pesquisas mais desenvolvidas, as hipóteses também são obtidas dedutivamente, a partir de axiomas ou leis. Tais afirmações obtidas pela dedução são chamadas hipóteses ou hipóteses substanciadas. A vantagem reside no fato de que elas estão inseridas em um sistema de afirmações válidas e, portanto, são elas também válidas. A desvantagem é não serem confirmadas no empiricismo, o que geralmente é difícil. Se essas hipóteses forem confirmadas, elas ganham o status de lei. Leis são hipóteses bem fundamentadas e confirmadas. Uma generalização empírica nunca poderá se tornar uma lei, a menos que sejamos capazes de derivar de uma teoria uma hipótese correspondente a ela. Nas ciências empíricas esta é a forma mais comum de pesquisa: observações são feitas sob o pano de fundo de uma ‘teoria’ ainda embrionária, vaga e não formalizada, levando a generalizações empíricas, para a qual uma teoria correspondente é construída. Sem o estabelecimento de leis, um conjunto de afirmações dificilmente poderá ser chamado de teoria. Por esta razão hoje não podemos falar na existência de uma teoria da linguagem, teoria gramatical, e assim por diante. A maioria dos conceitos linguísticos, embora bem complicados, consiste em uma gama de generalizações empíricas. (Altmann & Schwibbe, 1989, p. 1)

original:
“Die wichtigste wissenschaftliche Tätigkeit ist das Aufstellen von Theorien. Theorien systematisieren das erworbene Wissen, und sie geben die Möglichkeit, es deduktiv zu vermehren. (...) Die Bausteine einer Theorie sind theoretische Begriffe, und den Mörtel bilden Aussagen, die diese Begriffe zu einem mehr weniger fest zusammenhängenden Gerüst verbinden, d.h., zwischen ihnen Beziehungen herstellen. (...) Der wichtigste Teil einer Theorie sind ohne Zweifel die Aussagen, die unterschiedlichen methodologischen und gnoseologischen Status aufweisen können. Auf der niedrigsten wissenschaftlichen Stufe stehen die Protokollsätze, die lediglich einzelne Beobachtungen fixieren. Sie sind sowohl zu Beginn der Forschung, wenn die Existenz von Erscheinungen festgestellt wird, als auch beim Abschluß der Forschung, wenn man Theorien überprüft, sehr wichtig. Einen etwas höheren Status besitzen empirische (induktive) Generalisierungen, die eine Menge von Protokollsätzen ersetzen und auch über nicht, beobachtete Objekte etwas aussagen. Sie sind in allen Stadien der Forschung vorhanden, vor allem aber überwiegen sie in der ’unreifen’ Forschung, wo man nicht in der Lage ist, Aussagen deduktiv zu gewinnen. Aussagen dieser Art bilden das Gros in der heutigen Linguistik: Alle grammatischen und phonologischen Regeln, die gesamte generative Linguistik und der größere Teil der historischen Linguistik bestehen aus empirischen Generalisierungen unterschiedlicher Abstraktionsstufen. Empirische Generalisierungen sind - meistens - gut bestätigte Aussagen, jedoch fehlt ihnen die Anlehnung an eine Theorie. Empirische Generalisierungen sind eigentlich induktiv gewonnene Hypothesen. In der weiterentwickelten Forschung werden Hypothesen auch deduktiv gewonnen, durch Ableitung aus Axiomen oder Gesetzen. Derartige deduktiv gewonnene Aussagen bezeichnet man als eigentliche Hypothesen oder begründete Hypothesen. Ihr Vorteil liegt darin, daß sie in ein System von gültigen Aussagen eingebettet und dadurch selbst gültig sind. Ihr Nachteil ist es, daß sie an der Empirie nicht überpruft sind, und oft ist es schwer. Vernünftige Überprüfungsinstanzen zu finden. Wenn es gelingt, eine derartige Hypothese - verhältnismäßig - gut zu bestätigen, so erhält sie den Status eines Gesetzes. Gesetze sind also begründete, gut bestätigte Hypothesen. Eine empirische Generalisierung kann niemals zum Gesetz werden, es sei denn, es gelingt uns, aus einer Theorie eine Ihr entsprechende Hypothese abzuleiten. In den empirischen Wissenschaften ist dies der üblichste Weg der Forschung: Durch Beobachtungen, die auf dem Hintergrund einer embryonalen, vagen, nichtformalisierten ’Theorie’ durchgeführt werden, gelangt man zu empirischen Generalisierungen, zu denen man dann eine entsprechende Theorie konstruiert. Ohne die Aufstellung von Gesetzen kann man eine Menge von Aussagen kaum als Theorie bezeichnen. Dies ist der Grund, warum man heutzutage noch nicht von der Existenz einer Sprachtheorie, einer Grammatiktheorie usw. sprechen kann. Die meisten Iinguistischen Konzeptionen, auch wenn sie formal sehr kompliziert sind, bestehen aus einer Menge von empirischen Generalisierungen.”

quarta-feira, 24 de abril de 2019

read from stdin and printing to stdout UTF-8 string in C

Adapted (from IBM) example to read UTF-8 string from stdin and printing.

#include <errno.h> 
#include <stdio.h> 
#include <stdlib.h> 
#include <wchar.h> 
#include <locale.h> 
int main(void)
{
   char *locale;
   locale = setlocale(LC_ALL, "");
   wint_t  wc;

   errno = 0;
   while (WEOF != (wc = getwchar()))
      printf("wc = %lc\n", wc);

   if (EILSEQ == errno) {
      printf("An invalid wide character was encountered.\n");
      exit(1);
   }
   return 0;
}

Some usage examples:

$ echo "ção" | ./wtst 
wc = ç
wc = ã
wc = o
wc = 

$ echo "你好" | ./wtst
wc = 你
wc = 好
wc = 

$ echo "Привет" | ./wtst
wc = П
wc = р
wc = и
wc = в
wc = е
wc = т
wc =

terça-feira, 12 de março de 2019

Text from: Das Menzerathsche Gesetz in informationsverarbeitenden Systemen.
By: Gabriel Altmann and Michael Schwibbe

Kapitel 7 - DAS MENZERATHSCHE GESTZ ALS RESULTAT DES SPRACHVERARBRITUNGSMECHANISMUS

- R. Köhler -

Die im Menzerathschen Gesetz miteinander verknüpften Begriffe beziehen sich auf bestimmte beobachtbare Eigenschaften (Länge) linguistischer Einheiten (Sätze, Clauses, Wörter, Morpheme, Phoneme); Interpretationen des Gesetzes könnten daher aus allen Modellen (Strukturen und Prozessen) gewonnen werden, die entsprechende Eigenschaften und Einheiten enthalten. Im vorliegenden Beitrag soll nun versucht werden, das Menzerathsche Gesetz mit Hilfe eines Sprachverarbeitungsmodells zu begründen.

Dazu gehen wir von folgender Annahme aus: Die menschliche Sprachverarbeitung ist ein sequenzieller Prozeß; d.h. die Ketten der sprachlichen Komponenten werden stets gliedweise in linearer Folge verarbeitet. Diese Aussage bezieht sich auf Analyse und Synthese gleichermaßen und soll zumindest für eine angenommene höchste Ebene von Konstrukten gelten. Ob es sich hierbei um die Ebene der Teilsätze, der Sätze oder eine noch höhere handelt, lassen wir zunächst offen. Ebenso soll über die Art der Verarbeitung von Einheiten auf tieferen Ebenen, insbesondere über die Auswertung der semantischen Information, hier keine Aussage gemacht werden.

Weiter nehmen wir an, daß für den Sprachverarbeitungsprozeß ein Register fester endlicher Größe als "Arbeitsspeicher" zur Verfügung steht; seine Kapazität entspricht der Speicheranforderung für ein Konstrukt der maximalen Größenordnung. Es ist möglich, daß dieses angenommene Register in einer bestimmten Beziehung zum Kurzzeitgedächtnis steht oder sogar mit diesem identifiziert werden kann. Entsprechende Experimente (vgl. BREDENKAMP, WIPPICH 1977: 120-134) scheinen eine solche Annahme zu stützen: auch für den Bereich der Sprachverarbeitung gibt es eine feste Obergrenze für Einheiten ("chunks"), die behalten werden können. Diese spezielle Hypothese ist jedoch in unserem Zusammenhang nicht nötig und soll hier auch nicht vertreten werden, zumal nicht alle Psychologen von der Existenz einer solcher Instanz ausgehen.

Ein solches Register hat zwei Aufgaben: Die erste besteht darin, die zu bearbeitende Komponente präsent zu halten, solange dies notwendig ist (d.h. bis die Analyse bzw. Synthese vollständig ist), die zweite darin, die erforderliche Strukturinformation zu speichern, die aus den Angaben über die Verknüpfungen der aktuellen Komponente mit anderen Komponenten und die jeweilige Verknüpfungsart besteht. Nehmen wir Sätze als unmittelbare Komponenten einer Texteinheit (Konstrukt) an, so bilden die transphrastischen Bezüge den Gegenstand der Strukturinformation, während die Komponente (der Satz) in Form einer Kette aus Teilsätzen gespeichert ist. In Abbildung 7.1 ist diese Aufteilung schematisch dargestellt. Nun bringt jeder Teilsatz (allgemein: jedes Glied der Kette) wiederum die Notwendigkeit mit sich, einerseits seine Elemente (hier die Wörter), andererseits Strukturinformation (über die Bezüge der Teilsätze untereinander) zu speichern usw. bis zur Phonemebene.

Abb. 7.1. Das Sprachverarbeitungsregister
A = Komponente , B = Strukturinformation

Das hier beschriebene hierarchische Organisationsprinzip hat zur Folge, daß die Strukturinformation jeweils zusammen mit der zugehörigen Ausdruckskette zu speichern ist. Dies ist der Grund dafür, nicht mehrere spezialisierte Register für die verschiedenen Informationstypen zu postulieren, sondern ein allgemeines Sprachverarbeitungsregister anzusetzen; für diese Entscheidung sprechen auch die Resultate von SELVIN und PERCHONOK (1975).

Aus diesem Prinzip und der Kapazitätsbegrenzung des Registers lassen sich zwei Schlußfolgerungen ziehen:
1. Es gibt auf jeder Ebene eine Obergrenze für die Länge von Ketten;
2. Je mehr Komponenten ein Konstrukt hat, desto mehr Strukturinformation wird kumuliert; daher steht umso weniger Kapazität für die Komponenten selbst zur Verfügung.

Aber auch die Zunahme der Strukturinformation ist nicht unbegrenzt, da Anzahl und Typ der Verknüpfungen von Komponenten untereinander bestimmten Einschränkungen unterliegen. Eine Begrenzung liegt darin, daß eine Komponente um so weniger Anknüpfungspunkte bietet, je kürzer (weniger komplex) sie ist; darüber hinaus existieren (semo-/lexo-/syn-/morpho-/phonotaktische) Verknüpfungsrestriktionen. So nimmt beispielsweise mit wachsender Morphemzahl eines Wortes die Anzahl der Modifikationsmöglichkeiten durch Hinzufügen weiterer Morpheme ab. Je mehr Komponenten ein Konstrukt also enthält, desto geringer ist auch die hinzukommende Strukturinformation bei Verknüpfung mit einem zusätzlichen Element, d.h. um so weniger zusätzliche Registerkapazität wird für sie benötigt. Daher liegt folgende Vermutung nahe:

Der Zuwachs an für Strukturinformation benötigter Registerkapazität, die während der Bearbeitung einer Komponente verfügbar gehalten werden muß, ist umgekehrt proportional zu der Anzahl der Komponenten. Bezeichnen wir diesen Zuwachs an Kapazitätsbedarf mit K und die Anzahl der Komponenten des Konstrukts mit x, so gilt

K' = B/x (7.1)

Da der Zuwachs an Strukturinformation wegen der angenommenen Kapazitätsbeschränkung des Registers gleichermaßen die Abnahme der für die Komponente selbst zur Verfügung stehenden Kapazität bedeutet, können wir (7.1) auch folgendermaßen schreiben:

y'/y = -B/x (7.2)

wo y für die Länge der Komponenten steht. Dies entspricht dem Differentialgleichungsansatz von ALTMANN (1980): Die Kürzungsrate für die Komponenten eines sprachlichen Konstrukts ist umgekehrt proportional zur Länge des Konstrukts.

Außer der Ableitung der Differentialgleichung (7.2) ermöglicht das vorgestellte Modell die direkte Interpretation der Parameter der Lösung

y = Ax^b , b < 0 (7.3)

Offensichtlich steht A für die durchschnittliche Länge eines Konstrukts, das aus einer einzigen Komponente besteht (vgl. KOHLER 1982); die numerische Größe von A ist sprach- und textspezifisch. Der Parameter b, der die Steilheit der Kürzung bezeichnet, läßt sich nun unmittelbar aus (7.1) ableiten: er ist ein Maß für den Umfang an Strukturinformation, der durchschnittlich für ein einkomponentiges Konstrukt erforderlich ist. Setzt man nämlich für x die Zahl 1 ein, so ergibt sich für den entsprechenden Informationszuwachs gerade B. Aus dem Modell ergeben sich diesbezüglich zwei Konsequenzen:

1. Wegen des unterschiedlichen Umfangs an notwendiger Strukturinformation muß b sowohl sprachtypisch sein als auch von der linguistischen Analyseebene abhängen;
2. Aus den oben dargestellten Annahmen folgt ein Iinearer Zusammenhang zwischen A und b, wenigstens für Konstrukte der maximalen Größenordnung in dem Idealfall, wo die Komponente zusammen mit der entsprechenden Strukturinformation die Registerkapazität vollständig beansprucht.

Die zweite Konsequenz könnte sich insofern als wichtig erweisen, als sie eine leicht zu testende Hypothese darstellt, mit der das Modell einer direkten empirischen Überprüfung unterzogen werden kann. Da die Länge der Komponente und der Umfang der Strukturinformation nicht mit dem gleichen Maß gemessen werden können, müssen wir einen Proportionalitätsfaktor k einführen. Demnach Ist

A + kb <= R , (7.4)

wobei R für die Größe des Registers steht. Bei empirischen Untersuchungen muß wohl mit beträchtlichen Abweichungen von der Geraden A+kb=R gerechnet werden, da diese Gleichung nur für das maximal ausgenutzte Register gilt. Dennoch sollten sich die empirischen Punkte mit den Koordinaten Ai und bi aus genügend Textuntersuchungen signifikant nach einer entsprechenden Regressionsgeraden ausrichten. Nach den obigen Überlegungen ist zu erwarten, daß solche Tests
1. zu sprach- und ebenentypischen Ergebnissen führen;
2. um so geringere Streuungen zeigen werden, je näher die untersuchte Ebene der maximalen Größenordnung von Komponenten kommt.

Eine mögliche Erweiterung des hier beschriebenen Modells besteht in der Einbeziehung der lexikalischen Information. Es erscheint plausibel, davon auszugehen, daß Verweise auf die jeweiligen lexikalischen Bedeutungen einer Komponente unmittelbar zusammen mit der Komponente im Register gehalten werden. Trifft diese Annahme zu, so gelten die oben dargestellten Überlegungen analog. Die Kapazitätsbeschränkung des Sprachverarbeitungsregisters erzwingt eine Optimierung der Verteilung der Bedeutungszshlen in Bezug auf die Länge der Komponenten. Unter funktionalanalytischem Gesichtspunkt ist eine solche optimale Verteilung als Systembedürfnis aufzufassen, die den Selbstregulationsprozeß der Sprache (vgl. ALTMANN 1981; KOHLER, ALTMANN 1983) beeinflußt. Das Ergebnis ist ein Kompromiß konkurrierender Systembedürfnisse; er schlägt sich als Ausdruck eines Fließgleichgewichts des sprachlichen Systems im Lexikon nieder. In ALTMANN, BEOTHY, BEST (1982) und ROTHE (1983) wird gezeigt, daß die Bedeutungszahl von der Länge ebenfalls gemäß (7.3) abhängt; die Modellerweiterung kann analog zu oben mit (7.4) überprüft werden.

Bisher haben wir uns auf den hyperbolischen Anteil des Originalansatzes beschränkt; die ursprüngliche Gesetzeshypothese läßt sich In zwei Aspekte aufspalten. Der eine bezieht sich auf die hier betrachtete Repräsentation sprachlicher Zeichen und ihre Verarbeitung, der zweite auf Erscheinungen im Zusammenhang mit der Produktion bzw. der Wahrnehmung gesprochener bzw. geschriebener Sprache. Dabei geht es um Wahrnehmungsschwellen für die Länge von Komponenten, die in Übereinstimmung mit dem Weber-Fechnerschen Gesetz in Form von konstanten Veränderungräten beschrieben werden können:

y'/y = -c y=Ae^(-cx) .

Für Beobachtungen, bei denen beide Aspekte eine Rolle spielen, ist zu erwarten, daß die beiden Funktionen zusammengesetzt werden müssen, um die Daten zu beschreiben:

y = Ax^b e^(-cx) ,

was der allgemeinen Lösung des Altmannschen Differentialgleichungsansatzes entspricht.

quinta-feira, 7 de março de 2019

Text from: Das Menzerathsche Gesetz in informationsverarbeitenden Systemen.
By: Gabriel Altmann and Michael Schwibbe

Die wichtigste wissenschaftliche Tätigkeit ist das Aufstellen von Theorien. Theorien systematisieren das erworbene Wissen, und sie geben die Möglichkeit, es deduktiv zu vermehren. Durch das Aufzeigen von Lücken im Netz der Aussage stimulieren sie gezielte Forschung, geben sie einen festen Hintergrund bei der Kritik anderer Theorien, ermöglichen sie Erklärungen und Prognosen, und sie stellen Mittel zu ihrer eigenen Verbesserung zur Verfügung (vgl. SPINNER 1974: 120-123). Theorien, so wie sie in den Naturwissenschaften vorhanden sind, stellen das große Vorbild, den Wunschtraum vieler Linguisten dar, und es fehlt nicht an Versuchen, Aussagen über Wort- und Satzbildung oder darüber, welche Erscheinungen es in der Sprache gibt und welche Funktion sie hat, als eine Sprachtheorie zu bezeichnen.

Woraus besteht eine Theorie? Die Bausteine einer Theorie sind theoretische Begriffe, und den Mörtel bilden Aussagen, die diese Begriffe zu einem mehr weniger fest zusammenhängenden Gerüst verbinden, d.h., zwischen ihnen Beziehungen herstellen. Die dritte Klasse von Komponenten einer Theorie sind Konventionen wie etwa Definitionen, Operationen, Kriterien usw., die im Laute der Forschung immer strenger festgesetzt werden.

Der wichtigste Teil einer Theorie sind ohne Zweifel die Aussagen, die unterschiedlichen methodologischen und gnoseologischen Status aufweisen können. Auf der niedrigsten wissenschaftlichen Stufe stehen die Protokollsätze, die lediglich einzelne Beobachtungen fixieren. Sie sind sowohl zu Beginn der Forschung, wenn die Existenz von Erscheinungen festgestellt wird, als auch beim Abschluß der Forschung, wenn man Theorien überprüft, sehr wichtig. Einen etwas höheren Status besitzen empirische (induktive) Generalisierungen, die eine Menge von Protokollsätzen ersetzen und auch über nicht, beobachtete Objekte etwas aussagen. Sie sind in allen Stadien der Forschung vorhanden, vor allem aber überwiegen sie in der 'unreifen' Forschung, wo man nicht in der Lage ist, Aussagen deduktiv zu gewinnen. Aussagen dieser Art bilden das Gros in der heutigen Linguistik: Alle grammatischen und phonologischen Regeln, die gesamte generative Linguistik und der größere Teil der historischen Linguistik bestehen aus empirischen Generalisierungen unterschiedlicher Abstraktionsstufen. Empirische Generalisierungen sind - meistens - gut bestätigte Aussagen, jedoch fehlt ihnen die Anlehnung an eine Theorie. Empirische Generalisierungen sind eigentlich induktiv gewonnene Hypothesen. In der weiterentwickelten Forschung werden Hypothesen auch deduktiv gewonnen, durch Ableitung aus Axiomen oder Gesetzen. Derartige deduktiv gewonnene Aussagen bezeichnet man als eigentliche Hypothesen oder begründete Hypothesen. Ihr Vorteil liegt darin, daß sie in ein System von gültigen Aussagen eingebettet und dadurch selbst gültig sind. Ihr Nachteil ist es, daß sie an der Empirie nicht überpruft sind, und oft ist es schwer. Vernünftige Überprüfungsinstanzen zu finden. Wenn es gelingt, eine derartige Hypothese - verhältnismäßig - gut zu bestätigen, so erhält sie den Status eines Gesetzes. Gesetze sind also begründete, gut bestätigte Hypothesen. Eine empirische Generalisierung kann niemals zum Gesetz werden, es sei denn, es gelingt uns, aus einer Theorie eine Ihr entsprechende Hypothese abzuleiten. In den empirischen Wissenschaften ist dies der üblichste Weg der Forschung: Durch Beobachtungen, die auf dem Hintergrund einer embryonalen, vagen, nichtformalisierten 'Theorie' durchgeführt werden, gelangt man zu empirischen Generalisierungen, zu denen man dann eine entsprechende Theorie konstruiert. Ohne die Aufstellung von Gesetzen kann man eine Menge von Aussagen kaum als Theorie bezeichnen. Dies ist der Grund, warum man heutzutage noch nicht von der Existenz einer Sprachtheorie, einer Grammatiktheorie usw. sprechen kann. Die meisten Iinguistischen Konzeptionen, auch wenn sie formal sehr kompliziert sind, bestehen aus einer Menge von empirischen Generalisierungen. Die in der formalen Linguistik verbreiteten deduktiven Beschreibungsmodelle werden häufig aufgrund der formalen Ähnlichkeit solcher axiomatischen Systeme und Ihrer Schlußregeln mit dem deduktiven Prinzip wissenschafticher Erklärung fälschilich als Theorien angesehen. Die Hauptentitäten dleser Modelle sind Regeln (wie "S-->NP+VP"), die lediglich empirische Generalisierungen darstellen. Ein System, das aus einer Menge solcher Regeln besteht, besitzt - entgegen aller Behauptung - keinerlei erklärende Kraft; es dient der Deskription von Sprachen, führt aber nicht zur Theorie der Sprache.

Gesetze werden aus anderen Gesetzen oder aus Axiomen abgeleitet. Axiome sind also die höchstrangigen Aussagen einer Theorie. Sie werden nicht abgeleitet, sondern angesetzt. Bei nicht ausgereiften Theorien können ihre Rolle auch einfache, mehr oder weniger evidente Annahmen übernehmen.

Die Suche nach Gesetzen ist wohl die vordringlichste und vornehmste Aufgabe der empirischen Wissenschaften. Die Annahme, daß in der Sprache oder im Sprachverhalten nur Regeln gültig seien, ist falsch. Alle Dinge gehorchen Gesetzen (vgl. BUNGE 1977: 16, Ontological principle 8). Regeln sind Instabile, variable, durch Evolution, Konvention oder Eingriff veränderliche Entitäten, während Gesetze invariante, vom bewußten menschlichen Willen unabhängige Beziehungen darstellen. Die Regeln der Sprache ändern sich ständig, die Gesetze sind unveränderlich.

Etwas präziser formuliert, kann als Gesetz eine begründete und testbare wissenschaftliche Hypothese dann betrachtet werden, wenn sie in bestimmter Hinsicht allgemeingültig ist, d.h., sich nicht auf einmalige Objekte bezieht, zu der jeweils gegebenen Zeit in einem Bereich befriedigend bestätigt worden ist und zu einem - gleichgültig, ob ausgereiften oder unausgereiften - wissenschaftlichen System gehört (vgl.BUNGE 1961; 1967, I: 361). Es handelt sich bei Gesetzen also um empirisch sinnvolle Aussagen, deren Schlüsselfertige sich nicht auf sprachliche Einzelerscheinungen beziehen, die für alle Sprachen gelten, hinreichend bestätigt worden sind und zu einem System von Sätzen gehören. Die letztere Forderung ist für die Linguistik zur Zeit am schwierigsten zu erfüllen.

Es existieren keine einigermaßen ausgereiften Sprachtheorien, obwohl es bereits Theorien über einige begrenzte Teilgebiete gibt. Die Systematisierung einer Aussage ist einfach, wenn sie aus einem Axiomensystem folgt. Als einziges Problem bleibt dann nur die Bestätigung. Wenn aber kein Axiomensystem vorhanden ist, so wird die Hypothese zwar aus Annahmen, die die Axiome einer Mikrotheorie darstellen abgeleitet, aber das Problem der Bestimmung der Parameter bildet eine oft noch größere Schwierigkeit als die Ableitung selbst. Es geht dabei nicht um die - statistische - Schätzung der Parameter aus den Daten, sondern um ihre Einsetzung nach ihrer Entnahme aus Theorien anderer Teilgebiete. Da in der Linguistik Theorien nur in sehr geringer Zahl vorhanden sind, wird dieses Problem vielen linguistischen Theorien noch lange Schwierigkeiten bereiten. Das Problem liegt auch darin, daß im Unterschied zur Physik, wo die Materialien relativ exakt meßbare Eigenschaften haben, d.h., relativ scharf unterschieden werden können, die sprachlichen Entitäten vorläufig eine ziemlich unscharfe Identität aufweisen. Bedenkt man beispielsweise, was für unterschiedliche Eigenschaften Texte ais einem einzigen Genre, beispielsweise Prosatexte, besitzen, so wagt man kaum, irgendwelche Parameter der 'Prosa' in eine gesetzesartige Aussage einzusetzen. Es gibt in diesem Bereich keine echten 'Grundgesamtheiten' (vgl. ORLOV, BORODA, NADAREJSVILI 1982), sondern nur Individuelle Werke, so daß es schwer sein wird, Klassen von Texten mit gleichen Parametern auszusondern und diese Parameter zu begründen bzw. abzuleiten.

Auch das Problem der Bestätigung einer Hypothese ist nicht immer leicht. Aus einer sehr allgemeinen Aussage, die ein Gesetz darstellt, sollten möglichst viele Konsequenzen folgen. Je allgemeiner die Begriffe in einer gesetzesartigen Aussage sind, desto mehr Konsequenzen lassen sich durch Einsetzung spezifischer Begriffe ableiten. Setzt man aber spezifizierte Begriffe ein, so müssen gleichzeitig Identifikations - und Segmentaktionsprozeduren entworfen werden, die es erlauben, die betreffenden Entitäten aus Texten, Grammatiken oder Wörterbüchern zu gewinnen. Es müssen Erhebungs - und Testprozeduren festgelegt werden, die nicht immer aus der Statistik übernommen werden können. Es müssen oftmals enorme Datenmengen verarbeitet werden, wobei es leichter ist, große Textmengen als viele Sprachen zu bearbeiten. Zum Unglück handelt es sich bei Sprachgesetzen immer um Aussagen, die für alle Sprachen gelten sollen, so daß man gezwungen ist, zu ihrer Überprüfung sowohl viele Texte - wenn es sich um ein textbezogenes Gesetz handelt - als auch viele Sprachen in Betracht zu ziehen. Es is kein Wunder, daß die Formulierung von Sprachgesetzen lange Zeit hat sich warten lassen. Diejenigen Gesetze, die bereits akzeptiert worden sind, zeigen immer noch gewissen kleine Mängel, die sich nur mühsam beseitigen lassen. Dies ist aber der normale Weg der Wissenschaft, die zu keiner Zeit die 'volle' Wahrheit enthüllt, sondern sich ihr graduell nähert, indem sie Teilwahrheiten entdeckt und sich ständig korrigiert (vgl. BUNGE 1967: I, 18)

Ein wissenschaftshistorisch sehr lehrreiches Beispiel stellt das sogenannte Zipf-Mandelbrotsche Gesetz dar, dessen Analogien aus der Biologie, der Ökonomie der Dokumentation und aus anderen Gebieten bekannt sind. Es entwickelte sich von empiristischen Anfängen, bei denen man einem Verlauf von numerischen Werten eine Kurve anpaßte, bis hin zu ziemlich komplizierten 0berlegungen mit vollen mathematischen Ableitungen (vgl. ZIPF 1935, 1949: MANDELBROT 1953, 1954; SIMON 1955; ORLOV 1976; WOODROOFE, HILL 1975: FAIRTHORNE 1969, ARAPOV, SREJDES 1978 etc. etc.). Ein anderes Bespiele ist das 'Menzerathsche Gesetz', das bereite im vorigen Jahrhundert zunächst als Beobachtung festgehalten wurde, später im Bereich der Phonetik generalisiert, ja sogar mit empirischen Formeln erfaßt wurde. Menzerath selbst faßte dleses Gesetz in die Worte: "Je langer das Ganze, desto kleiner die Teile", eine Formulierung, die sich mathematisch leicht ausdrücken Iäßt. Zur Zeit steht man bei theoretischen Ansätzen, die später systematisiert werden müssen.

Ebenso, wie sich die Gültigkeit des Zipf-Mandelbrotschen Genetzes auch an nicht linguistischem Material erwiesen hat, etwa in der Musik (vgl. BORODA 1980) oder in der Malerei (vgl, VOLOSIN, ORLOV 1972), so erwarten wir auch eine allgemeinere Gültigkeit des Menzerathschen Gesetzes im Rahmen informationsübertragender Systeme (vgl. Kap. 6 und 7). Vielleicht sind diese beiden hier genannten Gesetze lediglich Konsequenzen des Prinzips der geringsten Anstrengung oder eines anderen, bisher noch unbekannten Prinzips des menschlichen Verhaltens, so daß sie sich später einheitlich ableiten lassen werden. Auf jeden Fall öffnet sich hier ein weites Forschungsfeld.

Unsere Aufgabe besteht In dem vorliegenden Buch darin, einige Ansätze zur Ableitung des Menzerathschen Gesetzes vorzulegen, seine Gestalt in Form einer Funktion anzugeben (Kap. 2). mehrere linguistische Hypothesen, die aus dem Gesetz folgen, aufzuzeigen (Kap. 3), einige dieser Hypothesen auf einer breiten Grundlage mit Hilfe statistischer Methoden (Kap. 4) zu testen (Kap. 6) sowie das Gesetz verallgemeinernd in andere Gebiete der Linguistik, der Biologie, der Primatensoziologie und der Psychologie (Kap. 6 und 7) zu übertragen.