Posted  by  admin

Программа Статистической Обработки

. 1. Программы анализа и лингвистической обработки текстов Название Автор(ы), Организация Комментарий © Tomas Mikolov, etc., 2013. Исследовательский проект Google, принесший всем цифровым исследователям NLP чрезвычайную пользу. Word2vec - это C программа, позволяющая построить векторные представления слов на заданных массивах текстовой информации. Использует в своей основе реализацию с помощью самообучающейся нейронной сети алгоритмов 'Continuous Bag-of-Words' (CBOW) и 'Skip-gram model' (SG). В итоге можно получить 'словарь', однозначно характеризующий использование заданных слов в контексте.

КратКиЙ обзор некоторых программ статистической обработки данных. На рынке статистического. Комплексной обработки. Он неудобен для обработки. Добро пожаловать в мир больших статистических программ!

Чем больше массив обучения, тем лучше и устойчивее получаются результаты. И тут начинается волшебство,- ничего не понимая о предмете, программа может выдавать такие интеллектуальные прозрения, что диву даешься! Например, арифметическая операция над векторами слов vector('king') - vector('man') + vector('woman') дает очень близкое значение к vector('queen').

Или vector('Paris') - vector('France') + vector('Italy') практически совпадает с vector('Rome'). Существуют множественные клоны word2vec. Например, на github выложен общедоступный проект ©, 2012. Парсер, выполняющий грамматический разбор текста в дореформенной русской орфографии. Позволяет:. выделить токены и определить их тип (слово, знак препинания, число, тег разметки и т.д.);.

выполнить морфологический анализ словарных слов;. построить гипотезы для нераспознанных слов;. выполнить анализ многословных сочетаний. На Javascript. The Apache Software Foundation, Incubator OpenNLP - это организационный центр 'open source' проектов, связанных с машинной обработкой естественного языка под эгидой Apache.

OpenNLP предлагает обширный Java-инструментарий обработки текстов на основе методов машинного обучения. Он включает средства токенизации, выделения предложений, разметки частей речи, выделения имен собственных, разбора текста и разрешения перекрестных ссылок. Имеется документация на английском языке.

Для скачивания доступен исходный код и бинарные компоненты (для запуска требуется установка Java VM). † Carnegi Melon University, USA Link Grammar Parser – это синтаксический парсер английского языка. Работает со словарем, включающем около 60000 словарных форм. Реализован на C для Unix.

Программа Статистической Обработки

Есть также версия. Имеет консольный интерфейс. Исходные предложения для разбора могут вводиться вручную с клавиатуры или задаваться в ASCII-файле для пакетной обработки.

Программа распространяется бесплатно. † New-Mexico State University, USA Проекты Cíbola/Oleada реализуют обширные компьютерные системы лингвистического анализа текстов, представленных в Unicode. Компоненты системы включают средства работы с мультиязыковыми текстами (MUTT), построения конкорданса (XConcord) для текстов на более чем 16 языках, статистического анализа, автоматического перевода, различные словари и тезаурусы. Некоторые версии этих компонентов доступны для бесплатной загрузки после процедуры формальной регистрации. Все компоненты реализованы в среде X11 Window System для SunOs и Solaris. † Программа для синтаксического и морфологического анализа русскоязычных текстов.

Работает с входным ASCII-текстом. Используется морфологический словарь, включающий 120000 слов. Реализована на SWI-Prolog для Windows. Программа распространяется бесплатно., компания Яndex Компактный, очень быстрый и бесплатный морфологический парсер русскоязычных текстов, реализованный на основе словаря Зализняка. Доступны для загрузки версии для Windows и Linux.

Работает как консольное приложение и имеет различные режимы представления результатов. On-line версия программы математического анализа структуры текста. Целью анализа является определение близости любого из предлагаемых пользователем текстов к одному из авторских эталонов, определенных заранее. ( Авторский эталон - это набор текстов данного автора, взятый из ).

Программа анализирует входной текст и выдает имена трех писателей, которые могли бы быть его наиболее вероятными авторами. Кроме этого, программа находит три произведения каждого из авторов, которые наиболее близки данному тексту. LingSoft, Финляндия Компоненты грамматического разбора, морфологического анализа и лемматизации (нормализации) для английского, немецкого, финского, датского, норвежского, шведского, эстонского и русского языков. Это коммерческие продукты, которые могут быть использованы при разработке других систем. СУБД StarLing, позволяющая работать с мультиязычными текстами большой длины, с транскрипционными знаками, с удобным поиском, с анализом и синтезом словоформ по словарю Зализняка, с переводом по словарю Мюллера. Есть функции для сравнительно-исторических исследований (глоттохронология). Для загрузки доступны полные и версии системы.

Программа Для Статистической Обработки Данных Скачать Бесплатно

Для обеих версий системы требуется предустановка системных фонтов, также доступных для загрузки (, ). Кроме этого можно загрузить словари и в DBF-формате. В режиме on-line на сайте доступна для различных языков. On-line версия программы морофлогического анализа слов русского/английского языков.

Обработки

Позволяет получить для вводимого слова базовую форму и морфологическую информацию. Программа реализована на основе словарей Зализняка (рус.яз.) и Мюллера (англ.яз.). Dept of Linguistics, Rice University, Texas, USA Коммерческие программы построения различных конкордансов, в том числе и мультиязычных. Имеется возможность загрузки бесплатных демо-версий, которые имеют ряд ограничений в сравнении с реальными версиями. © 2010 School of English, University of Liverpool WordSmith Tools - это многофункциональный программный комплекс для исследования поведения слов в текстах. Компонент WordList позволяет построить список отдельных слов или кластеров слов, упорядоченных по алфавиту или частоте. Компонент Concord используется для построения конкордансов.

Компонент KeyWords позволяет построить список ключевых слов. Имеется настройка на тип языка в обрабатываемых текстах. Исходные тексты могут быть представлен в различных форматах, включая PDF, MS Word, HTML, XML или SGML. Работает на платформах Windows 2K и старше, 32 или 64-битных версий. Для скачивания доступна бесплатная демо-версия. Демо-версия очень интересного инструмента анализа символьных текстов. Позволяет построить семантическую сеть понятий, выделенных в обрабатываемом тексте, со ссылками на контекст.

Имеется возможность смыслового поиска фрагментов текста с учетом скрытых в тексте смысловых связей со словами запроса. Позволяет анализировать текст путем построения иерархического дерева тем/подтем, затрагиваемых в тексте.

Также имеется возможность реферирования текста. Кроме отдельного продукта TextAnalyst также предлагается инструментарий разработчика TextAnalyst SDK, включающий функции лемматизации (приведения слов к нормальной форме) для русского и английского языков, построения частотных списков понятий, поиска слов в контексте и т.д. Еще одна комонента, TextAnalyst Lib, может использоваться для пострения гипертекстовых электронных книг. Все компоненты реализованы для Windows 95 и выше и доступны для бесплатной загрузки. Интересно отметить, что на американском рынке технологию TextAnalyst продвигает фирма корпорация Галактика, Москва Автоматизированная система поиска и аналитической обработки информации. Мощный инструмент анализа и обработки текста (Text Mining), позволяющий извлекать необходимые сведения из огромного объема данных.

Это коммерческая система, имеющая клиентов в рекламе, органах управления и средствах массовой информации. Авторская страничка ведущего разработчика компании А.Коваленко, на которой представлены его лингвистические разработки, реализованные в ряде существующих информационно-поисковых систем -, системе и других. Можно скачать описания и демо-версии компонентов. Relevant Software Inc. Замечательная компонента, подключаемая к Microsoft Internet Explorer (версии 5.0 и выше), которая позволяет в мгновение ока получить упорядоченный индекс слов в загруженном HTML документе. Индекс может быть упорядочен по алфавиту или частоте.

Для каждого слова в индексе можно исследовать контекст, в котором это слово встречается. Выбранные слова по желанию заносятся в персональную базу знаний, которая позволяет систематизировать найденные документы удобным образом. Можно скачать бесплатную версию. Indiana University, USA Пакет программ обработки ASCII текстов, разработанный из Университета в Торонто.

Пакет включает программы для автоматизированной разметки текста; построения упорядоченных списков слов; анализа распределения слов в тексте по длине и частоте; построения конкорданса и другие. К сожалению все программы старые и сделаны для DOS. Однако, имеется on-line версия пакета, Нидерланды Сборник различных утилит и Unix-скриптов для обработки ASCII-текстов. Все программы скомпилированы для использования в Linux., 1997-2016 Программа анализа текстов в среде MS Windows. Позволяет построить упорядоченные индексы словоформ или словосочетаний заданной размерности для множества входных текстов в формате ANSI, UTF-8 или HTML.

Поддерживает основные кириллические кодировки. Возможность поиска с использованием символов маскирования. Имеет встроенный морфологический модуль, позволяюший искать все видоизменения русских слов, заданных базовой формой. Позволяет осушествлять контекстный просмотр результатов, представленных в виде гипертекстового индекса. Возможность анализа двух текстовых корпусов на сходство или различие. Сайт разработчика: Худломер - это метод автоматической классификации функционального стиля текста на основе спектров длин слов.

Программа, реализующая классификацию, написана на языке JavaScript (первоначальная версия была на Perl) и доступна on-line. Программа определяет следующие стили: разговорный стиль, стиль художественной литературы, газетно-информационный стиль, научно-деловой стиль. Автор Худломера - президент конкурса русской сетевой литературы ТЕНЕТА-РИНЕТ'2000, Леонид Делицин.

Версия 1.21, 1995 DOS-утилита, реализующая стилистическую проверку русскоязычных текстов. Программа отыскивает в тексте места, где фонетически и морфологически схожие слова расположены в непосредственной близости, что порождает так называемую паронимию или ' нечаянную тавтологию'. Программа распространяется без каких-либо ограничений вместе с исходным текстом на C. Есть версия для OS/2. От, компания, Новосибирск Unique Record Set Management utility, Win9x/NT/2000. Утилита для построения и обработки словарных частотных индексов. Позволяет обрабатывать входные документы в форматах обычного текста, HTML и MS Word.

Возможности анализа и обработки пар словарных индексов как двух множеств. Экспорт результатов в выходной файл., 2001 Бесплатная утилита подсчета частоты встречаемости различных слов в текстовых или html-файлах. Понимает основные русские кодировки, игнорирует html-разметку. Описан простой алгоритм сравнения двух текстов и даны примеры программ на FoxPro. Автор использует данный алгоритм для поиска дубликатов анектодов в своей личной коллекции. Сайт, на котором представлены разработки рабочей группы специалистов в области автоматической обработки текста. Среди предлагаемых продуктов:.

модуль графематического анализа текста;. компоненты морфологического анализа для русск., нем. И англ.яз.;. модуль автоматического уничтожения омонимии;. модуль семантического анализа текста;.

система лингвистического поиска (конкорданс);. различные тезаурусы и словники. Для загрузки доступны freeware версии для Linux и Windows. Исходные коды для Linux доступны на условиях лицензии LGPL. Сайт, на котором представлены разработки московской компании Russian Context Optimizer. Cреди представленных технологий:.

Программа Статистической Обработки

анализ и классификация текстов, автоматическое реферирование;. полнотекстовый поиск для Oracle и SQL Server;. морфологичекий, синтаксический и семантический анализ текста;. средства навигации по большим массивам текстов;. научные публикации авторов проекта.

©, Digital Image Design Inc. 2002 Революционная программа для визуализации и исследования текстов, являющаяся настоящим произведением искусства. Текст воспроизводится на экране компьютера в виде галактики, в которой слова играют роль звезд.

Часто встречающиеся слова светятся ярко, а редкие - вовсе не видны. Строки текста выводятся в виде закручивающейся спирали по границе 'галактики' точечным шрифтом (высотой в один пиксель). Программа позволяет видеть структуру текста, взаимосвязи между словами и контекстом, просматривать частотный и алфавитный индекс слов и конкорданс. При движении курсора по галактике слова вспыхивают и загораются лучами (указателями на контекст) и еще звучат в разной тональности. Программа реализована как Java-апплет для броузера. Морфологический модуль в виде DLL-библиотеки, позволяющий осуществлять лемматизацию и морфорлогический анализ для слов русского языка.

Работает с морфологическим словарем, построенным на базе словаря Зализняка. Поддерживает функции создания, обновления и работы с дополнительными пользовательскими словарями. Модуль написан на MS Visual C и доступен для загрузки с авторского сайта. © 2000-2004 Пакет NSP позволяет идентифицировать в больших корпусах текстов словесные n-граммы с использованием стандартных статистических критериев, таких как тест Фишера на равенство, отношение логарифма вероятности и тест Пирсона хи-квадрат. Позволяет легко задавать дополнительные критерии проверки.

NSP написан на языке Perl. Исходный текст распространяется на условиях GNU Copyleft.

Лемматизатор, реализующий возможности морфологического модуля системы Мультитран. Загружаемый архив lemm.zip содержит исходный код проекта для MS Visual C и словарную базу системы, содержащую около 300.000 основ и 15.000 окончаний для русского языка. Позволяет искать все базовые формы введенного слова с показом его грамматических характеристик.

Fido: 2:5062/17.5 Программа построения частотного словаря для заданного текста. Теоретически может работать с любыми файлами, содержащими ASCII-текст в кодировке Win-1251. Работает в ОС Windows 9x/ME/NT/XP как консольное приложение. © 2002-2003 Замечательная программа поиска рифм на основе 'Грамматического словаря' А.А.Зализняка.

Программа Статистической Обработки Данных Statistica

При поиске выполняет фонетическое сравнение слов с учетом ударения. Позволяет находить для заданного слова синонимы и антонимы. Общий размер словарной базы Rhymes составляет 100 тыс. Слов и 1.7 млн. Версии для Windows и Pocket PC.

On-line парсер русского языка, использующий при разборе предложений Грамматику Связей (Link Grammar). Результатом работы парсера является граф, в котором слова предложения связаны между собой связями. Эти связи позволяют корректно определить морфологические признаки слов в предложении и разрешить возникающую омонимию. Парсер реализован на C и Perl для Unix. Синтаксический анализатор естественного текста на русском языке обрабатывает предложения с большим количеством слов (100 и более). Регистрация. При этом ошибочность разбора оценивается как 20% от общего числа связей, связываемость слов в предложении составляет около 70% от общего числа связей. Программа 'Склонятель' предназначена для склонения слов и словосочетаний на русском языке.

Она может быть использована для автоматизации делопроизводства, например, для склонения наименований должностей, предприятий, изделий, материалов и так далее. Программа реализована в виде модуля (библиотеки) для различных платформ -.NET, Win32, FreeBSD. Программа генерации синтаксически корректных предложений.

Программа управляется входным файлом правил на основе грамматики Bison, что обеспечивает выборочный илм полный контроль предложений. Программа может использоваться для тестирования компиляторов и парсеров или дидактических целей. Реализована для POSIX (Linux/BSD/UNIX-клоны) и Linux операционных систем. Леонид Бродский Бесплатная программа, позволяющая генерировать билингва-текст (текст из двух синхронных половинок на разных языках). † © Инструментальные средства московской компании МедиаЛингва, предназначенные для создания систем автоматического аннотирования, классифицирования, поиска и морфологической обработки текстовой информации. Программное обеспечение для обработки естественного языка (английского, немецкого и некоторых других):.

грамматического разбора предложений;. проверки орфографии и грамматики;. интеллектуального преобразования текста (автоматическая редакторская правка);. резюмирования содержания текста;. генерации ответов на вопросы;. логического вывода (извлечения из текста неявного смысла и знаний);. аудио-перевода текста (автоматического озвучивание текста перевода);.

видео-перевода предложений (показ видео-клипов, соответствующих смыслу переводимых предложений). Для ознакомления доступны демо-версии. Программы работают под Windows в режиме DOS-окна.