Народ.Ру: Semantic WEB и онтологии

Semantic WEB и онтологии - ссылки

Пример кодирования
Пример кодирования в парадигме SW с основными ссылками

Semantic Web
Основная статья Тима Бернерс(а)-Ли

Semantic Web activity

XML and ontologies

SHOE - put it on your home page!
Немного устарелый способ кодирования онтологий. Сейчас все подавил RDF

Eще о SW - целый набор ссылок

Соотношение PROLOG-RDF
Примеры кодирования и другое

Еще один набор ссылок

Fundamentals of the Semantic Web
Прекрасное слайд-шоу

Сам Protege-2000 и ссылки о нем

Набор хороших публикаций о SW
~

Не вредно почитать

~

Проект, подобный SW
~

Кажется - наш

~

Онтологии

...И никакой семантики
...

22.08.06
Виктор Шепелев

Тут у нас недавно директор одного крупного поисковика нахамил создателю одной крупной всемирной Паутины, известному ученому, сэру, и вообще светилу современной науки и столпу "этого ихнего Интернета".

Для тех, кто поленился пройти по ссылкам в предыдущем абзаце, "краткое содержание предыдущих серий": Тим Бернерс-Ли, в свое время в одиночку разработавший концепции WWW, HTML, URL и нескольких других страшных слов, сегодня - глава "комитета по приглядыванию за Паутиной", знаменитого W3C. А на досуге - разрабатывает концепцию "следующей Сети" - Семантической Паутины (Semantic Web).

Основа концепции: в web-страницы необходимо закладывать больше машиночитаемой (то есть - хорошо формализованной) информации, описывающей смысл содержимого этой страницы. Тогда возможно будет создание намного более совершенных, чем сегодня, Интернет-приложений. Например: каждая гиперссылка должна содержать информацию не только об адресе целевой страницы, но и о ее "отношениях" с данной страницей (скажем, 4 ссылки из предыдущего абзаца были бы описаны как "герой статьи", "просто ссылка для понтов", "данные для статьи", "герой статьи"). Будь весь Веб размечен таким супер-гипер-ссылками, тот же Гугл на запрос "Berners-Lee" мог бы вернуть не просто "список страниц, где встречается это слово", а что-нибудь вроде "это человек, о нем известно то-то, вот его биография, вот здесь он работает, вот что он создал, вот о нем статьи" etc.

Что мешает Умной Паутине?

Идея Semantic Web разрабатывается уже жутко давно, но на ее пути стоят некоторые тяжело преодолимые преграды, о чем и говорил директор Google по поиску Питер Норвиг в своем ответе на доклад Бернерса-Ли о том, что "до Семантической Паутины - рукой подать, надо лишь чуть-чуть поднапрячься".

Об этих-то преградах и поговорим - хотя бы потому, что Норвиг "правее" Бернерса-Ли не только с прагматической точки зрения, но и с идеалистически-философской. И тут мы с Питером Норвигом становимся в странную (и несколько глуповатую) позу - защищаем Наш Веб от его же (Вебова) создателя. Зачем бы это?

Затем. Затем, что это Наш Веб: мы тут, знаете ли, живём. "Семантический" же подход к его будущему построен по принципу "отвержения настоящего". Априори полагается, что тот Веб, который есть сейчас - это неправильный Веб (делает неправильный мед); значит, новый, правильный, надо строить как минимум "рядом и независимо" со старым (а как максимум - на обломках "разрушенного-до-основанья-а-затем"). Весь массив информации, оформленный в "отсталом (несемантическом)" формате, проиндексированный "допотопными (несемантическими)" поисковиками; все миллиарды человеко-лет, потраченные на создание этой инфраструктуры - это всё "граждане, ошибочка вышла". Это мы, мол, по нехватке ресурсов сначала сделали вариант попроще, а теперь пора все переделать правильно.

У концепции Semantic Web есть еще некоторые, и вполне фундаментальные, проблемы, вытекающие из двух предпосылок. Во-первых, design-by-committee: это когда собирается комитет из самых именитых ученых, и разрабатывает Абсолютно Логичный Стандарт Который Никому Не Нравится. Во-вторых, "дилемма новой платформы": пока не накоплено достаточного количества "семантических страниц" - не будет создано серьезной инфраструктуры для работы с ними; а пока нет инфраструктуры - не будет расти количество страниц. Но основной leak (пробоина?) всей "семантической" идеи - кажется, в том, что Тим Бернерс-Ли отвергает собственный бесценный опыт, полученный при создании WWW, признавая этот опыт ошибочным.

Возмутительная простота гипертекста

Здесь нужно заметить, что Самый Первый Прототип того, что когда-нибудь станет Повсеместно Протянутой Паутиной, программа Enquire, созданная Бернерсом-Ли в конце 80-х, была намного совершеннее (?) и сложнее сегодняшнего Веба. По словам Тима (из его книги "Сплетая Паутину"), в Enquire ссылки между "страницами" обязательно содержали информацию об отношениях этих страниц; нельзя было создать страницу, на которую не ведет ни одна ссылка; все ссылки были двунаправленными - в общем, очень мощный был инструмент.

В процессе скрещивания идей Enquire, понятия гипертекста и молодого Интернета, "методом последовательных упрощений" бОльшая часть всех этих "фич" была утеряна - в угоду простоте создания страниц и децентрализованности всей структуры. Тим тогда сделал Самую Простую Вещь, Которая Может Работать - и победил.

Системы, организовывающие информацию в форме гипертекста, создавались и до Бернерса-Ли: "прародитель всех" - Memex, изобретенный еще в почти-докомпьютерную эру (1945!); NLS Дугласа Энгельбарта, более известного как изобретатель манипулятора "мышь"; Xanadu другого патриарха - Теда Нельсона, который и ввел термин "гипертекст". Все эти системы, как и изначальный Enquire Бернерса-Ли, проектировались как сложные инструменты для научной работы; в реальной жизни массово не использовалась ни одна (вообще говоря, физически создана была только NLS, да и то не в полном объеме; Xanadu и Memex были воспроизведены энтузиастами-историками уже в наши дни). С точки зрения настоящего ученого, наш сегодняшний Веб - чудовищно упрощенная пародия на "настоящие гипертекстовые системы".

Да вот беда - он-то, этот Веб, и стал новой средой обитания прогрессивного человечества, и с легкой руки его создателя "будущий атомный век", внезапно оказался "информационным".

Вряд ли ошибкой будет предположить, что именно простота и всем-понятность сегодняшнего гипертекста - основной фактор его взрывного распространения. Так же как и "возмутительная" снисходительность к способам представления информации: как бы неправильно ни была сформирована веб-страница, она все равно будет отображена (ни один браузер не выдаст сообщения "Некорректная страница, не стану ее отображать!" - в этой традиции заложен глубокий смысл).

Еще пример: больным вопросом ранних систем гипертекста был механизм обеспечения "целостности" ссылок: как гарантировать, что страница по ссылке существует? Проблема, разрешенная Бернерсом-Ли с удивительным изяществом: а не надо ничего гарантировать, можно просто выдать специальную страницу-ошибку.

Простые решения сложных проблем и снисходительность к соблюдению стандартов - плоть и кровь Веба. Неслучайно ведь все стандарты W3C носят гордое название "Recommendations". Этот подход - причина всего: и того, что в Вебе живут не только и не столько ученые; и того, что люди, не знающие HTML, создают лучший в мире поисковик; и засилье фриков, спам-сайтов и прочего мусора - все оттуда.

Но если считать Семантический Веб - будущим, то все эти базовые принципы придется отвергнуть. И в "новый, лучший, правильный" Веб пускать только тех, кто способен разметить свои странички идеально правильно - а то что ж, этот *еб-мастер тег < li > поставить не способен, а мы ему доверим размечать смысл страницы? ... Не говоря уж о намеренно неверной "разметке смысла".

Четыре коня Веба

- Так что ж? - спросите вы, - Выходит, никуда Веб не будет развиваться, выходит - стагнация?

- Это же как же "никуда"? - офигею я. - Это называется "не развиваться"? И Тим-о''Рейли вам, значит, уже никто; и AJAX не греет, и по Википедиям не ходите? Кто скажет, что за последний, ну, пусть даже - год, Веб в своем развитии стоял на месте, пусть первым бросит.

Просто нужно признать что Веб - это всего лишь текст-со-ссылками. На том стоим. Все эти картинки-звуки-анимации, флеши, жаваскрипты, аяксы-шмаяксы, сверхсовременные браузеры - они до тех пор вписываются в поступь прогресса, пока не пытаются этот текст-со-ссылками отменить, запретить, переделать, превзойти. Изрядный кусок всей мировой информации уже переведен в формат HTML, или же только в нем и существует. К этому можно добавить - новые способы представления-отображения, новые методы навигации, синдикации какие-то; но это уже нельзя изменить - прийти и сказать "а теперь мы будем всю эту информацию в другом формате хранить и создавать".

А оттого развитие Веба идет в такую сторону, чтобы уже существующий контент было проще доставлять (RSS/Atom), удобнее просматривать (браузеры с поддержкой пользовательских стилей и продвинутых плагинов, да и тот же AJAX), крепче связывать (различные веб-сервисы, двунаправленные ссылки - trackback/pingback для блогов). Или - чтобы новый контент можно было создавать вообще без знания каких-нито там стандартов и технологий: те же блоги и вики. Создание, Связывание Ссылками, Доставка, Просмотр - основные ценности Веба, были таковыми и остаются; они и определяют развитие новых технологий. А если технология к этим ценностям отношение имеет слабое (Flash, например) так и жить ей на задворках "эффектов оформления".

Интересно, что в этом контексте понемногу всплывают недооцененные когда-то элементы систем "правильного гипертекста" - те, что готовы работать в поддержку Четырех Ценностей. Скажем, давняя идея Дугласа Энгельбарта о том, что ссылаться можно не только на статью целиком, но и на абсолютно любую ее часть, постепенно "находит себя" - сначала в ссылках-якорях, потом в purple numbers, и совсем недавно - в новом сервисе, который позволяет сослаться на любую цитату на странице, не изменяя саму эту страницу. И это - определенно удобно. Даже претенциозный Сами-Знаете-Кто убрал из своего Ководства некогда активно пропагандируемое "якорям - нет" и снабдил каждый абзац Ководства purple number''ом (но у нас все ходы записаны).

И сам патриарх Энгельбарт, кстати, вовсе даже не почил на лаврах. В свои 81 он получил грант на воспроизведение своих лучших идей (с помощью все того же AJAX и плагинов к Firefox) в контексте сегодняшнего Веба. Чем выгодно отличается от патриарха Нельсона, и по сию пору развлекающего блаародную публику гневными статьями на тему "почему Веб - это Лажа, и как надо было его делать На Самом Деле". Столь же выгодно отличается он и от Бернерса-Ли, который тоже "знает, как надо было".

PS: К слову сказать, немногочисленные опыты семантизма, построенного на отдельно взятом сайте, чтой-то не впечатляют.

Источник: Вебпланета

...

Web2x search site demo launched
...

Web2x is a new platform for publishing and search content on web2 – the second generation of web consisting of web documents and semantic data. I released the demo for the Web2x publishing software last month. And now, the Web2x search engine is online as a demo. You can check how it searches web documents as well as semantic data on the same site.

Go to Web2x search engine demo, and try search term “semantic web”. Since it is demo only, its current content has web pages and semantic data only from web2express.org.

Web2x platform can potentially bring a new leveled playing field to everyone in the R&D community, including researchers as well as companies providing R&D tools. Researchers can use the free web2x publishing software to self-publish research data to the web in HTML and RDF format at the same time. Current software implements the SPE ontology for self-publishing of experiments. Web2x search engine will crawl web sites that are powered by the web2x publishing software and make the web documents as well as semantic data available for search.

...

Результаты поиска и ...
...

Web2x search site demo ИПС

...