Свою магистрантскую работу я решил посвятить графам, потому что во-первых мне показалось что в ТТУ я о них мало слышал, а во-вторых потому что моя бакалаврская работа была связана с индексацией сети. Сначала я хотел отрисовать эстонский сегмент .ee доменов, но потом решил что можно переключиться на социальные сети и поизучать их особенности. Надо сказать что интересные темы только и проносились мимо - то твиттер-революция в арабском мире, то выборы и скайп-падения в Эстонии.. Жаль что из-за большой ширины выбранной темы, не удалось именно эти темы исследовать более пристально.
В практической части я использовал Gephi и написал свой инструмент для рисования. Вы также можете помочь в коллективном переводе работы на английский.
Introduction
The Internet has over 90 million domains [1], over 70 million personal blogs [2] which are viewed by over 1 billion people around the world [3]. In this vast space of information it is important to create order even without global scale. This may be done either by building classification catalog or a search engine. Both of them require a web-crawling tool to ease the burden of manual data processing. How it can be built is a question this work raises.
Deciding architecture scale is the first step. Data management functions, such as link extraction, can be divided among system components – crawler, indexer, ranker, lexicon due to robustness requirements. For example Google has over 200 000 servers [4], and dividing processing and network loads is essential for building fast and reliable computation processes.
The way crawler interprets data and how it is used further leads to the following types:
- Knowledge focused crawlers classify page by topic, extract only relevant data, use data mining filters and interact with data more like humans do.
- Freshness crawlers extract data fast and regularly, analyze what has changed, adjust to update frequency. This is used by news and RSS feed crawlers.
- Experience crawlers focus on making full document copy and storing it for a long time. A good example is Internet archive [5] and backup services.
In practical part of this thesis, a general crawler is designed, which incorporates basic methods from these types, but its main aspect is the agility if offers for the developers. This data extraction tool, can be used on most of modern hosting platforms. For source storage - a single MySQL database [6] is used and entire crawler application source is written in PHP [7] server-side language which is run in CLI mode on Apache server [8].
Although market offers many services that index, order and provide data, the author found few solutions that were available with open source and under LAMP. Data extraction tools are needed more than ever and not only with indexing a page, but with tracking changes, exporting data to other applications, analyzing an existing web-site. That is why the author has decided to make own program which would be available for changes to open public. Examining different algorithms should clear out its purposes and what is the most suitable for this work.
Some loss of fidelity can be seen because of reformat to Word 2003 version.
Защита диплома в ТТУ дело обыкновенное - достаточно сделать презентацию на 15 минут о том какая проблема решалась. Ввиду специфики области (академическая защита) и ограниченность по времени (всё идёт как по конвейеру), надо постараться выжать самый концентрат сока.
В общем надо ответить на три вопроса
- Какая проблема?
- На каких теоретических и практических исследованиях работа основывалась, есть ли соавторы
- Какие получены новые результаты и какие последствия открываются для будующего поколения учёных
Если презентация делается на 15 минут, то надо не более 15 слайдов где по минимуму будет содержание. Помните, что вы не энциклопедию передаёте поколению, а делаете для себя визуальную помощь. Заранее скажите как вы будете отвечать на вопросы (сразу или в конце).
В целом содержание слайдов такое..
- Заголовок, автор, руководитель..
- Содержание о чём будете говорить
- Цель работы
- Область работы (введение)
- Основное описание вашей практической работы
- Результаты
- Благодарности и вопросы
Академическая защита это не продажа товара клиентам (хотя очень похоже). Вы не должны казаться дизайнером, вы должны показать компетентность в полученных за годы учёбы знаниях, связи с коллегами, наконец умение пользоваться библиотекой.
Если у вас какой-то проект который вы хотели бы показать но боитесь недоступности интернета или неожиданностей, то запишите короткий скринкаст.
По теме: