Реферат: Выделение ключевых слов в текстовых документах
Рубрика: Информатика , компьютерные науки
Вид: реферат
Язык: русский
Размер файла: 125 кБ
Скачать реферат
Вид: реферат
Язык: русский
Размер файла: 125 кБ
Во всех текстовых документах, созданных человеком, можно выделить статистические закономерности. В любом языке есть слова, которые встречаются чаще, чем остальные, но не имеют значения. Есть слова, которые встречаются реже, но имеют намного большее смысловое значение.
В 1949 году Джордж Ципф (George Kingsley Zipf) гарвардский профессор-лингвист и филолог, работая над принципом наименьшего усилия, сформулировал несколько закономерностей. Данные законы получены не на основе математических выводов, а на основе анализа статистики частоты слов текстах на многих языках, то есть эмпирически.
В то время, когда Ципф сформулировал подмеченные им закономерности распределения частоты слов, законом они не считались – еще не было компьютеров и нельзя было провести точные расчеты, подтверждающие выявленные закономерности. В последующем были проведены многочисленные исследования, которые подтвердили и уточнили подмеченные закономерности. Также ведущую роль в обосновании законов сыграли работы Б. Мандельброта.
В частности Ципф положил, что слова с большим количеством букв встречаются в тексте реже коротких слов. Основываясь на этом постулате, Ципф вывел два универсальных закона.
1. Apte, C., Damerau, F.J., Weiss, S.M., Automated learning of decision rules for text categorization. ACM Transactions on Information Systems 12, 3, 233–251., 1994
2. Dagan, I., Karov, Y., Roth, D., Mistake-driven learning in text categorization. In Proceedings of the 2nd Conference on Empirical Methods in Natural Language Processing (Providence, US, 1997), pp. 55–63., 1997
3. Fuhr, N., Govert, N., Lalmas, M., and Sebastiani, F., Categorisation tool: Final prototype. Deliverable 4.3, Project LE4–8303 «EUROSEARCH», Commission of the European Communities, 1998
4. Larkey, L.S., Croft, W.B., Combining classifiers in text categorization. In Proceedings of SIGIR 96, 19th ACM International Conference on Research and Developmentin Information Retrieval (Zurich, CH, 1996), pp. 289–297., 1996
5. Lewis, D.D., An evaluation of phrasal and clustered representations on a text categorization task. In Proceedings of SIGIR 92, 15th ACM International Conference on Researchand Development in Information Retrieval (Kobenhavn, DK, 1992), pp. 37–50., 1992
6. Salton, G. and McGill, M.J. Introduction to modern information retrieval. McGraw-Hill, 1983.
7. T. Joachims A probabilistic analysis of the rocchio algorithm with TFIDF for text categorization In Proc. of the ICML'97, 143–151, 1997.
8. Андреев А.М. Березкин Д.В. Сюзев В.В., Шабанов В.И. Модели и методы автоматической классификации текстовых документов // Вестн. МГТУ. Сер. Приборостроение. М.: Изд-во МГТУ. – 2003. – №3.
9. Андреев А.М., Березкин Д.В., Морозов В.В., Симаков К.В. Автоматическая классификация текстовых документов с использованием нейросетевых алгоритмов и семантического анализа НПЦ «ИНТЕЛЛЕКТ ПЛЮС» Бесплатно скачать реферат "Выделение ключевых слов в текстовых документах" в полном объеме
В 1949 году Джордж Ципф (George Kingsley Zipf) гарвардский профессор-лингвист и филолог, работая над принципом наименьшего усилия, сформулировал несколько закономерностей. Данные законы получены не на основе математических выводов, а на основе анализа статистики частоты слов текстах на многих языках, то есть эмпирически.
В то время, когда Ципф сформулировал подмеченные им закономерности распределения частоты слов, законом они не считались – еще не было компьютеров и нельзя было провести точные расчеты, подтверждающие выявленные закономерности. В последующем были проведены многочисленные исследования, которые подтвердили и уточнили подмеченные закономерности. Также ведущую роль в обосновании законов сыграли работы Б. Мандельброта.
В частности Ципф положил, что слова с большим количеством букв встречаются в тексте реже коротких слов. Основываясь на этом постулате, Ципф вывел два универсальных закона.
Список использованной литературы:
1. Apte, C., Damerau, F.J., Weiss, S.M., Automated learning of decision rules for text categorization. ACM Transactions on Information Systems 12, 3, 233–251., 1994
2. Dagan, I., Karov, Y., Roth, D., Mistake-driven learning in text categorization. In Proceedings of the 2nd Conference on Empirical Methods in Natural Language Processing (Providence, US, 1997), pp. 55–63., 1997
3. Fuhr, N., Govert, N., Lalmas, M., and Sebastiani, F., Categorisation tool: Final prototype. Deliverable 4.3, Project LE4–8303 «EUROSEARCH», Commission of the European Communities, 1998
4. Larkey, L.S., Croft, W.B., Combining classifiers in text categorization. In Proceedings of SIGIR 96, 19th ACM International Conference on Research and Developmentin Information Retrieval (Zurich, CH, 1996), pp. 289–297., 1996
5. Lewis, D.D., An evaluation of phrasal and clustered representations on a text categorization task. In Proceedings of SIGIR 92, 15th ACM International Conference on Researchand Development in Information Retrieval (Kobenhavn, DK, 1992), pp. 37–50., 1992
6. Salton, G. and McGill, M.J. Introduction to modern information retrieval. McGraw-Hill, 1983.
7. T. Joachims A probabilistic analysis of the rocchio algorithm with TFIDF for text categorization In Proc. of the ICML'97, 143–151, 1997.
8. Андреев А.М. Березкин Д.В. Сюзев В.В., Шабанов В.И. Модели и методы автоматической классификации текстовых документов // Вестн. МГТУ. Сер. Приборостроение. М.: Изд-во МГТУ. – 2003. – №3.
9. Андреев А.М., Березкин Д.В., Морозов В.В., Симаков К.В. Автоматическая классификация текстовых документов с использованием нейросетевых алгоритмов и семантического анализа НПЦ «ИНТЕЛЛЕКТ ПЛЮС» Бесплатно скачать реферат "Выделение ключевых слов в текстовых документах" в полном объеме
|
Поиск рефератов по алфавиту
1. Реферат: Втягнення неповнолітніх у кримінальну діяльність Аналіз стану злочинності серед неповнолітніх, статистичні показники поточного року свідчать, що криміногенна ситуація у молодіжному середовищі дедалі ускладнюється. Неповнолітніми ... 2. Реферат: Вугілля та продукти його переробки Якщо нафта і природний газ є основним джерелом насичених і ненасичених вуглеводнів, то відносно ароматичних вуглеводнів, безсумнівно, перевага належить вугіллю. Це тверде паливо по... 3. Реферат: Вугільна галузь як особливий сегмент енергетичної безпеки України Порівняльний аналіз світового досвіду державного управління у вугільній промисловості свідчить, що в усіх вугледобувних країнах діє центральний орган, який виконує від імені держав... 4. Реферат: Вугільна промисловість України і Польщі Реструктуризація вугільної промисловості України не завершена, що вирішальним чином впливає на реалізацію її потенціалу. Причини такого стану – у неефективній участі держави в проц... 5. Реферат: Вулкани Сонячної Системи Однією з проблем, вивчення якої дає змогу порівняти процеси, що відбуваються на планетах, з земними процесами, є проблема вулканізму. Вулканічні процеси — це один з характерних пр... 6. Реферат: Вулканізм і його наслідки В роботі були розглянуті проблеми розвитку і становлення ідей мобілізму у науковому світі, а також розглянули історію розвитку планети Земля на основі цієї теорії. Таким чином, дос... 7. Реферат: Входження Бессарабії і північної Буковини до УССР 22 червня війська 5, 9 і 15 армії почали пророблення деталей операції, а 23 червня Молотов заявив німецькому послові Шуленбурбу про намір СРСР у найближчому майбутньому приєднати д... 8. Реферат: Входження Кримської області до складу УРСР Поважаючи волю населення Кримської області, висловлену на референдумі, Верховна Рада УРСР ухвалила в лютому 1991 року постанову про відновлення Кримської АРСР (після 24 серпня 1991... 9. Реферат: Вчення Платона про ідеальну державу Можна припустити, що така всебічна дріб'язкова регламентація найважливіших вчинків людини, що вона, за сучасними поняттями, повинна вирішувати сама, приведе до роз'єднання л... 10. Реферат: Вывихи, переломы, ушибы, растяжения Огнестрельные переломы - переломы, возникшие в результате воздействия пули или осколка снаряда – сопровождаются раздроблением кости на крупные или мелкие осколки, размозжением мяг...
11. Реферат: Выделение ключевых слов в текстовых документах
Во всех текстовых документах, созданных человеком, можно выделить статистические закономерности. В любом языке есть слова, которые встречаются чаще, чем остальные, но не имеют знач... 12. Реферат: Выигрыш потребителя и производителя Множественность экономических целей при ограниченности ресурсов ставит проблему экономического выбора – выбора наилучшего из альтернативных вариантов их использования, при котором ... 13. Реферат: Выносливость и основы методики ее воспитания В ходе проведения данной работы была изучена научно-методическая литература по теме исследования. Многие авторы занимались изучением данного вопроса, каждый из них давал свое опред... 14. Реферат: Выносливость человека Понятие «выносливость» издавна связывают со способностью человека продолжать более или менее эффективно совершать деятельность вопреки наступающему утомлению. Как известно, утомле... 15. Реферат: Выполнение графической части курсового проекта Размеры на строительных чертежах наносят в соответствии с ГОСТ 2.307-68 и ГОСТ 21.105-79. Размеры на строительных чертежах, как и на машиностроительных, наносят в миллиметрах, б... 16. Реферат: Выращивание грибов Грибы весьма разнообразны по внешнему виду, местам обитания и физиологическим функциям. Однако у них есть и общие черты. Основой вегетативного тела грибов является мицелий, или гри... 17. Реферат: Вычисление интегралов В завершении работы, хочется отметить ряд особенностей применения рассмотренных выше методов. Каждый способ приближённого решения определённого интеграла имеет свои преимущества... 18. Реферат: Вычисление определенных интегралов Задача вычисления определенного интеграла в случаях, когда невозможно аналитически получить первообразные, может быть решена с помощью квадратурных формул. Основная идея построени... 19. Реферат: Выявление закономерностей развития скоростно-силовых качеств в возрастном аспекте Исследования многих авторов показали, что по уровню скоростно-силовой подготовленности (прыгучести) занимающихся можно в большой мере судить об их общей и специальной физической по... 20. Реферат: Вьетнам Вьетнам — страна в Юго-Восточной Азии, на полуострове Индокитай. С Востока Вьетнам омывается Южно-Китайским морем и его частью — заливом Бакбо, с Юго-Запада — Сиамским заливом. В... 21. Реферат: Вьетнамская империя Чтобы заручиться поддержкой вьетнамцев, Япония заявила, что она возвращает власть над Вьетнамом законным представителям династии Нгуен, и 11 марта 1945 года была провозглашено рест... |