Борис Пасхавер - Pandas в действии
Название: | Pandas в действии | |
Автор: | Борис Пасхавер | |
Жанр: | Учебники и самоучители по компьютеру | |
Изадано в серии: | неизвестно | |
Издательство: | неизвестно | |
Год издания: | - | |
ISBN: | неизвестно | |
Отзывы: | Комментировать | |
Рейтинг: | ||
Поделись книгой с друзьями! Помощь сайту: донат на оплату сервера |
Краткое содержание книги "Pandas в действии"
Читаем онлайн "Pandas в действии". [Страница - 173]
последовательность Series переменной Chocolate_flavors:
In
[39] chocolate_flavors = (
ice_cream["Description"]
.str.extract(r"(\bChocolate\s\w+)")
.dropna()
.squeeze()
)
Конечная цель, напомню, — определить, какие ингредиенты следуют за словом
Chocolate. Вызовем метод str.split, чтобы разбить каждую строку по пробелам.
Однако вместо строки с одним пробелом мы передадим аргумент с регулярным
выражением. Напомню, что метасимвол \s соответствует одному пробельному
символу:
In
[40] chocolate_flavors.str.split(r"\s").head()
Out [40] 2
[Chocolate, Ice]
4
[Chocolate, Cookie]
8
[Chocolate, Ice]
9
[Chocolate, Ice]
13
[Chocolate, Cookie]
Name: 0, dtype: object
Метод str.get извлекает значение из соответствующей позиции в каждом спис
ке в последовательности Series. В следующем примере мы извлекаем второй
элемент (индекс 1) из каждого списка, или, что то же самое, слово, следующее
за Chocolate в исходной строке:
In
[41] chocolate_flavors.str.split(r"\s").str.get(1).head()
Out [41] 2
Ice
4
Cookie
8
Ice
9
Ice
13
Cookie
Name: Chocolate, dtype: object
510 Приложения
Ради любопытства вызовем метод value_counts, чтобы увидеть наиболее часто
встречающиеся слова, следующие за словом Chocolate во всех видах мороженого.
Неудивительно, что Ice является победителем по частоте встречаемости. За ним
с большим отставанием следует слово Cookie:
In
[42] chocolate_flavors.str.split(r"\s").str.get(1).value_counts()
Out [42] Ice
11
Cookie
4
Chip
3
Cookies
2
Sandwich
2
Malt
1
Mint
1
Name: Chocolate, dtype: int64
Регулярные выражения предлагают богатый возможностями способ поиска
в тексте по шаблонам. Я надеюсь, что вы достаточно хорошо поняли преимущества регулярных выражений и получили представление о том, как применять
их при использовании различных методов в pandas.
Борис Пасхавер
Pandas в действии
Перевели с английского Л. Киселева, И. Пальти
Руководитель дивизиона
Руководитель проекта
Ведущий редактор
Литературный редактор
Корректоры
Верстка
Ю. Сергиенко
А. Питиримов
Н. Гринчик
Н. Куликова
Е. Павлович, Н. Терех
Г. Блинов
Изготовлено в России. Изготовитель: ООО «Прогресс книга».
Место нахождения и фактический адрес: 194044, Россия, г. Санкт-Петербург,
Б. Сампсониевский пр., д. 29А, пом. 52. Тел.: +78127037373.
Дата изготовления: 12.2022. Наименование: книжная продукция. Срок годности: не ограничен.
Налоговая льгота — общероссийский классификатор продукции ОК 034-2014, 58.11.12 — Книги печатные
профессиональные, технические и научные.
Импортер в Беларусь: ООО «ПИТЕР М», 220020, РБ, г. Минск, ул. Тимирязева, д. 121/3, к. 214, тел./факс: 208 80 01.
Подписано в печать 18.10.22. Формат 70×100/16. Бумага офсетная. Усл. п. л. 41,280. Тираж 700. Заказ 0000.
--">
In
[39] chocolate_flavors = (
ice_cream["Description"]
.str.extract(r"(\bChocolate\s\w+)")
.dropna()
.squeeze()
)
Конечная цель, напомню, — определить, какие ингредиенты следуют за словом
Chocolate. Вызовем метод str.split, чтобы разбить каждую строку по пробелам.
Однако вместо строки с одним пробелом мы передадим аргумент с регулярным
выражением. Напомню, что метасимвол \s соответствует одному пробельному
символу:
In
[40] chocolate_flavors.str.split(r"\s").head()
Out [40] 2
[Chocolate, Ice]
4
[Chocolate, Cookie]
8
[Chocolate, Ice]
9
[Chocolate, Ice]
13
[Chocolate, Cookie]
Name: 0, dtype: object
Метод str.get извлекает значение из соответствующей позиции в каждом спис
ке в последовательности Series. В следующем примере мы извлекаем второй
элемент (индекс 1) из каждого списка, или, что то же самое, слово, следующее
за Chocolate в исходной строке:
In
[41] chocolate_flavors.str.split(r"\s").str.get(1).head()
Out [41] 2
Ice
4
Cookie
8
Ice
9
Ice
13
Cookie
Name: Chocolate, dtype: object
510 Приложения
Ради любопытства вызовем метод value_counts, чтобы увидеть наиболее часто
встречающиеся слова, следующие за словом Chocolate во всех видах мороженого.
Неудивительно, что Ice является победителем по частоте встречаемости. За ним
с большим отставанием следует слово Cookie:
In
[42] chocolate_flavors.str.split(r"\s").str.get(1).value_counts()
Out [42] Ice
11
Cookie
4
Chip
3
Cookies
2
Sandwich
2
Malt
1
Mint
1
Name: Chocolate, dtype: int64
Регулярные выражения предлагают богатый возможностями способ поиска
в тексте по шаблонам. Я надеюсь, что вы достаточно хорошо поняли преимущества регулярных выражений и получили представление о том, как применять
их при использовании различных методов в pandas.
Борис Пасхавер
Pandas в действии
Перевели с английского Л. Киселева, И. Пальти
Руководитель дивизиона
Руководитель проекта
Ведущий редактор
Литературный редактор
Корректоры
Верстка
Ю. Сергиенко
А. Питиримов
Н. Гринчик
Н. Куликова
Е. Павлович, Н. Терех
Г. Блинов
Изготовлено в России. Изготовитель: ООО «Прогресс книга».
Место нахождения и фактический адрес: 194044, Россия, г. Санкт-Петербург,
Б. Сампсониевский пр., д. 29А, пом. 52. Тел.: +78127037373.
Дата изготовления: 12.2022. Наименование: книжная продукция. Срок годности: не ограничен.
Налоговая льгота — общероссийский классификатор продукции ОК 034-2014, 58.11.12 — Книги печатные
профессиональные, технические и научные.
Импортер в Беларусь: ООО «ПИТЕР М», 220020, РБ, г. Минск, ул. Тимирязева, д. 121/3, к. 214, тел./факс: 208 80 01.
Подписано в печать 18.10.22. Формат 70×100/16. Бумага офсетная. Усл. п. л. 41,280. Тираж 700. Заказ 0000.
--">